Amazon Web Services 한국 블로그

Amazon FSx for OpenZFS, 데이터 이동 없이 Amazon S3 접근 지원

오늘부터 Amazon FSx for OpenZFSAmazon S3 Access Points를 연결하여, 마치 Amazon Simple Storage Service(Amazon S3)에 있는 것처럼 파일 데이터에 액세스할 수 있습니다. 이 새로운 기능을 통해 FSx for OpenZFS의 데이터에 액세스하여, S3와 연동되는 인공지능, 기계 학습(ML), 분석을 위한 다양한 Amazon Web Services(AWS) 서비스 및 애플리케이션에서 활용할 수 있습니다. 파일 데이터는 계속해서 FSx for OpenZFS 파일 시스템에 저장됩니다.

많은 조직이 수백 엑사바이트에 달하는 파일 데이터를 온프레미스에 저장하고 있으며, 민첩성, 안정성, 보안, 확장성 향상과 비용 절감을 위해 이를 AWS로 이전하고자 합니다. 파일 데이터가 AWS에 저장되면, 조직들은 이를 바탕으로 더 많은 활용과 확장을 추구하는 경우가 많습니다. 예를 들어, 기업 데이터로 생성형 AI 애플리케이션을 고도화하고, AWS의 광범위한 생성형 AI 및 기계 학습 서비스를 활용해 기계 학습 모델을 구축하고 학습시키고자 합니다. 또한, 파일 데이터를 새로운 AWS 애플리케이션에서도 자유롭게 활용할 수 있는 유연성을 원합니다. 그러나 많은 AWS 데이터 분석 서비스와 애플리케이션은 Amazon S3에 저장된 데이터를 데이터 레이크로 활용할 수 있도록 설계되어 있습니다. 마이그레이션 이후에는 Amazon S3를 데이터 소스로 활용하는 다양한 도구를 사용할 수 있습니다. 기존에는 Amazon FSx for OpenZFS 파일 시스템과 Amazon S3 버킷 간에 데이터를 복사하기 위해 데이터 파이프라인이 필요했습니다.

FSx for OpenZFS 파일 시스템에 연결된 Amazon S3 Access Points는 파일 프로토콜과 Amazon S3 API 작업을 통해 통합된 접근 방식을 제공하여, 데이터 이동과 복사 필요성을 없애줍니다. GetObject, PutObject, ListObjectsV2를 비롯한 S3 Object 작업을 통해 파일 데이터를 읽고 쓸 수 있습니다. 파일 시스템에 수백 개의 액세스 포인트를 연결할 수 있으며, 각 S3 액세스 포인트는 애플리케이션별 권한으로 설정됩니다. 이 액세스 포인트들은 AWS 아이덴티티 및 액세스 관리(IAM) 액세스 포인트 정책, 퍼블릭 액세스 차단, 가상 프라이빗 클라우드(VPC)에 대한 액세스 제한과 같은 네트워크 출처 제어를 포함하여, S3 버킷에 연결된 S3 액세스 포인트와 동일한 세분화된 권한 제어를 지원합니다. 데이터가 FSx for OpenZFS 파일 시스템에 저장되기 때문에, 네트워크 파일 시스템(NFS)를 이용해 계속 데이터를 액세스할 수 있으며, 기존 데이터 관리 기능도 그대로 사용할 수 있습니다.

Amazon FSx for OpenZFS의 파일 데이터를 활용해, 검색 증강 생성(RAG) 워크플로를 위한 Amazon Bedrock으로 생성형 AI 애플리케이션을 구동하고, Amazon SageMaker로 기계 학습 모델을 학습시키며, 마치 데이터가 S3에 있는 것처럼 S3 API를 사용해 Amazon AthenaAWS Glue로 분석 또는 비즈니스 인텔리전스(BI)를 실행할 수 있습니다. 또한 데이터를 이동하거나 리팩토링하지 않고도 Apache SparkApache Hive와 같은 오픈 소스 도구를 활용해 인사이트를 도출할 수 있습니다.

시작하기
Amazon FSx 콘솔, AWS Command Line Interface(AWS CLI), 또는 AWS SDK를 사용하여 Amazon FSx for OpenZFS 파일 시스템에 S3 액세스 포인트를 생성하고 연결할 수 있습니다.

시작하려면 Amazon FSx for OpenZFS 파일 시스템 설명서 페이지의 안내에 따라 파일 시스템을 생성한 후, Amazon FSx 콘솔에서 작업으로 이동하여 ‘S3 액세스 포인트 생성’을 선택하면 됩니다. 표준 구성을 유지한 채 생성하세요.

Amazon FSx 콘솔로 이동하여 생성 진행 상황을 모니터링할 수 있습니다.

사용 가능해지면 새 S3 액세스 포인트 이름을 선택한 후, 액세스 포인트 요약을 확인하세요. 요약 정보에는 일반적으로 S3 버킷 이름 대신 사용할 수 있는 자동 생성 별칭이 포함되어 있습니다.

버킷 스타일 별칭을 사용해 S3 API 작업으로 FSx 데이터에 직접 액세스할 수 있습니다.

  • ListObjectsV2 API를 사용하여 객체 나열하기

  • GetObject API를 사용하여 파일 가져오기

  • PutObject API를 사용하여 데이터 쓰기

데이터는 NFS를 통해 계속 액세스할 수 있습니다.

S3 API를 통해 FSx 데이터에 액세스하는 것 외에도, S3의 데이터를 활용하는 다양한 AI, ML, 분석 서비스를 통해 데이터를 처리할 수 있습니다. 예를 들어, 저는 여행 지원 애플리케이션 리포지토리인 ‘WhatsApp 기반 RAG 여행 지원 에이전트: PostgreSQL 지식 검색을 통한 고객 경험 향상’에서 가져온 항공사 고객 서비스 정보가 담긴 PDF 파일들을 데이터 소스로 사용하여 Amazon Bedrock 지식 베이스를 구축했습니다.

Amazon Bedrock 지식 베이스를 생성하기 위해, 지식 베이스 사용자 안내서에 나와 있는 Amazon S3 연결 단계를 따랐습니다. Amazon S3를 데이터 소스로 선택하고, S3 액세스 포인트 별칭을 S3 소스로 입력한 후 지식 베이스를 구성하고 생성했습니다.

지식 베이스가 동기화되면, 모든 문서와 해당 문서의 소스가 S3로 표시됩니다.

지식 베이스에 쿼리를 실행한 결과, Amazon FSx for OpenZFS의 파일 데이터를 사용해 맥락에 맞는 응답을 제공하고, 데이터 이동 없이도 통합이 잘 이루어졌음을 확인했습니다.

알아야 할 사항
통합 및 액세스 제어 – Amazon FSx for OpenZFS의 Amazon S3 Access Points는 S3 엔드포인트를 통해 GetObject, ListObjectsV2, PutObject와 같은 표준 S3 API 작업을 지원하며, AWS Identity and Access Management(IAM) 권한 및 파일 시스템 사용자 인증을 기반으로 한 세분화된 액세스 제어를 제공합니다. S3 액세스 포인트에는 S3 버킷 이름을 사용해 데이터에 액세스할 수 있도록 자동 생성된 액세스 포인트 별칭이 포함되어 있으며, Amazon FSx 리소스에 대한 퍼블릭 액세스는 기본적으로 차단됩니다.

데이터 관리 – 데이터는 Amazon FSx for OpenZFS 파일 시스템에 그대로 저장되면서도 마치 Amazon S3에 있는 것처럼 액세스할 수 있어, 데이터 이동이나 복사 작업이 필요 없으며, 파일 데이터는 NFS 파일 프로토콜을 통해서도 계속 액세스할 수 있습니다.

성능 – Amazon FSx for OpenZFS 파일 시스템의 Amazon S3 Access Points는 S3 버킷 액세스와 유사하게 수십 밀리초 대의 첫 번째 바이트 지연 시간을 보장합니다. 성능은 Amazon FSx 파일 시스템의 프로비저닝된 처리량에 따라 규모가 조정되며, 최대 처리량은 기본 FSx 파일 시스템 구성에 따라 결정됩니다.

요금 – Amazon S3는 표준 Amazon FSx 요금 외에도 S3 액세스 포인트를 통한 요청 및 데이터 전송 비용을 청구합니다. Amazon FSx for OpenZFS 요금 페이지에서 자세히 알아보세요.

Amazon FSx 콘솔, AWS CLI 또는 AWS SDK를 사용하여 Amazon FSx for OpenZFS 파일 시스템에 Amazon S3 Access Points를 연결하여 지금 바로 시작할 수 있습니다. 이 기능은 현재 미국 동부(버지니아 북부, 오하이오), 미국 서부(오리건), 유럽(프랑크푸르트, 아일랜드, 스톡홀름), 아시아 태평양(홍콩, 싱가포르, 시드니, 도쿄) AWS 리전에서 제공됩니다.

Eli