Amazon Web Services ブログ

Amazon FSx for OpenZFS がデータ移動不要の Amazon S3 アクセスをサポート

6 月 25 日より、Amazon S3 Access PointsAmazon FSx for OpenZFS ファイルシステムにアタッチして、Amazon Simple Storage Service (Amazon S3) に格納されているかのようにデータにアクセスできるようになりました。この新機能を使用すると、S3 と連動する Amazon Web Services (AWS) の幅広い人工知能 (AI)、機械学習 (ML)、分析サービスやアプリケーションで使用するデータとして FSx for OpenZFS 内のデータにアクセスできます。ファイルデータは引き続き FSx for OpenZFS ファイルシステムに格納されます。

組織は数百エクサバイトのファイルデータをオンプレミスで保存しており、このデータを AWS に移動して、優れた俊敏性、信頼性、セキュリティ、スケーラビリティを実現し、コストを削減したいと考えています。ファイルデータの AWS への移動後に、組織がそのデータをさらに活用したいと考えるのはめずらしいことではありません。例えば、多種多様な AWS 生成 AI サービスと機械学習サービスを使用して、エンタープライスデータで生成 AI アプリケーションを強化したり、機械学習モデルをトレーニングしたりすることを考えます。また、新しい AWS アプリケーションで独自のファイルデータを使用する柔軟性も求めています。ところが、AWS データ分析サービスとアプリケーションの多くは、Amazon S3 に保存されたデータをデータレイクとして使用するように構築されており、移行した後で Amazon S3 と連動するツールをデータソースとして使用できます。これまで、これには Amazon FSx for OpenZFS ファイルシステムと Amazon S3 バケット間でデータをコピーするためのデータパイプラインが必要でした。

FSx for OpenZFS ファイルシステムに Amazon S3 Access Points をアタッチすると、ファイルプロトコルと Amazon S3 API 操作の両方を経由する統合アクセスが維持され、データの移動やコピーが必要なくなります。GetObjectPutObjectListObjectsV2 などの S3 オブジェクト操作を使用したファイルデータの読み取りや書き込みが行えます。1 つのファイルシステムに数百個の S3 Access Point をアタッチでき、各 Access Point にはアプリケーション固有の許可を設定できます。これらの S3 Access Point は、S3 バケットにアタッチされる S3 のアクセスポイントと同様のきめ細かなアクセス許可コントロールをサポートします。これには、AWS Identity and Access Management (IAM) アクセスポイントポリシーパブリックアクセスブロックのほか、仮想プライベートクラウド (VPC) へのアクセスを制限するなどのネットワークオリジンコントロールが含まれます。データはそのまま FSx for OpenZFS ファイルシステムに格納されるため、引き続きネットワークファイルシステム (NFS) を使用してデータにアクセスし、既存のデータ管理機能からメリットを得ることができます。

S3 API を使用することで、データが S3 に格納されているかのように Amazon FSx for OpenZFS ファイルシステム内のファイルデータを使用して、検索拡張生成 (RAG) ワークフローのために Amazon Bedrock で生成 AI アプリケーションを強化し、Amazon SageMaker で ML モデルをトレーニングして、Amazon Athena と AWS Glue で分析やビジネスインテリジェンス (BI) を実行できます。また、データを移動したりリファクタリングしたりすることなく、Apache SparkApache Hive などのオープンソースツールを使用してインサイトを生成することも可能です。

始めましょう
S3 Access Point は、Amazon FSx コンソールAWS コマンドラインインターフェイス (AWS CLI)、または AWS SDK を使用して作成し、Amazon FSx for OpenZFS にアタッチできます。

まず、Amazon FSx for OpenZFS ファイルシステムのドキュメントページにある手順に従ってファイルシステムを作成します。次に、Amazon FSx コンソールで [アクション] に移動し、[S3 Access Point を作成] を選択します。 標準設定をそのまま変更せずに作成します。

作成の進行状況は、Amazon FSx コンソールで監視できます。

利用可能になったら、新しい S3 Access Point の名前を選択し、Access Point の概要を確認します。概要には自動生成されたエイリアスが含まれています。このエイリアスは、通常 S3 バケット名を使用する場所ならどこでも機能します。

バケットスタイルのエイリアスを使用すると、S3 API 操作経由で FSx データに直接アクセスできます。

  • ListObjectsV2 API を使用してオブジェクトを一覧表示する

  • GetObject API を使用してファイルを取得する

  • PutObject API を使用してデータを書き込む

データには引き続き NFS 経由でアクセスできます。

S3 API 経由で FSx データにアクセスする以外にも、S3 内のデータを処理する幅広い AI、ML、分析サービスを使用してデータを活用できます。私の例を挙げると、私の旅行サポートアプリケーションリポジトリである WhatsApp-Powered RAG Travel Support Agent: Elevating Customer Experience with PostgreSQL Knowledge Retrieval から取得した航空会社のカスタマーサービス情報が含まれる PDF をデータソースとして使用して、Amazon Bedrock のナレッジベースを作成しました。

Amazon Bedrock のナレッジベースを作成するため、「ナレッジベースの Amazon S3 に接続する」ユーザーガイドの接続ステップを実行しました。データソースとして Amazon S3 を選択し、S3 ソースとして S3 Access Point エイリアスを入力してから、ナレッジベースを設定して作成しました。

ナレッジベースが同期されるとすべてのドキュメントが表示され、ドキュメントソースが S3 になっていることがわかります。

最後に、ナレッジベースに対してクエリを実行し、コンテキストに即した回答を提供するために Amazon FSx for OpenZFS ファイルシステムのファイルデータが正常に使用されたことを確認しました。そうすることで、データの移動を必要としないシームレスな統合が行われたことがわかります。

知っておくべきこと
統合とアクセスコントロール – Amazon FSx for OpenZFS ファイルシステム向けの Amazon S3 Access Points は、S3 エンドポイント経由での標準 S3 API 操作 (GetObject、ListObjectsV2、PutObject など) をサポートし、AWS Identity and Access Management (IAM) の許可とファイルシステムユーザー認証によるきめ細かなアクセスコントロールを使用します。S3 Access Point には、S3 バケット名を使用してデータにアクセスするための自動生成された Access Point エイリアスが含まれています。Amazon FSx リソースへのパブリックアクセスはデフォルトでブロックされます。

データ管理 – データは Amazon FSx for OpenZFS ファイルシステムに留まるものの、Amazon S3 内にあるかのようにアクセスできるため、データを移動またはコピーする必要がなくなります。ファイルデータは引き続き NFS ファイルプロトコル経由でアクセスできます。

パフォーマンス – Amazon FSx for OpenZFS ファイルシステム向けの Amazon S3 Access Points は、S3 バケットアクセスと同様に、数十ミリ秒範囲のファーストバイトレイテンシーを実現します。パフォーマンスは Amazon FSx ファイルシステムのプロビジョンドスループットに合わせてスケールし、最大スループットは基盤となる FSx ファイルシステムの設定に基づいて判断されます。

料金 – Amazon FSx の標準料金に加えて、S3 Access Points 経由のリクエストとデータ転送に対する Amazon S3 料金が請求されます。詳細については、「Amazon FSx for OpenZFS の料金」ページをご覧ください。

Amazon FSx for OpenZFS システムへの Amazon S3 Access Points のアタッチは、Amazon FSx コンソール、AWS CLI、または AWS SDK を使用して今すぐ開始できます。この機能は、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、欧州 (フランクフルト、アイルランド、ストックホルム)、およびアジアパシフィック (香港、シンガポール、シドニー、東京) の各 AWS リージョンでご利用いただけます。

– Eli

原文はこちらです。