Amazon Web Services ブログ
Amazon SageMaker Catalog の新機能を使用して、データからインサイトを得るプロセスを効率化
現代の組織は、構造化データベース、非構造化ファイル、個別のビジュアライゼーションツールなど、複数の分断されたシステムにまたがってデータを管理しています。その結果、分析ワークフローを遅くし、インサイトの生成を制限する障壁が生じています。個別のビジュアライゼーションプラットフォームは、多くの場合、チームが包括的なビジネスインサイトを抽出するのを妨げる障壁を生じさせます。
これらの分断されたワークフローは、お客様の組織がデータ投資を最大限に活用することを妨げ、意思決定の遅延や、複数のデータタイプを組み合わせた包括的な分析の機会の損失を引き起こします。
7 月 15 日より、Amazon SageMaker の 3 つの新しい機能を使用して、生データから実用的なインサイトを得るまでのプロセスを加速できます:
- Amazon QuickSight との統合 – Amazon SageMaker Unified Studio から Amazon QuickSight を直接起動し、プロジェクトデータを使用してダッシュボードを構築します。その後、Amazon SageMaker Catalog に公開することで、組織全体でより広範な発見と共有が可能になります。
- Amazon SageMaker が SageMaker Catalog で Amazon S3 汎用バケットと Amazon S3 Access Grants のサポートを追加 – Amazon S3 Access Grants を使用したきめ細かなアクセスコントロールを維持しながら、Amazon S3 汎用バケットに保存されたデータ (非構造化データを含むあらゆるタイプのデータ) を、チームがより簡単に見つけて、アクセスし、それらのデータを利用してコラボレーションすることを可能にします。
- レイクハウスからの自動データオンボーディング – 既存の AWS Glue データカタログ (GDC) データセットを、手動セットアップなしで、レイクハウスアーキテクチャから SageMaker Catalog に自動オンボーディングします。
SageMaker のこれらの新しい機能は、統合および統制されたエクスペリエンスにおいて、データライフサイクル全体に対応します。レイクハウスからの既存の構造化データの自動オンボーディング、Amazon S3 内の非構造化データコンテンツのシームレスなカタログ化、QuickSight を通じた効率的なビジュアライゼーションを、一貫したガバナンスとアクセスコントロールの下で実現します。
それぞれの機能についてより詳しく見ていきましょう。
Amazon SageMaker と Amazon QuickSight の統合
この統合により、Amazon SageMaker プロジェクトのデータを使用して Amazon QuickSight でダッシュボードを構築できます。Amazon SageMaker Unified Studio から QuickSight を起動すると、Amazon SageMaker は QuickSight データセットを自動的に作成し、プロジェクトメンバーのみがアクセスできる安全なフォルダに整理します。
さらに、構築したダッシュボードはこのフォルダ内に保存され、SageMaker プロジェクトのアセットとして自動的に表示されます。そこで、それらのダッシュボードを SageMaker Catalog に公開したり、社内ディレクトリ内のユーザーやグループと共有したりできます。これにより、ダッシュボードは SageMaker Unified Studio 内で整理され、検索可能になり、統制された状態が維持されます。
この統合を使用するには、Amazon SageMaker Unified Studio ドメインと QuickSight アカウントの両方が、同じ IAM アイデンティティセンターインスタンスを使用して AWS IAM アイデンティティセンターに統合されている必要があります。さらに、QuickSight アカウントは、QuickSight ブループリントを有効にするのと同じ AWS アカウント内に存在している必要があります。前提条件の詳細については、ドキュメントページをご覧ください。
これらの前提条件を満たしたら、Amazon SageMaker コンソールに移動して [ブループリント] タブを選択することで、Amazon QuickSight のためにブループリントを有効にできます。その後、[Amazon QuickSight] を見つけて、指示に従います。
また、[ブループリントデプロイ設定を追加] で Amazon QuickSight を含めるように [SQL 分析] プロジェクトプロファイルを設定する必要があります。
オンボーディングのセットアップの詳細については、ドキュメントページをご覧ください。
その後、新しいプロジェクトを作成する際に、[SQL 分析] プロファイルを使用する必要があります。
プロジェクトを作成したら、QuickSight を使用してビジュアライゼーションの構築を開始できます。[データ] タブに移動し、視覚化するテーブルまたはビューを選択して、[アクション] で [QuickSight で開く] を選択します。
これにより、Amazon QuickSight の [トランザクション] データセットページにリダイレクトされ、[分析で使用] を選択してデータの探索を開始できます。
QuickSight ブループリントを使用してプロジェクトを作成すると、SageMaker Unified Studio はプロジェクトごとに制限付きの QuickSight フォルダを自動的にプロビジョニングし、SageMaker はすべての新しいアセット (分析、データセット、ダッシュボード) をこのフォルダにスコープ設定します。この統合により、リアルタイムのフォルダ許可同期が維持され、QuickSight フォルダのアクセス許可と、プロジェクトメンバーシップの整合状態が維持されます。
Amazon Simple Storage Service (S3) 汎用バケットの統合
本日より、SageMaker は SageMaker Catalog に S3 汎用バケットのサポートを追加しました。これにより、データの検出可能性が高まり、S3 Access Grants を通じたきめ細かな許可が可能になり、ユーザーは、許可の共有や管理など、データを管理できるようになります。データサイエンティスト、エンジニア、ビジネスアナリストなどのデータコンシューマーは、SageMaker Catalog を通じて S3 アセットを検出し、アクセスできるようになりました。また、この拡張により、データプロデューサーは、単一のインターフェイスを通じて、あらゆる S3 データアセットに対するセキュリティコントロールを管理できるようになります。
この統合を使用するには、適切な S3 汎用バケット許可が必要であり、SageMaker Unified Studio プロジェクトには、データを含む S3 バケットに対するアクセスが付与されている必要があります。前提条件の詳細については、「Amazon S3 data in Amazon SageMaker Unified Studio」ドキュメントページをご覧ください。
既存の S3 バケットに対する接続を追加できます。
接続されると、バケットまたはフォルダを選択して [カタログに公開] を選択することで、アクセス可能なフォルダを参照し、検出可能なアセットを作成できます。
このアクションにより、[S3 オブジェクトコレクション] タイプの SageMaker Catalog アセットが作成され、アセットの詳細ページが開きます。ユーザーはここでビジネスコンテキストを拡張し、検索と検出可能性を改善できます。公開されると、データコンシューマーはこれらのカタログ化されたアセットを検出してサブスクライブできるようになります。データコンシューマーが [S3 オブジェクトコレクション] アセットをサブスクライブすると、SageMaker Catalog は、承認時に S3 Access Grants を使用して自動的にアクセスを付与します。これにより、適切なユーザーのみに適切なアクセスが付与されているようにしながら、チーム間でのコラボレーションを実現できます。
アクセスが付与されると、Amazon SageMaker Jupyter Notebook で非構造化データを処理できるようになります。次のスクリーンショットは、医療ユースケースで画像を処理する例です。
構造化データがある場合は、Amazon Athena を使用してデータをクエリするか、またはノートブックで Spark を使用して処理できます。
S3 Access Grants を通じてこのアクセスが付与されると、S3 データをワークフローにシームレスに組み込むことができます。ノートブックで分析したり、包括的な分析のためにレイクハウスや Amazon Redshift 内の構造化データと組み合わせたりできます。Jupyter Notebook 内のドキュメントや画像などの非構造化データにアクセスして、ML モデルをトレーニングしたり、クエリ可能なインサイトを生成したりできます。
レイクハウスからの自動データオンボーディング
この統合により、すべてのレイクハウスデータセットが SageMaker Catalog に自動的にオンボーディングされます。主な利点は、AWS Glue データカタログ (GDC) データセットを SageMaker Catalog に取り込むことで、一元的なカタログ化、共有、管理のための手動セットアップが不要になることです。
この統合には、構造化データセットを含む Data Catalog を備えた、既存のレイクハウスセットアップが必要です。
SageMaker ドメインをセットアップすると、SageMaker Catalog は、すべてのレイクハウスデータベースとテーブルからメタデータを自動的に取り込みます。これは、SageMaker Unified Studio 内から、設定なしで直ちにこれらのデータセットを探索して使用できることを意味します。
この統合は、SageMaker Unified Studio 内からこれらのアセットの管理、統制、使用を開始し、技術メタデータとビジネスメタデータを統合しながら、他のデータタイプに使用できるのと同じガバナンスポリシーとアクセスコントロールを適用するのに役立ちます。
知っておくべき追加情報
いくつかの留意点を次に示します:
- 利用可能なリージョン – これらの統合は、Amazon SageMaker がサポートされているすべての商用 AWS リージョンでご利用いただけます。
- 料金 – SageMaker Unified Studio、QuickSight、Amazon S3 の標準料金が適用されます。統合自体には追加料金はかかりません。
- ドキュメント – 詳細なセットアップガイドは、SageMaker Unified Studio ドキュメントでご覧いただけます。
Amazon SageMaker Unified Studio コンソールを通じて、これらの新しい統合の使用を開始しましょう。
構築がうまくいきますように!
– Donnie
原文はこちらです。