- 分析›
- AWS Clean Rooms›
- よくある質問
AWS Clean Rooms のよくある質問
全般
すべて開くAWS Clean Rooms は、お客様とお客様のパートナーが、集合的データセットの分析とコラボレーションを簡単に行い、元になるデータを互いに公開することなく新たなインサイトを入手できます。自身のクリーンルームを数分で作成し、パートナーとのデータセット集合の分析を数ステップで開始することができます。 AWS Clean Roomsを使用すると、AWS および Snowflake 内の任意の企業と簡単にコラボレーションできます。関係者が基盤となるデータセットを移動、公開、またはコピーする必要はありません。
AWS Clean Rooms のコラボレーションは、コラボレーションメンバーがパートナーと未加工データを共有することなく SQL、Spark SQL、PySpark 分析を実行して機械学習モデリングを実行できる、安全な論理境界です。コラボレーションに招待された企業のみが参加でき、複数の参加者が Clean Rooms コラボレーションにデータを提供できます。
AWS マネジメントコンソールから、実行したい分析の種類、コラボレーションしたいパートナー、コラボレーションに貢献したいデータセットを選択できます。AWS Clean Rooms では、SQL、PySpark 分析、機械学習の 3 種類の分析を実行できます。
AWS Clean Rooms には、クリーンルームコラボレーションでクエリを実行するための Spark SQL ベースの分析エンジンが用意されています。AWS Clean Rooms Spark SQL ではコンピューティングサイズを設定できるため、パフォーマンス、規模、コスト要件に基づいて SQL クエリを実行するためのリソースをより柔軟にカスタマイズおよび割り当てることができます。 SQL クエリを実行すると、AWS Clean Rooms が、その所在場所からデータを読み取り、組み込みの柔軟な分析ルールを適用するので、データに対する制御を維持できます。AWS Clean Rooms は、各クリーンルーム参加者が実行するクエリに対する制限をカスタマイズできる、クエリコントロール、クエリ出力制限、およびクエリログを含むプライバシー強化 SQL 制御の幅広いセットを提供します。AWS Clean Rooms Differential Privacy では、数学的に裏付けられた直感的なコントロールを数クリックで行うことができるため、ユーザーのプライバシーを保護できます。AWS Clean Rooms Differential Privacy を使用するには、クエリの実行時に必要な差分プライバシーパラメータを設定します。また、Cryptographic Computing for Clean Rooms (C3R) は、SQL 分析中に機密データを暗号化しておくのに役立ちます。
AWS Clean Rooms で PySpark を使用すると、企業とパートナーは、Apache Spark 用の Python API である PySpark を使用して、大規模なデータセットにわたって高度な分析を実行できます。今回のリリースにより、お客様とパートナーは PySpark のコードとライブラリを AWS Clean Rooms コラボレーションに導入することができ、基礎となるデータや独自の分析メソッドを共有することなく高度な分析を実行できます。
AWS Clean Rooms ML により、お客様とパートナーがプライバシー強化機械学習 (ML) を適用して、互いに未加工データを共有せずに予測的なインサイトを生成できるようになります。AWS Clean Rooms ML は、カスタムおよびルックアライクの機械学習 (ML) モデリングをサポートしています。カスタムモデリングを使用すると、基礎となるデータや知的財産を共同作業者間で共有することなく、トレーニング用のカスタムモデルを持ち込み、集合データセットに対して推論を実行できます。ルックアライクモデリングでは、AWS が作成したモデルを使用して、パートナーがコラボレーションに持ち込む少量のプロファイルサンプルに基づいて、類似のプロファイルの拡張セットを生成できます。AWS が作成したモデルを使用する AWS Clean Rooms ML のルックアライクモデリングは、e コマースやストリーミング動画などのさまざまなデータセットで構築され、テストされており、類似モデリングの精度を、代表的な業界ベースラインと比較して最大 36% 向上させることができます。新規顧客の開拓などの実際のアプリケーションでは、この精度の向上は数百万ドルの節約につながります。
AWS マネジメントコンソールまたは API オペレーションを使用してクリーンルームのコラボレーションを作成し、コラボレーションを行う企業を招待します。またコラボレーション内で各参加者が何を行えるかを選択します。その後、参加者は構造化データをクエリする方法に関するルールを設定し、データを利用して ML モデルをトレーニングできます。データセットは参加者のアカウントからコピーされず、必要なときにアクセスされるだけです。AWS Clean Rooms では、SQL、Spark SQL、PySpark の分析と、AWS Clean Rooms ML を使用した ML モデリングなど、実行する分析のタイプを選択できます。SQL 分析を使用する場合、ノーコード分析ビルダー、AWS Clean Rooms Differential Privacy、暗号コンピューティングなどの機能を使用できます。Spark SQL 分析を使用する際は、設定可能なコンピューティングサイズを選択できるため、パフォーマンス、規模、コスト要件に基づいて SQL クエリを実行するためのリソースをより柔軟にカスタマイズおよび割り当てることができます。今回のリリースにより、お客様とパートナーは PySpark のコードとライブラリを AWS Clean Rooms コラボレーションに導入することができ、基礎となるデータや独自の分析メソッドを共有することなく高度な分析を実行できます。AWS Clean Rooms ML では、カスタムまたは AWS が作成した類似モデリングを使用して予測インサイトを生成できます。コラボレーション参加者がデータまたはモデルをコラボレーションに関連付けて分析を実行すると、コラボレーションの出力は指定された Amazon Simple Storage Service (Amazon S3) バケットに保存されます。
AWS Clean Rooms では、Amazon S3、Amazon Athena、または Snowflake のデータを、基になるデータセットを移動、公開、またはコピーすることなく使用できます。AWS Clean Rooms は、クエリの実行時にソースからデータを読み取るため、データセットを別の環境に複製する複雑さとコストを回避できます。AWS Clean Rooms による複数のクラウドとデータソースのサポートの詳細については、こちらをご覧ください。
AWS Clean Rooms では、コラボレーション当たり最大 5 名の参加者をサポートしています。
AWS Clean Rooms コラボレーションに誰が参加できるか、コラボレーションを誰が作成できるか、誰がコラボレーションのための招待に参加できるかをお客様が管理します。誰が参加しているかについては、コラボレーションの参加者同士で見ることができます。また、コラボレーション作成後に新しいアカウントを追加することはできません。ただし、必要に応じて、異なるお客様やパートナーによる新規のコラボレーションを設定できます。ユーザーは、自らのコンテンツに対するアクセスを確立および設定するとともに、自らが制御するユーザー、グループ、許可、認証情報を通じて、AWS サービスおよびリソースに対するアクセスを設定します。
お客様は、基盤となるデータを共有または公開することなく、SQL、Spark SQL、PySpark または AWS Clean Rooms ML モデリングを使用して、パートナーとの集合的なデータセットに関するインサイトを生成できます。AWS Clean Rooms コラボレーションを設定する場合、ユースケースに合わせて、コラボレーションメンバーごとに何が行えるかを指定できます。AWS Clean Rooms コラボレーションに参加すると、コラボレーション参加者は、どの当事者が分析を実行し、どの当事者が結果を受け取り、どの当事者がコンピューティング料金を負担するかについて合意します。そのコラボレーションに招待した人だけが、設定した分析ルールに基づいてインサイトを得ることができます。
Spark SQL 分析では、SQL クエリを実行できるのは 1 人のコラボレーターのみですが、複数のコラボレーターがデータを提供して結果を受け取ることができます。例えば、クエリ出力を別のメンバーに送る場合は、あるメンバーをクエリを記述できるクエリ実行者として指定し、他のメンバーを結果を受け取ることができるクエリ結果レシーバーとして指定できます。これにより、コラボレーションの作成者は、複数のメンバーが分析結果を受け取り、クエリを実行できるメンバーがクエリ結果にアクセスできないようにすることができます。SQL 分析を使用して複数のコラボレーション参加者がデータを提供できますが、SQL クエリを実行して結果を受け取ることができるのは参加者 1 名のみです。例えば、クエリ出力を別のメンバーに送る場合は、あるメンバーをクエリを記述できるクエリ実行者として指定し、別のメンバーを結果を受け取ることができるクエリ結果レシーバーとして指定できます。これにより、コラボレーションの作成者は、クエリを実行できるメンバーがクエリ結果にアクセスできないようにすることができます。
PySpark 分析では、複数のコラボレーション参加者がデータを提供できますが、ジョブを実行できるのは参加者 1 名のみで、ジョブの実行者のみが結果を受け取ることができます。
AWS Clean Rooms ML では、コラボレーション参加者がパートナーから類似セグメントを検索するための基準となるレコードのサンプルセットを持ち込みます。相手方の方が人口が多く、サンプルレコードとの類似性に基づいて類似セグメントを生成します。AWS Clean Rooms ML は、出力された類似セグメントを、類似セグメントの派生元となる人口が多い方の参加者が指定した送信先に送信します。
AWS Entity Resolution は AWS Clean Rooms にネイティブに統合されています。ルールベースまたはデータサービスプロバイダーベースの照合を使用して、プライバシーが強化された AWS Clean Rooms コラボレーション内で、使用することを選択した任意の共通キー (仮名化された識別子など) を使用してユーザーデータを準備、照合、およびパートナーのデータに関連付けることができます。AWS Entity Resolution マッチング機能をコラボレーションに適用するには、Amazon S3 に保存されているデータを使用する必要があります。
AWS Clean Rooms は、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム) で利用可能です。
AWS Clean Rooms では、柔軟な分析ツールとプライバシーを強化する ML を使用してビジネスニーズを満たすことができます。SQL、Spark SQL、PySpark 分析を使用する場合、コラボレーションで実行される SQL クエリまたはジョブのコンピューティング性能についての料金を支払うコラボレーション参加者を柔軟に選択できます。クリーンルーム処理ユニット (CRPU)-時間に基づいて 1 秒単位で課金されます (60 秒間の最低料金あり)。AWS Clean Rooms ML を利用する場合、1,000 件のプロファイルあたりの料金に基づいて、リクエストしたモデルトレーニングと作成された類似セグメントについての料金のみをお支払いいただきます。詳細については、「AWS Clean Rooms の料金」を参照してください。
AWS Clean Rooms の AWS Entity Resolution では、プロバイダーデータセット (LiveRamp など) を活用したルールベースまたはデータサービスプロバイダーベースの照合を使用できます。
ルールベースマッチングを使用する場合、コラボレーションの少なくとも 1 人のメンバーがパートナーのデータセットと照合する前にデータを準備する必要があります。ただし、コラボレーションの作成または参加前に AWS Entity Resolution を使用してデータを準備している場合を除きます。このメンバーは、利用した場合のみデータ準備料金を負担します。コラボレーションに参加しているメンバーなら誰でも、データ照合料金を支払うことができます。また、データ照合にはコラボレーションごとに 1 回限りの料金が必要で、この料金はデータ照合の費用を支払うすべてのコラボレーション参加者に割り当てられます。
データサービスプロバイダーベースの照合を使用する場合、プロバイダー ID を使用してデータを準備するには、すべてのコラボレーションメンバーがプロバイダーサブスクリプションを取得している必要があります。すべてのコラボレーションメンバーは、パートナーのデータセットと照合する前にプロバイダー ID を使用してデータを準備する必要があります。ただし、コラボレーションの作成または参加前に AWS Entity Resolution を使用してデータを準備している場合を除きます。コラボレーションに参加しているメンバーなら誰でも、プロバイダーの ID を使用してデータ照合料金を支払うことができます。さらに、データ照合料金を支払うメンバーは、プロバイダー契約を結んでいる必要があります。AWS Data Exchange (ADX) にリストされているパブリックサブスクリプションを使用することも、任意のデータサービスプロバイダーからプライベートサブスクリプションを直接購入して、ADX に対する Bring Your Own Subscription (BYOS) を使用することもできます。
詳細については、「AWS Clean Rooms の AWS Entity Resolution の料金」を参照してください。
セキュリティとデータ保護
すべて開くデータ保護は AWS のセキュリティ基盤から始まり、AWS Clean Rooms は AWS Identity and Access Management (IAM)、AWS Key Management Service (KMS)、AWS CloudTrail などの AWS セキュリティサービスの上に構築されています。これにより、既存のデータ保護戦略をデータコラボレーションのワークロードにまで拡張できます。AWS Clean Rooms を使用すると、AWS 環境の外部にデータのコピーを保持しておき、他の団体に送信して、消費者のインサイト、マーケティングの測定、予測、リスク評価のために分析を実行する必要がなくなります。
AWS Clean Rooms コラボレーションを設定し、SQL 分析を使用する場合、ユースケースに合わせて、コラボレーションメンバーごとに何が行えるかを指定できます。例えば、クエリの出力を別のメンバーに送る場合は、あるメンバーをクエリを記述できるクエリ実行者として指定し、別のメンバーを結果を受け取ることができるクエリ結果レシーバーとして指定できます。これにより、コラボレーションの作成者は、クエリを実行できるメンバーがクエリ結果にアクセスできないようにすることができます。
AWS Clean Rooms には SQL クエリコントロールもあり、分析ルール設定により、データテーブルで実行するクエリの種類や特定のクエリを制限できます。AWS Clean Rooms は、集計、リスト、カスタムの 3 種類の SQL 分析ルールをサポートします。集計分析ルールを使用すると、集計による統計 (キャンペーン測定やアトリビューションなど) を生成するクエリのみを許可するようにテーブルを設定できます。リスト分析ルールを使用すると、お客様のデータセットと、クエリを実行可能なメンバーのデータセットとの関係の分析のみをクエリで実行するように制御を設定できます。カスタム分析ルールを使用すると、特定のアカウントまたはクエリをデータセットで実行できるようにクエリレベルの制御を設定できます。カスタム分析ルールを使用する場合、Differential Privacy の使用を選択できます。AWS Clean Rooms Differential Privacy では、数学的に裏付けられた直感的なコントロールを数クリックで行うことができるため、ユーザーのプライバシーを保護できます。AWS Clean Rooms のフルマネージド機能であるため、ユーザーの再識別を防ぐために、事前の差分プライバシーの経験は必要ありません。もう 1 つの制御は、集約しきい値です。これにより、クエリが再識別可能な小さなグループに絞り込まれることがなくなります。
AWS Clean Rooms ML では、データはお客様のモデルのトレーニングにのみ使用されます。AWS モデルのトレーニングに使用されることはありません。AWS Clean Rooms ML は、どの会社のトレーニングデータや類似セグメントデータも他の企業と併用しないため、モデルやトレーニングデータはいつでも削除できます。
いいえ。データセットは共同作業者の AWS または Snowflake データレイクに保存され、移動されません。AWS Clean Rooms は、クエリの実行、レコードの照合、ML モデルのトレーニング、シードセグメントの拡張を実行するために、コラボレーション参加者のアカウントから一時的にデータを読み取ります。分析の結果は、分析用に設計された S3 ロケーションに送信されます。データレイクから読み取られたデータは、コラボレーションプロセス中に AWS に永続的に保存されることはなく、AWS Clean Rooms 環境に一時的に読み込まれたデータはクエリの完了時に削除されます。
AWS Clean Rooms の AWS Entity Resolution は、コラボレーションにおける各当事者の識別子をマッピングするデータセットを生成します。マッピングデータセットは AWS Clean Rooms によって管理されます。コラボレーションのメンバーは、マッピングテーブルを表示またはダウンロードできません。コラボレーションのすべてのメンバーがこのプライバシーの適用を緩和することに同意した場合、特定のユースケースについてマッピングテーブルにクエリを実行できます。どちらの当事者も、いつでもテーブルを削除できます。
AWS Clean Rooms ML によって生成されたモデルは、サービスによって保存され、お客様が管理する AWS KMS キーで暗号化できます。また、お客様はいつでも削除できます。
AWS Clean Rooms の暗号化と分析ルールでは、共有する情報の種類を詳細に管理することができます。お客様には、データのコラボレーション参加者として、情報の再特定リスクなどの各コラボレーションにおけるリスクを評価し、すべてのデータプライバシー法に準拠するため、自社独自に追加のデューデリジェンスを実行する責任があります。機密性が高いデータや制限を受けているデータを共有する場合は、適切な法的合意を取り、監査機構を導入して、プライバシーのリスクを低減することをお勧めします。
はい。AWS サービス規約では、AWS Clean Rooms でのコラボレーションについて、一部のユースケースを禁止しています。
はい。AWS HIPAA コンプライアンスプログラムには、AWS Clean Rooms が HIPAA 対応サービスとして含まれています。AWS と事業提携契約 (BAA) を締結している場合は、AWS Clean Rooms を使用して HIPAA 準拠のコラボレーションを作成できるようになりました。BAA を締結していない場合、またはお使いの HIPAA 準拠アプリケーションへの AWS の使用に関してご質問がある場合は、詳細をお問い合わせください。
詳細については、以下のリソースを参照してください。
AWS Clean Rooms ML
すべて開くAWS Clean Rooms ML により、お客様とパートナーがプライバシー強化機械学習 (ML) を適用して、互いに未加工データを共有せずに予測的なインサイトを生成できるようになります。AWS Clean Rooms ML は、カスタムおよびルックアライクの機械学習 (ML) モデリングをサポートしています。カスタムモデリングを使用すると、基礎となるデータや知的財産を共同作業者間で共有することなく、トレーニング用のカスタムモデルを持ち込み、集合データセットに対して推論を実行できます。カスタム ML モデルのトレーニング用に合成データセットを生成することができます。 ルックアライクモデリングでは、AWS が作成したモデルを使用して、パートナーがコラボレーションに持ち込む少量のプロファイルサンプルに基づいて、類似のプロファイルの拡張セットを生成できます。
AWS Clean Rooms ML は、複数のユースケースでお客様をサポートします。たとえば、広告主は独自のモデルとデータを Clean Rooms のコラボレーションに持ち込み、パブリッシャーに自社のデータを組み合わせて、キャンペーンの効果を高めるカスタム ML モデルのトレーニングとデプロイを依頼します。金融機関は、過去の取引記録を使用してカスタム ML モデルをトレーニングしたり、不正の可能性のある取引を検出するために Clean Rooms のコラボレーションにパートナーを招待したりできます。研究機関や病院ネットワークは、臨床試験を加速させるために、既存の臨床試験参加者に似た候補者を見つけることができます。ブランドとパブリッシャーは、市場内の顧客の類似セグメントをモデル化し、関連性の高い広告エクスペリエンスを提供することができ、どちらの企業も基盤となるデータを他方と共有する必要はありません。
AWS Clean Rooms ML のカスタムモデリングを使用すると、独自の機械学習 (ML) モデル、アルゴリズム、およびデータをパートナーとのコラボレーションに持ち込んで、機密データや独自の ML モデルを共有しなくても、集合データセットに対して ML モデルのトレーニングや推論を実行を行うことができます。カスタム ML モデルのトレーニング用に合成データセットを生成することができます。
AWS Clean Rooms ML のカスタムモデリングは ML トレーニングと ML 推論ワークフローをサポートします。どちらのワークフローでも、トレーニングまたは推論ステップのデータセットを生成するために使用される AWS Clean Rooms Spark SQL クエリを定義することから始めます。中間データセットはクリーンルームコラボレーション内に保持され、承認された AWS Clean Rooms ML タスクにのみ使用できます。2 番目のステップは ML モデルトレーニングまたは推論です。ML モデルとコードはコンテナイメージにパッケージ化されます。トレーニング済みのモデルは、コラボレーションで保持し、推論ワークフローの一部として使用したり、その後のトレーニングジョブで更新したりできます。AWS Clean Rooms ML では、データはカスタムモデルのトレーニングにのみ使用され、データは共同作業者間で共有されたり、AWS モデルトレーニングに使用されたりすることはありません。いつでも Clean Rooms ML からデータを削除したり、カスタムモデルを削除したりできます。また、プライバシーが強化されたコントロールを適用して、コラボレーションに持ち込む機密データを保護できます。AWS Clean Room ML のカスタムモデリングを適用するには、分析エンジンとして Spark SQL を使用する必要があります。
AWS Clean Rooms ML のルックアライクモデリングでは、AWS が作成したモデルを使用して、あなたとパートナーの基盤となるデータを保護しながら、パートナーがコラボレーションに持ち込んだプロファイルの小さなサンプルに基づいて類似プロファイルの拡張セットを生成できます。パートナーをクリーンルームに招待し、各コラボレーションに対してトレーニングされる AWS が作成した ML モデルを適用して数ステップで類似データセットを生成できるため、独自のモデルを構築、トレーニング、調整、デプロイするために数か月間かけて開発作業に取り組む必要がありません。e コマースやストリーミング動画などのさまざまなデータセットで構築およびテストされている AWS Clean Rooms ML のルックアライクモデリングは、類似モデリングの精度を、代表的な業界ベースラインと比較して最大 36% 向上させることができます。新規顧客のプロスペクティング活動などの実際の適用場面では、この精度の改善は、数百万 USD のコスト削減につながる場合があります。
AWS Clean Rooms ML のルックアライクモデリングは、ある参加者から少量のレコードのサンプルを採取し、さらに大量のレコードセット、つまり別のコラボレーション参加者のデータセットから類似セグメントを見つけます。結果として得られる類似セグメントの希望のサイズを指定すると、AWS Clean Rooms ML は、サンプルリスト内の固有のプロファイルを、パートナーのデータセット内のプロファイルとプライベートに照合し、コラボレーション参加者のデータセット内の各プロファイルが自らのサンプル内のプロファイルとどの程度類似しているかを予測する ML モデルをトレーニングできます。AWS Clean Rooms ML は、サンプルリストに類似したプロファイルを自動的にグループ化し、結果の類似セグメントを出力します。AWS Clean Rooms ML では、パートナーと共に ML モデルを構築、トレーニング、デプロイする場合でもデータを共有する必要がないのです。AWS Clean Rooms ML では、データはお客様のモデルのトレーニングにのみ使用されます。AWS のモデルトレーニングに使用されることはありません。モデルの予測結果の調整には直感的なコントロールを使用できます。 AWS Clean Rooms ML ルックアライクモデリングを適用するには、トレーニングデータセットで Amazon S3 に保存されているデータを使用する必要があります。シードデータは Amazon S3 に保存することも、コラボレーションで SQL クエリを使用して作成することもできます。
AWS Clean Rooms ML の合成データセット
すべて開く合成データとは、生成 AI テクノロジーなどの現実世界の測定値から観測されるのではなく、アルゴリズムによって生成されたデータです。合成データセット (アルゴリズムによって作成されたデータポイントの集合) は、部分的または完全に架空のものでありながら、実際のデータの統計的特性やパターンを模倣することができます。合成データセットを使用することで、企業は機密情報を漏洩するリスクなしに、AI モデルのトレーニング、分析の実施、アプリケーションの開発を行うことができます。
AWS Clean Rooms ML カスタムモデリングを使用すると、お客様とパートナーは、元のデータからの機密情報を明らかにすることなく、統計的に代表的な合成データセットを集合データから生成し、回帰および分類 ML モデルをトレーニングできます。この機能は、元のデータ内の主題 (データが収集された個人や団体など) を識別できないようにすることで、モデルがトレーニングデータ中の個人に関する情報を記憶するリスクを軽減します。
AWS Clean Rooms ML のプライバシーを強化する合成データセットの生成は、リグレッションモデルや分類モデルのトレーニング用の表形式データセットの作成に最適化されています。データセットは、大規模言語モデル (LLM) やその他の基盤モデルのトレーニングを目的としたものではありません。
合成データセットを作成するには、まず元のデータセットの予測値列を指定してカスタム ML モデルをトレーニングします。AWS Clean Rooms ML は、指定された列から予測を生成するように、データセットのプライバシー強化に特化したモデルをトレーニングします。合成レコードは、データでトレーニングされた特殊なモデルを使用して予測値以外の各列をサンプリングし、最終列を推測することによって生成されます。AWS Clean Rooms ML の合成データセット生成では、キャリブレーションされた量のノイズを予測値に注入することで、予測値以外の値の列間の相関関係が取り除かれます。
いいえ。AWS Clean Rooms ML 合成データセットの生成では、データセットの個々の値が変更または削除されることはありません。合成行は、入力データセットの値からサンプリングすることによって生成されます。入力データセットの任意の値を合成データセットに含めることができます。
メモ: 合成データセットの生成では、元のデータセット内の個人に関する個々の属性を推測することを防ぎます。元のデータセットのリテラル値が合成データセットに表示されないように、個人を特定できる情報 (PII) を除外することをお勧めします。E メール、電話番号、個人番号、住所などの直接的な識別子を元のデータセットに含めないでください。これらは ML 入力チャネルを生成するクエリの結合キーとして使用できますが、合成データセットの生成に使用される分析テンプレートには含めないでください。詳細については、ドキュメントをご覧ください。
まず、パートナーと AWS Clean Rooms コラボレーションを作成し、モデルアルゴリズムとデータセットを定義することから始められます。次に、合成するデータと、ユーザーの再識別を防ぐためのノイズレベルや一般的なセキュリティ脅威からの保護など、重要なプライバシーコントロールの両方を指定する SQL クエリを作成します。すべてのデータ所有者がこの設定を承認すると、合成データ生成プロセスが開始されます。合成データを使用する前に、モデル所有者は元のデータとの統計的類似性とプライバシー保護の強さの両方を示す包括的なメトリクスを確認できます。最後に、この合成データを使用してカスタムモデルをトレーニングし、モデルの重みをエクスポートするか、トレーニングされたモデルで推論ジョブを直接実行できます。今すぐ使用を開始するには、ドキュメントをご覧ください。
PySpark
すべて開くSpark 分析エンジンを使用して AWS Clean Rooms コラボレーションで PySpark スクリプトを実行することを選択できます。PySpark には設定可能なコンピューティングサイズがあり、PySpark ワークロードを実行する際の料金パフォーマンスをより細かく制御できます。
AWS Clean Rooms の PySpark ジョブは、4 個の vCPU、30 GB のメモリ、100 GB のストレージを備えたデフォルトのインスタンスタイプ CR.1X を使用しています。16 個の vCPU、120 GB のメモリ、400 GB のストレージを備えた、より大きな CR.4X インスタンスタイプを選択すると、PySpark ワークロードの実行により多くのリソースを割り当てることができます。インスタンスサイズが大きいと、大量のデータを処理して複雑な分析を実行する PySpark ワークロードにメリットがあり、より多くのリソースにワークロードを分散するのに役立ちます。各設定に関連する vCPU、メモリ、ストレージの詳細については、こちらをご覧ください。
Python スクリプトを柔軟に導入でき、オプションで Python で独自のカスタムライブラリやオープンソースライブラリを提供することもできます。
PySpark を AWS Clean Rooms で使用する場合、別途料金がかかります。PySpark の料金の詳細については、AWS Clean Rooms の料金をご覧ください。
SQL 分析
すべて開くSpark 分析エンジンを使用して、AWS Clean Rooms コラボレーションで Spark SQL ダイアレクトを使用してクエリを実行することを選択できます。AWS Clean Rooms SQL には設定可能なコンピューティングサイズがあり、SQL ワークロードを実行する際の料金パフォーマンスをより細かく制御できます。
AWS Clean Rooms SQL は、4 個の vCPU、30 GB のメモリ、100 GB のストレージを備えたデフォルトのインスタンスタイプ CR.1X を使用しています。16 個の vCPU、120 GB のメモリ、400 GB のストレージを備えた、より大きな CR.4X インスタンスタイプを選択すると、Spark SQL ワークロードの実行により多くのリソースを割り当てることができます。インスタンスサイズが大きいと、大量のデータを処理して複雑な分析を実行する SQL ワークロードにメリットがあり、より多くのリソースにワークロードを分散するのに役立ちます。各設定に関連する vCPU、メモリ、ストレージの詳細については、こちらをご覧ください。
集計分析ルールでは、列レベルの制御を設定できます。これはクエリで各列をどのように使用するかを定義するのに役立ちます。例えば、集計の統計 (SUM(料金) など) を計算するために使用する列や、他のコラボレーションメンバーとテーブルを連結するために使用する列を指定できます。集計分析ルールでは、各出力行が満たす必要がある最小集計しきい値を定義することもできます。最小しきい値に達しない行は、AWS Clean Rooms で自動的に除外されます。
はい。AWS Clean Rooms で、Amazon CloudWatch Logs にクエリログを発行するように設定できます。カスタム分析ルールを使用すると、コラボレーションで実行する前に (分析テンプレートに保存されている) クエリをレビューすることもできます。
AWS Clean Rooms Differential Privacy
すべて開く差分プライバシーは、データプライバシー保護に役立つ数学的に証明されたフレームワークです。差分プライバシーの背後にある主な利点は、分析対象のデータセット内の特定の個人の有無を不明瞭にするため、制御された量のランダム性 (ノイズ) を追加することで、個人レベルでデータを保護できることです。
AWS Clean Rooms Differential Privacy では、数学的に裏付けられた直感的なコントロールを数クリックで行うことができるため、ユーザーのプライバシーを保護できます。AWS Clean Rooms のフルマネージド機能であるため、ユーザーの再識別を防ぐために、事前の差分プライバシーの経験は必要ありません。AWS Clean Rooms Differential Privacy は、コラボレーションにおける集約的なインサイトの生成における個人のデータの寄与をわかりにくくします。これにより、幅広い SQL クエリを実行して、広告キャンペーン、投資の決定、臨床研究などに関するインサイトを生成できます。
AWS Clean Rooms Differential Privacy は、データを提供できるメンバーとして AWS Clean Rooms コラボレーションを開始または参加した後、わずか数ステップで使用を開始できます。AWS Glue データカタログ内のテーブルを参照する設定済みのテーブルを作成したら、設定したテーブルにカスタム分析ルールを追加する際に、差分プライバシーを有効にするだけです。次に、設定したテーブルを AWS Clean Rooms コラボレーションに関連付け、コラボレーションで差分プライバシーポリシーを設定して、テーブルをクエリに使用できるようにします。デフォルトポリシーを使用してセットアップをすばやく完了したり、特定の要件に合わせてカスタマイズしたりできます。 AWS Clean Rooms Differential Privacy をコラボレーションに適用するには、Amazon S3 に保存されたデータを使用する必要があります。
AWS Clean Rooms Differential Privacy が設定されると、コラボレーションパートナーは、ユーザーのテーブルに対してクエリを実行できるようになります。差分プライバシーの概念に関する専門知識やパートナーからの追加設定は不要です。AWS Clean Rooms Differential Privacy を使用すると、クエリ実行者は、共通のテーブル式 (CTE) や、COUNT や SUM などの一般的に使用される集計関数を使用した複雑なクエリパターンなど、カスタムで柔軟な分析を実行できます。
暗号コンピューティング
すべて開く暗号コンピューティングとは、機密データを使用中に保護および暗号化する手法です。保存中、転送のための移動中、使用中にデータを暗号化できます。暗号化とは、プレーンテキストのデータを変換し、特定の「キー」がなければ解読できないようにエンコードすることを意味します。 プライベートセットインターセクション (PSI) は暗号コンピューティングの一種です。これにより、データセットを所有する 2 つ以上の団体が暗号化されたデータを比較し、計算を実行することができます。暗号化は、参加者の共有秘密キーにより、オンプレミスで実行されます。 C3R は Spark SQL 分析エンジンと SQL 分析エンジンの両方で使用できます。
AWS Clean Rooms には、Cryptographic Computing for Clean Rooms (C3R) が含まれます。これは、クライアント側の暗号化ツール (SDK またはコマンドラインインターフェイス (CLI)) を使用して事前に暗号化を行うデータに提供されるオプションで、AWS Clean Rooms コラボレーションの他の参加者が共有する秘密キーを使用します。これでクエリの実行時にデータが暗号化されます。