- 分析›
- AWS Clean Rooms›
- 常见问题
AWS Clean Rooms 常见问题
一般性问题
全部打开AWS Clean Rooms 可以让您和您的合作伙伴更轻松地分析和协作处理集体数据集,从而获得新洞察,而不泄露基础数据。您可以在几分钟内创建自己的洁净室,然后只需几个步骤即可开始与您的合作伙伴分析您的集体数据集。 借助 AWS Clean Rooms,您可以轻松在 AWS 和 Snowflake 中与任何公司协作,而无需任何一方移动、泄露或复制其基础数据集。
AWS Clean Rooms 协作是安全的逻辑边界,允许协作成员运行 SQL、Spark SQL 和 PySpark 分析,已经进行 ML 建模,而无需与合作伙伴共享原始数据。只有受邀参加协作的公司才能加入,并且多个参与者可以为 Clean Rooms 协作提供数据。
在 AWS 管理控制台中,您可以选择要执行的分析类型、要与之协作的合作伙伴以及想要为协作提供数据的数据集。使用 AWS Clean Rooms,您就可以执行三种类型的分析:SQL 分析、PySpark 分析和机器学习。
AWS Clean Rooms 提供基于 Spark SQL 的分析引擎,可在 Clean Rooms 协作中运行查询。AWS Clean Rooms Spark SQL 提供了可配置的计算大小,因此提高了灵活性,可以根据您的性能、规模和成本要求来自定义和分配资源以运行 SQL 查询。 当您运行 SQL 查询时,AWS Clean Rooms 会在数据所在的位置读取数据,并应用灵活的内置分析规则来帮助您保持对数据的控制。AWS Clean Rooms 提供了一套广泛的隐私增强 SQL 控制,包括查询控制、查询输出限制和查询日志记录,允许您自定义对每个洁净室参与者运行的查询的限制。只需单击几下,AWS Clean Rooms Differential Privacy 差异化隐私管控功能即可通过数学支持的直观控件帮助您保护用户的隐私。您可以通过在运行查询时配置所需的差异化隐私参数来使用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能。而且,Clean Rooms 密态计算(C3R)可帮助您在执行 SQL 分析期间对敏感数据进行加密。
AWS Clean Rooms 中的 PySpark 使公司和其合作伙伴能够使用 PySpark(适用于 Apache Spark 的 Python API)对大型数据集运行复杂的分析。使用 AWS Clean Rooms 中的 PySpark,您和您的合作伙伴就可以将 PySpark 代码和库引入 AWS Clean Rooms 进行协作,并运行高级分析,而无需共享基础数据或专有分析方法。
AWS Clean Rooms ML 可帮助您和您的合作伙伴应用增强隐私的机器学习(ML)来生成预测性洞察,而无需彼此共享原始数据。AWS Clean Rooms ML 支持自定义和相似机器学习(ML)建模。借助自定义建模,您就可以提供自定义模型,以便进行训练并对集体数据集运行推理,而无需在协作者之间共享基础数据或知识产权。借助相似建模,您就可以使用 AWS 制作的模型,根据合作伙伴为协作提供的少量配置文件样本来生成一组扩展的相似配置文件。AWS Clean Rooms ML 相似建模使用 AWS 制作的模型,以电子商务和流式传输视频等多种数据集为基础进行构建和测试,与具有代表性的行业基准相比,其可以帮助客户将相似建模的准确性提高多达 36%。在诸如寻找新客户之类的现实应用中,提高准确性可以转化为节省数百万美元。
使用 AWS 管理控制台或 API 操作,您将创建洁净室协作,邀请要与之协作的公司,并选择协作中每位参与者所拥有的能力。然后,参与者可以设置如何查询结构化数据的规则,并根据自己的数据训练 ML 模型。不会从参与者账户复制数据集,而是只能在需要时进行访问。使用 AWS Clean Rooms,您就可以从 SQL、Spark SQL 和 PySpark 中选择要执行的分析类型,以及使用 AWS Clean Rooms ML 进行机器学习建模。使用 SQL 分析时,您可以使用无代码分析生成器、AWS Clean Rooms Differential Privacy 差异化隐私管控功能和密态计算等功能。使用 Spark SQL 分析时,您可以选择可配置的计算大小,因此提高了灵活性,可以根据您的性能、规模和成本要求来自定义和分配资源以运行 SQL 查询。使用 AWS Clean Rooms 中的 PySpark,您和您的合作伙伴就可以将 PySpark 代码和库引入 AWS Clean Rooms 进行协作,并运行高级分析,而无需共享基础数据或专有分析方法。借助 AWS Clean Rooms ML,您可以使用自定义或 AWS 制作的相似建模来生成预测性洞察。协作参与者将数据或模型关联到协作并运行分析后,协作输出将存储在指定的 Amazon Simple Storage Service(Amazon S3)存储桶中。
AWS Clean Rooms 可以使用来自 Amazon S3、Amazon Athena 或 Snowflake 的数据,而无需移动、泄露或复制基础数据集。AWS Clean Rooms 会在运行查询时从数据来源读取数据,避免了将数据集复制到单独环境的复杂性和成本。点击此处了解有关 AWS Clean Rooms 对多个云和数据来源的支持的更多信息。
每次协作,AWS Clean Rooms 最多支持五名参与者。
您可控制哪些人员可以参与您的 AWS Clean Rooms 协作,并可创建协作或加入协作邀请。参与对协作中的每一方都是透明的,并且在创建协作后无法添加新帐户。不过,如果需要,您可以与不同的客户或合作伙伴建立新的协作。您可以建立和管理对内容的访问权限,还可以通过自己控制的用户、组、权限和凭证设置对 AWS 服务和资源的访问权限。
客户可以使用 SQL、Spark SQL、PySpark 或 AWS Clean Rooms ML 建模对其与合作伙伴的集体数据集生成洞察,而无需共享或泄露基础数据。在设置 AWS Clean Rooms 协作时,您可以为每位协作成员指定不同的能力以适应您的特定使用案例需求。加入 AWS Clean Rooms 协作后,协作者就哪一方将运行分析、哪一方将接收结果以及哪一方将负责计算费用达成一致。只有您邀请参加该协作的受邀者才能根据您制定的分析规则获得洞察。
使用 Spark SQL 分析,只有一个协作者可以运行 SQL 查询,但多个协作者可以贡献数据并接收结果。例如,如果要将查询输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保多个成员收到分析结果,并且有权限查询的成员没有访问查询结果的权限。借助 SQL 分析,多个协作者可以提供数据,但只有一个协作者可以运行 SQL 查询,且只有一个协作者可以接收结果。例如,如果要将查询输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保可以执行查询的成员没有访问查询结果的权限。
通过 PySpark 分析,多个协作者可以贡献数据,但只有一个协作者可以运行作业,且只有作业运行者才能接收结果。
使用 AWS Clean Rooms ML,协作者带来记录的样本集,他们希望基于此找到合作伙伴的相似分段;另一方的人口众多,我们可以根据他们与样本记录的相似度从中生成相似分段。AWS Clean Rooms ML 会将输出相似分段发送到一个目的地,该目的地由带来较大人口的一方指定,我们从中得出相似的分段。
AWS Entity Resolution 数据匹配服务已原生集成到 AWS Clean Rooms 中。在增强隐私的 AWS Clean Rooms 协作中,您可以使用基于规则或基于数据服务提供商的匹配,使用您选择使用的任何通用密钥(例如假名标识符)来准备、匹配您的用户数据并将其与合作伙伴的数据关联起来。要在协作中应用 AWS Entity Resolution 数据匹配服务的匹配功能,您必须使用存储在 Amazon S3 中的数据。
AWS Clean Rooms 现已在以下区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)和欧洲地区(斯德哥尔摩)。
借助 AWS Clean Rooms,您可以使用灵活的分析工具和增强隐私的 ML 来满足您的业务需求。使用 SQL、Spark SQL 或 PySpark 分析时,您可以灵活地选择哪位协作者负责为协作中运行的 SQL 查询的计算容量付费,以洁净室处理单元(CRPU)小时为单位按秒计费(最低收费 60 秒)。使用 AWS Clean Rooms ML 时,您只需按每 1000 个配置文件的价格为所请求的模型训练和创建的相似分段付费。有关更多信息,请参阅 AWS Clean Rooms 定价。
借助 AWS Clean Rooms 上的 AWS Entity Resolution 数据匹配服务,您可以利用提供商数据集(例如 LiveRamp)使用基于规则或基于数据服务提供商的匹配。
使用基于规则的匹配时,协作中至少有一名成员需要在与合作伙伴的数据集进行匹配之前准备好自己的数据,除非他们在创建或加入协作之前就已经使用 AWS Entity Resolution 数据匹配服务准备好数据。该成员仅在使用时才会为数据准备付费。任何参与协作的成员都可以为数据匹配付费。数据匹配还需要为每次协作支付一笔一次性费用,这笔费用会分配给任何要支付数据匹配费用的协作者。
当您使用基于数据服务提供商的匹配时,所有协作成员都必须有提供商订阅,才能使用提供商 ID 准备数据。所有协作成员在与合作伙伴的数据集进行匹配之前,都必须使用提供商 ID 准备数据,除非他们在创建或加入合作之前就已经使用 AWS Entity Resolution 数据匹配服务准备好数据。任何参与协作的成员都可以使用提供商的 ID 支付数据匹配费用。此外,支付数据匹配费用的成员必须有提供商订阅。您可以使用 AWS Data Exchange(ADX)上列出的公共订阅,也可以直接通过您选择的数据服务提供商购买私有订阅,然后对 ADX 使用自带订阅(BYOS)。
有关更多信息,请参阅 AWS Clean Rooms 定价的 AWS Entity Resolution 数据匹配服务。
安全性和数据保护
全部打开数据保护始于 AWS 的安全基础,而 AWS Clean Rooms 建立在 AWS 安全服务的基础之上,包括 AWS Identity and Access Management(IAM)、AWS Key Management Service(KMS)和 AWS CloudTrail。这使您能够将现有的数据保护策略扩展到数据协作工作负载。借助 AWS Clean Rooms,您无需在 AWS 环境之外存储或维护数据副本并发送给另一方,即可开展使用者洞察分析、营销衡量、预测或风险评估。
当您设置 AWS Clean Rooms 协作并使用 SQL 分析时,您可以为每位协作成员指定不同的能力以适应您的特定使用案例。例如,如果要将查询的输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保可以执行查询的成员无权访问查询结果。
AWS Clean Rooms 还配备 SQL 查询控件,允许您通过分析规则配置限制可在数据表上运行的查询类型或特定查询,从而帮助您保护数据。AWS Clean Rooms 支持三种类型的 SQL 分析规则:聚合、列表和自定义。借助聚合分析规则,您可以配置表,以便仅允许生成汇总统计信息的查询(例如活动衡量或归因)。借助列表分析规则,您可以配置控制,以便查询只能分析数据集与可查询成员的数据集的交集。使用自定义分析规则,您可以配置查询级别的控制,以允许在您的数据集中运行特定的账户或查询。使用自定义分析规则时,您可以选择使用差别隐私。只需单击几下,AWS Clean Rooms 差别隐私即可通过数学上的支持和直观控件来帮助您保护用户的隐私。作为 AWS Clean Rooms 一项完全托管的功能,无需事先获得差别隐私体验即可帮助您防止重新识别用户。另一种控制措施是聚合阈值,它可以防止查询向下钻取到可能可重新识别的小型群组。
使用 AWS Clean Rooms ML,您的数据仅用于训练您的模型,而不是用于训练 AWS 模型。AWS Clean Rooms ML 不会将任何公司的训练或相似分段数据与其他公司一起使用,您可以随时删除模型和训练数据。
不需要。数据集存储在合作伙伴的 AWS 或 Snowflake 数据湖中,不需要移动。AWS Clean Rooms 会临时从协作者账户读取数据,以运行查询、匹配记录、训练 ML 模型或扩展种子分段。分析结果将发送到专为分析设计的 S3 地点。在协作过程中,从任何数据湖读取的数据都不会永久存储在 AWS 中,且任何临时读入 AWS Clean Rooms 环境的数据都将在查询完成后删除。
AWS Clean Rooms 上的 AWS Entity Resolution 数据匹配服务可为您生成一个数据集,映射协作中各方的标识符。映射数据集由 AWS Clean Rooms 管理。协作中的任何成员都不能查看或下载映射表。如果协作中的所有成员都同意放宽隐私保护,就可以针对特定使用案例查询映射表。任何一方都可以随时删除该表。
由 AWS Clean Rooms ML 生成的模型由服务存储,可以使用客户托管的 AWS KMS 密钥进行加密,并且可以由客户随时删除。
借助 AWS Clean Rooms 加密和分析规则,您可以精细控制要共享的信息类型。作为数据协作者,您有责任评测每次协作的风险,包括重新识别的风险,并进行额外的尽职调查,以确保遵守任何数据隐私法律。如果您共享的数据是敏感数据或受监管数据,我们建议您仍然使用适当的法律协议和审计机制,以进一步降低隐私风险。
是的。AWS 服务条款禁止某些使用案例在 AWS Clean Rooms 中进行协作。
是的,AWS HIPAA 合规性计划将 AWS Clean Rooms 作为一项符合 HIPAA 要求的服务包含在内。如果您与 AWS 签订了商业伙伴协议 (BAA),现在可以使用 AWS Clean Rooms 建立符合 HIPAA 要求的合作。如果您未签订商业伙伴协议或者在将 AWS 用于 HIPAA 合规应用程序方面有其他问题,请联系我们,以获取详细信息。
要了解更多信息,请参阅以下资源:
AWS Clean Rooms ML
全部打开AWS Clean Rooms ML 可帮助您和合作伙伴应用增强隐私的机器学习(ML)来生成预测性洞察,而无需彼此共享原始数据。AWS Clean Rooms ML 支持自定义和相似机器学习(ML)建模。借助自定义建模,您就可以提供自定义模型,以便进行训练并对集体数据集运行推理,而无需在协作者之间共享基础数据或知识产权。您还可以生成合成数据集来训练您的自定义 ML 模型。 借助相似建模,您就可以使用 AWS 制作的模型,根据合作伙伴为协作提供的少量配置文件样本来生成一组扩展的相似配置文件。
AWS Clean Rooms ML 可帮助客户处理多种应用场景。例如,广告商可以提供他们的专有模型和数据进行 Clean Rooms 协作,并邀请发布者也提供他们的数据来训练和部署自定义 ML 模型,以帮助他们提高推广活动有效性;金融机构可以使用历史交易记录训练自定义 ML 模型,并邀请合作伙伴进行 Clean Rooms 协作以检测潜在的欺诈性交易;研究机构和医院网络可以找到与现有临床试验参与者相似的候选人,以帮助加快临床研究;品牌和发布者可以对市场中相似的客户群体进行建模,并提供高度相关的广告体验,而无需任何一家公司与他人共享基础数据。
借助 AWS Clean Rooms ML 自定义建模功能,您可以提供您自己的机器学习(ML)模型、算法和数据与合作伙伴协作,以训练 ML 模型并在集体数据集上运行推理,而无需共享敏感数据或专有 ML 模型。您还可以生成合成数据集来训练您的自定义 ML 模型。
AWS Clean Rooms ML 自定义建模支持 ML 训练和 ML 推理工作流。对于这两个工作流,您需要首先定义一个 AWS Clean Rooms Spark SQL 查询,此查询用来为训练或推理步骤生成一个数据集。中间数据集始终处于洁净室协作内,而且只能用于经过批准的 AWS Clean Rooms ML 任务。第二步是 ML 模型训练或推理。将 ML 模型和代码打包到容器映像中。经过训练的模型可以在协作中保留,用作推理工作流的一部分,或者也可以在随后的训练作业中更新。使用 AWS Clean Rooms ML,您的数据只用来训练您的自定义模型,而不会在协作者之间共享或者用来执行 AWS 模型训练。您可以随时从 Clean Rooms ML 中移除您的数据或者删除自定义模型,还可以应用隐私增强控制措施,以保护您在协作中提供的敏感数据。要应用 AWS Clean Rooms ML 自定义建模,您必须使用 Spark SQL 作为分析引擎。
借助 AWS Clean Rooms ML 相似建模,您可以使用 AWS 制作的模型,根据合作伙伴为协作提供的少量配置文件样本生成一组扩展的相似配置文件,同时保护您和合作伙伴的基础数据。您可以邀请合作伙伴加入洁净室,并对每次协作应用由 AWS 制作并且经过训练的 ML 模型,只需几个步骤即可生成相似数据集,从而节省数月的开发工作,以便构建、训练、调整和部署您自己的模型。AWS Clean Rooms ML 相似建模是基于电子商务和直播视频等各种数据集进行构建和测试,与具有代表性的行业基准相比,该服务可以帮助客户将相似建模的准确性提高多达 36%。在诸如寻找新客户之类的现实应用中,提高准确性可以转化为节省数百万美元。
AWS Clean Rooms ML 相似建模从一方提取少量记录样本,然后从另一位协作者的数据集中找到一组更大的记录或相似的分段。您可以指定生成的相似分段的所需大小,AWS Clean Rooms ML 会以私密方式将您的样本列表中的唯一配置文件与合作伙伴数据集中的配置文件进行匹配,然后训练一个 ML 模型,预测协作者数据集中的每个配置文件与样本中的配置文件的相似度。AWS Clean Rooms ML 将自动对与样本列表相似的配置文件进行分组,并输出生成的相似分段。通过 AWS Clean Rooms ML,无需与合作伙伴共享数据,即可构建、训练和部署 ML 模型。使用 AWS Clean Rooms ML,您的数据仅用于训练自己的模型,不用于 AWS 模型训练。您可以使用直观的控件来帮助您和合作伙伴对模型的预测结果进行调优。 要应用 AWS Clean Rooms ML 相似建模,您的训练数据集必须使用存储在 Amazon S3 中的数据。种子数据既可以存储在 Amazon S3 中,也可以在协作中使用 SQL 查询创建。
AWS Clean Rooms ML 中的合成数据集
全部打开合成数据是由算法生成的数据,而不是从现实世界的测量中观察到的数据,例如生成式人工智能技术。合成数据集(通过算法创建的数据点的集合)可以模仿真实数据的统计属性和模式,同时可以部分或完全虚拟。通过使用合成数据集,企业可以训练 AI 模型、进行分析和开发应用程序,避免泄露敏感信息的风险。
借助 AWS Clean Rooms ML 自定义建模,您和您的合作伙伴可以从您的集体数据中生成具有统计代表性的合成数据集,以便训练回归和分类机器学习模型,而无需泄露原始数据中的敏感信息。该功能可以清除原始数据中对象(例如收集数据的人员或实体对象)的身份信息,从而降低了模型在训练数据中记住有关个人信息的风险。
AWS Clean Rooms ML 隐私增强合成数据集的生成经过优化,可为训练回归和分类模型创建表格数据集。这些数据集不用于训练大语言模型(LLM)或其他基础模型。
要创建合成数据集,首先要在原始数据集中指定预测值列来训练自定义 ML 模型。AWS Clean Rooms ML 将在您的数据集上训练一个专门的隐私增强模型,以根据指定列生成预测。系统会使用根据您的数据训练的专门模型对每个非预测值列进行抽样来推断出最后一列,从而生成合成记录。在 AWS Clean Rooms ML 中生成合成数据集通过向预测值注入经过校准的噪声量,来消除非预测值列之间的相关性。
不,AWS Clean Rooms ML 合成数据集的生成不会更改或删除数据集中的单个值。合成行是通过对输入数据集中的值进行采样来生成。输入数据集中的任何值都可以包含在合成数据集中。
注意:生成合成数据集可防止推断出原始数据集中有关个人的个体属性。建议您排除个人身份信息(PII),以防止原始数据集中的文字值出现在合成数据集中。直接标识符,例如电子邮件、电话、国民身份证号码或地址不应包含在原始数据集中。这些信息可以在生成 ML 输入通道的查询中用作联接键,但不应包含在用于生成合成数据集的分析模板中。有关详情,请参阅文档。
首先,您可以先与合作伙伴创建 AWS Clean Rooms 协作,然后定义您的模型算法和数据集。接下来,您将创建一个 SQL 查询,该查询既指定要合成的数据,也指定基本的隐私控制,包括防止用户重新识别的噪音等级,以及防范常见安全威胁等。所有数据所有者批准了此设置后,合成数据生成过程就会开始。在使用合成数据之前,模型所有者可以查看用于显示与原始数据的统计相似性以及隐私保护力度的综合指标。最后,您可以使用这些合成数据训练自定义模型并导出模型权重,也可以直接在经过训练的模型上运行推理作业。请参阅文档以开始使用。
PySpark
全部打开您可以选择使用 Spark 分析引擎在 AWS Clean Rooms 协作中运行 PySpark 脚本。PySpark 提供可配置的计算大小,以便在运行 PySpark 工作负载时更好地控制性价比。
AWS Clean Rooms 中的 PySpark 作业使用默认实例类型 CR.1X,该类型提供了 4 个 vCPU、30 GB 内存和 100 GB 存储空间。通过选择更大的 CR.4X 实例类型,您可以选择分配更多资源以运行 PySpark 工作负载,此类型提供了 16 个 vCPU、120 GB 内存和 400 GB 存储空间。更大的实例大小能够让处理大量数据和执行复杂分析的 PySpark 工作负载受益,这样有助于将工作负载分配给更多的资源。请在此处详细了解每种配置的相关 vCPU、内存和存储空间。
您可以灵活地引入 Python 脚本,也可以选择在 Python 中提供自己的自定义或开源库。
当您在 AWS Clean Rooms 中使用 PySpark 时,将适用单独的定价。要了解有关 PySpark 定价的更多信息,请访问 AWS Clean Rooms 定价。
SQL 分析
全部打开您可以选择使用 Spark 分析引擎在 AWS Clean Rooms 协作中通过 Spark SQL 语言运行查询。AWS Clean Rooms SQL 提供可配置的计算大小,以便在运行 SQL 工作负载时更好地控制性价比。
AWS Clean Rooms SQL 使用默认实例类型 CR.1X,该类型提供了 4 个 vCPU、30 GB 内存和 100 GB 存储空间。通过选择更大的 CR.4X 实例类型,您可以选择分配更多资源以运行 Spark SQL 工作负载,该类型提供了 16 个 vCPU、120 GB 内存和 400 GB 存储空间。更大的实例大小能够让处理大量数据和执行复杂分析的 SQL 工作负载受益,这样有助于将工作负载分配给更多的资源。请在此处详细了解每种配置的相关 vCPU、内存和存储空间。
在聚合分析规则中,您可以配置列级控制,以帮助您定义如何在查询中使用每一列。例如,您可以指定哪些列可用于计算聚合统计数据 [例如 SUM(price)],以及哪些列可用于将表与其他协作成员关联起来。在聚合分析规则中,您还可以定义每个输出行必须满足的最小聚合阈值。未达到最低阈值的行将由 AWS Clean Rooms 自动筛选出。
是的。您将能够配置 AWS Clean Rooms 以在 Amazon CloudWatch Logs 中发布查询日志。使用自定义分析规则,您还可以在协作运行查询(存储在分析模板中)之前对其进行审查。
AWS Clean Rooms Differential Privacy 差异化隐私管控功能
全部打开差别化隐私是一个经过数学验证的框架,用于帮助保护数据隐私。差别化隐私背后的主要好处是通过添加受控的随机性(噪声)来掩盖正在分析的数据集中存在或不存在任何单个个体,从而帮助保护个人层面的数据。
借助 AWS Clean Rooms Differential Privacy 差异化隐私管控功能,只需几个步骤即可通过数学上的支持和直观控件来帮助您保护用户的隐私。作为 AWS Clean Rooms 一项完全托管的功能,无需事先拥有差别化隐私经验也可帮助您防止重新识别用户。AWS Clean Rooms Differential Privacy 差异化隐私管控功能可模糊处理任何个人数据在协作中生成聚合洞察的贡献,以便您可以运行广泛的 SQL 查询,以生成有关广告活动、投资决策、临床研究等领域的洞察。
作为具有提供数据能力的成员开始或加入 AWS Clean Rooms 协作后,您只需几个步骤即可开始使用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能私。创建配置表格(该表是对您在 AWS Glue Data Catalog 中的表格的引用)后,您只需选择在向配置的表格中添加自定义分析规则时开启差别化隐私即可。接下来,将配置的表格关联到您的 AWS Clean Rooms 协作,并在协作中配置差别隐私策略以使您的表格可供查询。您可以使用默认策略来快速完成设置,也可以对其进行自定义以满足您的特定要求。 要在协作中应用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能,您必须使用存储在 Amazon S3 中的数据。
设置 AWS Clean Rooms Differential Privacy 差异化隐私管控功能后,您与之协作的合作伙伴可以开始在您的表上运行查询,合作伙伴无需具备任何差别化隐私概念方面的专业知识,也无需进行额外设置。借助 AWS Clean Rooms Differential Privacy 差异化隐私管控功能,查询运行者可以运行自定义和灵活的分析,包括使用常用表格表达式(CTE)以及 COUNT 和 SUM 等常用聚合函数的复杂查询模式。
密态计算
全部打开密态计算是一种在使用敏感数据时对其进行保护和加密的方法。数据可以在存储时、传输时和使用时进行静态加密。加密意味着将纯文本数据转换为编码数据,如果没有特定的“密钥”就无法破译。 私有集交集(PSI)是一种加密计算类型,它允许持有数据集的两方或多方比较加密版本以执行计算。加密在本地使用共享协作者的密钥进行。 C3R 可用于 Spark SQL 分析引擎或 SQL 分析引擎。
AWS Clean Rooms 包含 Clean Rooms 密态计算(C3R),允许使用客户端加密工具 [SDK 或命令行界面(CLI)] 预加密数据,该工具使用与 AWS Clean Rooms 协作中的其他参与者共享的密钥。这会在运行查询时加密数据。