[SEO 副标题]
本指南演示了一种自动生成规则建议的方法,用以使用 AWS Entity Resolution 数据匹配服务中基于规则的匹配来匹配、链接和增强相关记录。其中展示了一个 AWS Glue 笔记本,该笔记本简化了创建有效匹配规则的流程。该指南从 Amazon S3 读取输入数据,执行数据质量分析,并利用 Amazon Bedrock 上强大的大型语言模型(LLM)来生成自定义的规则建议。每项建议都附有相应的理由,方便深入了解建议的规则。此外,该指南采用采样方法来测试生成的规则和解析实体。
请注意:[免责声明]
架构图

-
概述
-
基于规则的增量工作流程
-
概述
-
此架构图概述了如何使用 Amazon Bedrock 上托管的 LLM 和 AWS Glue 笔记本生成规则建议,以及如何在 AWS Entity Resolution 数据匹配服务的基于规则的匹配流程中使用这些规则。
第 1 步
将输入数据集(CSV/Parquet 格式)载入 Amazon Simple Storage Service(Amazon S3)存储桶,并使用 AWS Glue 爬网程序在 AWS Glue Data Catalog.中创建 AWS Glue 表。第 2 步
以 AWS Glue 表作为源,在 AWS Entity Resolution 数据匹配服务中创建架构映射。第 3 步
在 AWS Glue 中运行笔记本,该笔记本使用 AWS Entity Resolution 数据匹配服务架构映射来理解数据的形状。该笔记本从 Amazon S3 读取数据并生成数据质量指标。它将这些指标提供给 Amazon Bedrock 上托管的 LLM。LLM 建议要应用于 AWS Entity Resolution 数据匹配服务匹配流程来解析实体的规则。第 4 步
使用 AWS Glue 笔记本生成的建议规则,在 AWS Entity Resolution 数据匹配服务中创建基于规则的匹配流程。
第 5 步
一个 AWS Step Functions 工作流程对基于规则的匹配流程的执行进行编排,以处理增量源数据。 -
基于规则的增量工作流程
-
此架构图展示了如何使用 AWS Step Functions 工作流程,在 AWS Entity Resolution 数据匹配服务中运行基于规则的增量匹配流程。
第 1 步
在 Amazon EventBridge 中创建一个计划,用于以所需的频率触发 Step Functions。第 2 步
Step Functions 触发一个 AWS Glue 提取、转换、加载(ETL)作业,对增量源数据进行预处理,为 AWS Entity Resolution 数据匹配服务基于规则的匹配流程准备好这些数据。
第 3 步
一个 AWS Lambda 函数触发 AWS Entity Resolution 数据匹配服务中基于规则的匹配流程。该工作流程从源 Amazon S3 存储桶读取增量数据并进行处理。第 4 步
Lambda 函数检查在 AWS Entity Resolution 数据匹配服务中运行的匹配流程的状态,直到作业状态变为 Completed。
第 5 步
完成后,AWS Entity Resolution 数据匹配服务匹配流程将输出写入一个 S3 输出存储桶。
第 6 步
AWS Glue 后处理 ETL 作业读取 AWS Entity Resolution 数据匹配服务的输出并将其写入一个 Amazon S3 表。之所以选择 Amazon S3 表作为目标,是因为它支持原子性、一致性、隔离性、持久性(ACID)事务。
第 7 步
AWS Entity Resolution 数据匹配服务增量匹配流程能够合并或拆分记录。得益于这种能力,支持 ACID 事务的数据存储是帮助确保数据完整性和一致性的理想选择。
Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
AWS Glue 是一项托管服务,可运行工作负载并提供作业的监控指标。该服务具有容错能力,支持在失败时重试。AWS Glue 爬网程序可自动发现数据原理图。这些特征造就了一个可扩展、容错的系统,方便深入了解作业的运行时指标。
-
安全性
此外,已将 AWS Identity and Access Management(IAM)策略的范围缩小到服务正常运行所需的最低权限。存储在 Amazon S3 中的数据使用了静态加密技术。这些措施可以限制对资源的未经授权访问并保护数据的完整性。通过实施严格的访问控制和加密静态数据,该指南增强了整体安全态势并有助于满足合规性要求。
-
可靠性
作为托管服务,AWS Glue、AWS Entity Resolution 数据匹配服务、Amazon Bedrock 和 Step Functions 减轻了维持可靠性的工作负担,使系统能够自动从故障中恢复。这些服务支持通过重试来从故障中恢复,并与 Amazon CloudWatch 集成以提供运营洞察。
-
性能效率
AWS Glue 提供了一种无服务器架构,可根据工作负载需求扩展或缩减计算资源。它提供了不同的实例类型,用户可以根据其特定工作负载要求进行选择。AWS Glue 通过 AWS 联网服务与其他 AWS 服务连接,并可在虚拟私有云(VPC)中运行。这种资源选择和自动扩缩的灵活性有助于确保系统能够高效应对不同的工作负载强度。
-
成本优化
本指南使用遵循即用即付定价模式的托管服务,意味着您只需为使用的资源付费。AWS Glue 是无服务器的,提供了有助于优化成本的扩缩功能。AWS Entity Resolution 数据匹配服务根据摄取的数据量收费。Amazon S3 的成本取决于数据存储和访问模式。Step Functions 根据状态转换次数收费。这种基于使用情况的跨服务定价有助于确保成本与实际资源消耗紧密一致。
-
可持续性
作为一项无服务器服务,AWS Glue 仅在主动处理数据时消耗资源。该服务提供了数据分区和压缩等特征,可减少数据处理管道的存储和计算资源需求。AWS Glue 提供了基于工作负载的自动扩缩功能,有助于优化资源利用率和降低能耗。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指南是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。