跳至主要内容

Amazon SageMaker Feature Store

适用于机器学习特征的完全托管式服务

为什么选择 Amazon SageMaker Feature Store?

Amazon SageMaker Feature Store 是一个完全托管式专用存储库,用于存储、共享和管理机器学习(ML)模型特征。特征是在训练和推理期间使用的 ML 模型的输入。例如,在推荐音乐播放列表的应用程序中,特征可能包括歌曲评级、收听时长和听众人口统计数据。特征被多个团队重复使用,特征质量对于确保模型高度准确至关重要。此外,当用于批量离线训练模型的特征可用于实时推理时,很难保持两个特征存储同步。SageMaker Feature Store 提供安全、统一的存储,用于在整个机器学习生命周期中大规模处理、标准化和使用特征。

工作原理

How it works: Amazon SageMaker Feature Store

SageMaker Feature Store 的优势

从任意数据来源提取特征,包括来自应用程序日志、服务日志、点击流、传感器等来源的流和批处理数据和来自 AWS 或第三方数据来源的表格数据
将数据转换为机器学习特征,构建支持 MLOP 实践并加快模型部署速度的特征管道
存储、共享和管理用于训练和推理的机器学习模型特征,以促进跨机器学习应用程序的特征重复使用

特征管理

特征处理和提取

您可以将各种来源的数据摄取到 SageMaker Feature Store 中,例如来自应用程序和服务日志、点击流、传感器的数据以及来自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格数据。使用特征处理,您可以指定批量数据来源和特征转换函数(例如产品视图计数或时间段聚合),SageMaker Feature Store 会在摄取数据时将其转换为机器学习特征。使用 Amazon SageMake Data Wrangler,您可以将特征直接发布到 SageMaker Feature Store。使用 Apache Spark 连接器,您可以使用一行代码批量摄取大量数据。

Missing alt text value

特征存放、目录、搜索和重复使用

SageMaker Feature Store 为特征组添加标签和索引,以便用户通过 Amazon SageMaker Studio 的可视化界面轻松发现这些标签和索引。通过浏览特征目录,团队可以发现他们可以放心重复使用的现有特征,并避免管道重复。SageMaker Feature Store 默认使用 AWS Glue Data Catalog,但如果需要,您可以使用其他目录。您还可以使用熟悉的 SQL 配合 Amazon Athena 或您选择的其他查询工具来查询特征。

Missing alt text value

特征一致性

SageMaker Feature Store 支持用于训练的离线存储和用于实时推理的在线存储。训练和推理是截然不同的使用案例,各自的存储要求也不同。在训练期间,模型通常使用完整的数据集,可能需要数小时才能完成,而推理需要在几毫秒内完成,并且通常使用数据的子集。当结合使用时,SageMaker Feature Store 可确保离线和在线数据集保持同步,这一点至关重要,因为如果它们出现分歧,则会对模型准确性产生负面影响。

Missing alt text value

时间旅行

数据科学家可能需要使用过去特定时间的精确特征值集来训练模型,还要避免包含超过该时间的数据(也称为特征泄露)的风险,例如诊断前的患者医疗数据。SageMaker Feature Store 离线 API 支持时间点查询,可以检索每个特征在特定历史时间的状态。 

Missing alt text value

安全性和治理

沿袭跟踪

为了满怀信心地启用特征复用,数据科学家需要了解特征是如何构建的,以及哪些模型和端点正在使用它们。SageMaker Feature Store 允许数据科学家使用 SageMaker Lineage 在 Amazon SageMaker Studio 中追踪其特征。SageMaker Lineage 允许您跟踪预定的管道执行、可视化上游沿袭以便将特征追溯回其数据来源,以及查看特征处理代码,这些都可以在一个环境中完成。

Missing alt text value

机器学习操作

特征存储是 MLOps 生命周期中的关键组成部分。他们管理数据集和特征管道,加快数据科学任务并消除要多次创建相同特征的重复工作。SageMaker Feature Store 可以在整个 MLOps 生命周期中作为独立服务或以集成方式与其他 SageMaker 服务结合使用。

安全性和合规性

为了帮助满足安全性和合规性需求,您可能需要对访问共享机器学习特征的方式进行精细控制。这些需求通常超出了表和列级别的访问控制,而是单独的行级别的访问控制。例如,您可能希望让客户代表仅查看销售表中他们客户的行,并屏蔽信用卡号等敏感数据的前缀。SageMaker Feature Store 可与 AWS Lake Formation 结合用于实施精细的访问控制,以保护特征存储数据并根据角色授予访问权限。

Missing alt text value