Amazon SageMaker AI

Amazon SageMaker Feature Store

适用于机器学习特征的完全托管式服务

为什么选择 Amazon SageMaker Feature Store？

Amazon SageMaker Feature Store 是一个完全托管式专用存储库，用于存储、共享和管理机器学习（ML）模型特征。特征是在训练和推理期间使用的 ML 模型的输入。例如，在推荐音乐播放列表的应用程序中，特征可能包括歌曲评级、收听时长和听众人口统计数据。特征被多个团队重复使用，特征质量对于确保模型高度准确至关重要。此外，当用于批量离线训练模型的特征可用于实时推理时，很难保持两个特征存储同步。SageMaker Feature Store 提供安全、统一的存储，用于在整个机器学习生命周期中大规模处理、标准化和使用特征。

工作原理

How it works: Amazon SageMaker Feature Store

SageMaker Feature Store 的优势

从任意数据来源提取特征，包括来自应用程序日志、服务日志、点击流、传感器等来源的流和批处理数据和来自 AWS 或第三方数据来源的表格数据

将数据转换为机器学习特征，构建支持 MLOP 实践并加快模型部署速度的特征管道

存储、共享和管理用于训练和推理的机器学习模型特征，以促进跨机器学习应用程序的特征重复使用

特征管理

特征处理和提取

您可以将各种来源的数据摄取到 SageMaker Feature Store 中，例如来自应用程序和服务日志、点击流、传感器的数据以及来自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格数据。使用特征处理，您可以指定批量数据来源和特征转换函数（例如产品视图计数或时间段聚合），SageMaker Feature Store 会在摄取数据时将其转换为机器学习特征。使用 Amazon SageMake Data Wrangler，您可以将特征直接发布到 SageMaker Feature Store。使用 Apache Spark 连接器，您可以使用一行代码批量摄取大量数据。

特征存放、目录、搜索和重复使用

SageMaker Feature Store 为特征组添加标签和索引，以便用户通过 Amazon SageMaker Studio 的可视化界面轻松发现这些标签和索引。通过浏览特征目录，团队可以发现他们可以放心重复使用的现有特征，并避免管道重复。SageMaker Feature Store 默认使用 AWS Glue Data Catalog，但如果需要，您可以使用其他目录。您还可以使用熟悉的 SQL 配合 Amazon Athena 或您选择的其他查询工具来查询特征。

特征一致性

SageMaker Feature Store 支持用于训练的离线存储和用于实时推理的在线存储。训练和推理是截然不同的使用案例，各自的存储要求也不同。在训练期间，模型通常使用完整的数据集，可能需要数小时才能完成，而推理需要在几毫秒内完成，并且通常使用数据的子集。当结合使用时，SageMaker Feature Store 可确保离线和在线数据集保持同步，这一点至关重要，因为如果它们出现分歧，则会对模型准确性产生负面影响。

时间旅行

数据科学家可能需要使用过去特定时间的精确特征值集来训练模型，还要避免包含超过该时间的数据（也称为特征泄露）的风险，例如诊断前的患者医疗数据。SageMaker Feature Store 离线 API 支持时间点查询，可以检索每个特征在特定历史时间的状态。

安全性和治理

沿袭跟踪

为了满怀信心地启用特征复用，数据科学家需要了解特征是如何构建的，以及哪些模型和端点正在使用它们。SageMaker Feature Store 允许数据科学家使用 SageMaker Lineage 在 Amazon SageMaker Studio 中追踪其特征。SageMaker Lineage 允许您跟踪预定的管道执行、可视化上游沿袭以便将特征追溯回其数据来源，以及查看特征处理代码，这些都可以在一个环境中完成。

机器学习操作

特征存储是 MLOps 生命周期中的关键组成部分。他们管理数据集和特征管道，加快数据科学任务并消除要多次创建相同特征的重复工作。SageMaker Feature Store 可以在整个 MLOps 生命周期中作为独立服务或以集成方式与其他 SageMaker 服务结合使用。

安全性和合规性

为了帮助满足安全性和合规性需求，您可能需要对访问共享机器学习特征的方式进行精细控制。这些需求通常超出了表和列级别的访问控制，而是单独的行级别的访问控制。例如，您可能希望让客户代表仅查看销售表中他们客户的行，并屏蔽信用卡号等敏感数据的前缀。SageMaker Feature Store 可与 AWS Lake Formation 结合用于实施精细的访问控制，以保护特征存储数据并根据角色授予访问权限。

实施精细访问控制

SageMaker Feature Store 的资源

博客