为什么选择 Amazon SageMaker Feature Store?
工作原理
How it works: Amazon SageMaker Feature Store
SageMaker Feature Store 的优势
特征管理
特征处理和提取
您可以将各种来源的数据摄取到 SageMaker Feature Store 中,例如来自应用程序和服务日志、点击流、传感器的数据以及来自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格数据。使用特征处理,您可以指定批量数据来源和特征转换函数(例如产品视图计数或时间段聚合),SageMaker Feature Store 会在摄取数据时将其转换为机器学习特征。使用 Amazon SageMake Data Wrangler,您可以将特征直接发布到 SageMaker Feature Store。使用 Apache Spark 连接器,您可以使用一行代码批量摄取大量数据。

特征存放、目录、搜索和重复使用
SageMaker Feature Store 为特征组添加标签和索引,以便用户通过 Amazon SageMaker Studio 的可视化界面轻松发现这些标签和索引。通过浏览特征目录,团队可以发现他们可以放心重复使用的现有特征,并避免管道重复。SageMaker Feature Store 默认使用 AWS Glue Data Catalog,但如果需要,您可以使用其他目录。您还可以使用熟悉的 SQL 配合 Amazon Athena 或您选择的其他查询工具来查询特征。

特征一致性
SageMaker Feature Store 支持用于训练的离线存储和用于实时推理的在线存储。训练和推理是截然不同的使用案例,各自的存储要求也不同。在训练期间,模型通常使用完整的数据集,可能需要数小时才能完成,而推理需要在几毫秒内完成,并且通常使用数据的子集。当结合使用时,SageMaker Feature Store 可确保离线和在线数据集保持同步,这一点至关重要,因为如果它们出现分歧,则会对模型准确性产生负面影响。

时间旅行
数据科学家可能需要使用过去特定时间的精确特征值集来训练模型,还要避免包含超过该时间的数据(也称为特征泄露)的风险,例如诊断前的患者医疗数据。SageMaker Feature Store 离线 API 支持时间点查询,可以检索每个特征在特定历史时间的状态。

安全性和治理
沿袭跟踪
为了满怀信心地启用特征复用,数据科学家需要了解特征是如何构建的,以及哪些模型和端点正在使用它们。SageMaker Feature Store 允许数据科学家使用 SageMaker Lineage 在 Amazon SageMaker Studio 中追踪其特征。SageMaker Lineage 允许您跟踪预定的管道执行、可视化上游沿袭以便将特征追溯回其数据来源,以及查看特征处理代码,这些都可以在一个环境中完成。

机器学习操作
特征存储是 MLOps 生命周期中的关键组成部分。他们管理数据集和特征管道,加快数据科学任务并消除要多次创建相同特征的重复工作。SageMaker Feature Store 可以在整个 MLOps 生命周期中作为独立服务或以集成方式与其他 SageMaker 服务结合使用。