跳至主要内容

Amazon SageMaker 数据处理

Amazon SageMaker 数据处理

分析、准备和集成用于分析和人工智能的任意规模的数据

为什么选择 Amazon SageMaker 数据处理?

利用亚马逊雅典娜、亚马逊EMR、AWS Glue和亚马逊Apach e Airflow托管工作流程(亚马逊 M WAA)的数据处理功能准备、集成和编排数据。无论数据存放在何处,您都能快速、轻松地连接到数百个数据来源,从而处理和整合数据。

使用 Apache Spark、Trino 和 Apache Flink 等开源数据处理框架。借助 Trino 大规模分析数据,无需管理基础设施,并可使用 Apache Flink 和 Apache Spark 无缝构建实时分析。

通过自动化数据质量、敏感数据识别、世系跟踪和实施细粒度的访问控制,相信您的数据是准确和安全的。

优势

Amazon SageMaker 数据处理提供对数据和流处理框架、开源分布式 SQL 查询引擎以及笔记本、查询编辑器和可视化提取、转换、加载(ETL)等最常用工具的全面访问。

您可以访问 Apache Spark 等最常用的框架,以准备和集成任何规模的数据。利用 Apache Flink 和 Apache Spark Streaming 进行流处理,响应实时业务需求,并利用 Trino 等领先的开源 SQL 框架分析数据。通过与 Amazon MWAA 的原生集成,无需管理基础设施,即可简化工作流程编排。

SageMaker 数据处理访问来自 Amazon SageMaker 湖库的数据,允许您使用一份数据副本处理和整合所有用例,包括分析、临时查询、机器学习 (ML) 和生成式 AI。

亚马逊 SageMaker 开放湖仓架构统一了亚马逊简单存储服务 (Amazon S3) 数据湖和亚马逊 Redshift 数据仓库中的数据,提供对数据的统一访问。通过数百个连接器、零 ETL 集成和联合数据来源,您可以发现和分析 Lakehouse 中的统一数据,从而全面了解您的业务。SageMaker 可以开箱即用地使用您的现有数据架构,不受特定存储格式或查询引擎选择的限制。

借助 Apache Iceberg 表的快速查询性能来提高效率。借助高性能且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,获取见解的速度比传统开源系统快 2 倍。

借助 SageMaker 数据处理,您可以专注于转换和分析数据,而无需管理计算能力或开源应用程序,从而节省时间并降低成本。您可以在 Amazon Elastic Compute Cloud(Amazon EC2)的 Amazon EMR 上或者 Amazon Elastic Kubernetes Service(Amazon EKS)的 Amazon EMR 上自动预置容量。扩展规则可管理计算需求的变化,以优化性能和运行时。

通过与 Amazon SageMaker Catalog 集成,为数据和人工智能模型提供自动数据质量报告、敏感数据检测和任务流水线跟踪,从而建立信任、提高透明度。通过自动测量、监控和数据质量规则建议,增强对数据质量的信心。

通过遵守和执行在湖库中数据集上定义的精细访问控制,安全地处理和分析您的数据,使您只需定义一次权限,即可让组织中的授权用户访问您的数据。该湖库与 AWS Glue 数据质量集成,在统一的环境中整合了无服务器数据集成、数据质量管理和高级机器学习功能。

AWS 服务

简化数据集成

AWS SageMaker 提供无服务器数据集成,简化了来自多个来源的数据探索、准备和集成。连接到不同的数据源,在集中式数据目录中管理数据,并直观地创建、运行、编排和监控 ETL 管道和作业,以将数据加载到湖库中。  如果 Apache Spark 任务失败,您可以使用生成式 AI 故障排除来确定根本原因并快速解决问题。Amazon SageMaker 可自动按需扩展,因此您可以专注于从数据中获得见解,而无需管理基础设施。

运行和扩展 Apache Spark、Apache Hive、Trino 及其他工作负载

借助 Amazon EMR,您可以轻松运行 Apache Spark、Apache Airflow、Apache Flink、Trino 等数据处理工作负载,实现更高的成本效益。构建和运行数据处理管道,实现比本地解决方案更快的自动扩展。

追踪成本

Athena 提供一种简单且灵活的方法,可分析任何规模的数据。Athena 是一项交互式查询服务,可使用标准 SQL 简化 Amazon S3 中的数据分析。Athena 是无服务器的,因此无需设置或管理基础设施,并且可以选择根据运行的查询或查询所需的计算资源进行付费。使用 Athena 处理日志、执行数据分析以及运行交互式查询。Athena 可以自动扩展,同时完成并行查询,因此可快速获取结果,对于大型数据集和复杂查询也不例外。

适用于 Apache Airflow 的高度可用且注重安全的托管式工作流程编排

亚马逊 MWAA 是一项针对 Apache Airflow 的托管服务,它允许您使用当前熟悉的 Apache Airflow 平台来协调数据处理任务。您可以获得更高的可扩展性、可用性和安全性,而无需承担管理底层基础设施的运营负担。亚马逊 MWAA 使用以 Python 或可视化工作流程工作室编写的有向无环图 (DAG) 来协调您的工作流程。您可向 Amazon MWAA 提供 S3 存储桶,其中包含您的 DAG、插件和 Python 需求。大规模部署 Apache Airflow,而不会增加管理底层基础设施的运营负担。

使用案例

快速识别和访问 AWS、本地和其他云端的统一数据,然后立即将其用于查询和转换。使用查询联合和 Zero-ETL 来简化对 AWS 数据库服务和来自第三方应用程序的数据的访问。

使用 Apache Spark、Apache Flink 和 Trino 等框架以及批处理、微批处理和流式处理等各种工作负载处理数据。

使用统计算法和预测性模型运行大规模数据处理和 what-if 分析,发现隐藏的模式、相关性、市场趋势和客户偏好。