亚马逊AWS官方博客
借助新的 Amazon SageMaker Catalog 功能,简化从数据到洞察的路径
现代组织需要跨多个互不相连的系统(结构化数据库、非结构化文件和彼此分离的可视化工具)来管理数据,这样就产生了多种障碍,导致分析工作流的速度下降、生成洞察的能力受限。彼此分离的可视化平台往往会制造障碍,导致各个团队无法提取全面的业务洞察。
这些互不相连的工作流会导致您的组织无法最大限度地利用您的数据投资,不但减缓了决策速度,还会导致需要处理多种数据类型的全面分析错失良机。
从现在起,您可以使用 Amazon SageMaker 中新推出的三项功能,加快从原始数据到切实可行的洞察的路径:
- Amazon QuickSight 集成 – 直接从 Amazon SageMaker 融通式合作开发工作室中启动 Amazon QuickSight,以便使用您的项目数据来构建控制面板,然后将它们发布到 Amazon SageMaker Catalog,以便在整个组织中进行更广泛的发现和共享。
- Amazon SageMaker 在 SageMaker Catalog 中添加了对 Amazon S3 通用存储桶和 Amazon S3 访问权限管控的支持 – 这样就使各个团队能够更轻松地查找、访问 Amazon S3 通用存储桶中存储的数据并协作处理所有类型的数据,包括非结构化数据,同时使用 Amazon S3 访问权限管控来保持精细的访问控制。
- 自动从您的湖仓中载入数据 – 无需手动进行设置,即可自动将湖仓架构中的现有 AWS Glue Data Catalog(GDC)数据集载入到 SageMaker Catalog 中。
新推出的这些 SageMaker 功能可以在统一且受控的体验中执行完整的数据生命周期。您可以自动载入湖仓中的现有结构化数据、在 Amazon S3 中对非结构化数据内容进行无缝编目,并通过 QuickSight 来简化可视化 – 所有这些操作都会受到一致的监管和访问控制。
让我们深入了解一下各项功能。
Amazon SageMaker 和 Amazon QuickSight 集成
借助这一集成,您可以使用来自 Amazon SageMaker 项目的数据,在 Amazon QuickSight 中构建控制面板。当您从 Amazon SageMaker 融通式合作开发工作室中启动 QuickSight 时,Amazon SageMaker 会自动创建 QuickSight 数据集,并将其整理到一个只有项目成员能够访问的安全文件夹中。
此外,您构建的控制面板将保留在此文件夹中,并自动作为资产显示在 SageMaker 项目中,在该项目中,您可以将这些控制面板发布到 SageMaker Catalog 并与公司目录中的用户或群组共享。这样可以确保您的控制面板在 SageMaker 融通式合作开发工作室中始终井然有序、易于发现和受到管控。
要使用这一集成,必须使用同一个 IAM Identity Center 实例,将您的 Amazon SageMaker 融通式合作开发工作室域和 QuickSight 账户与 AWS IAM Identity Center 集成在一起。此外,您的 QuickSight 账户还必须存在于您要在其中启用 QuickSight 蓝图的那个 AWS 账户中。您可以在文档页面上了解有关先决条件的更多信息。
满足这些先决条件之后,您可以导航到 Amazon SageMaker 控制台并选择蓝图选项卡,以便为 Amazon QuickSight 启用蓝图。然后找到 Amazon QuickSight,并按照说明进行操作。
您还需要配置 SQL 分析项目配置文件,以便在添加蓝图部署设置中包含 Amazon QuickSight。
要了解有关载入设置的更多信息,请参阅文档页面。
随后,当创建新项目时,您需要使用 SQL 分析配置文件。
创建项目之后,您可以开始使用 QuickSight 来构建可视化。您可以导航到数据选项卡,选择要可视化的表或视图,然后在操作下方选择在 QuickSight 中打开。
这样会将您重定向到 Amazon QuickSight 事务数据集页面,您可以选择在分析中使用,以便开始浏览数据。
当您使用 QuickSight 蓝图来创建项目时,SageMaker 融通式合作开发工作室会自动为每个项目预置一个受到限制的 QuickSight 文件夹,SageMaker 会将所有新资产(分析、数据集和控制面板)都置于此文件夹中。这一集成可以确保实时文件夹权限保持同步,并使 QuickSight 文件夹访问权限与项目成员资格保持一致。
Amazon Simple Storage Service(S3)通用存储桶集成
从今天起,SageMaker 在 SageMaker Catalog 中添加了对 S3 通用存储桶的支持,以便提高可发现性,并通过 S3 访问权限管控来提供精细权限,以使用户能够管理数据,包括共享和管理各种权限。数据科学家、工程师和业务分析师等数据使用者现在可以通过 SageMaker Catalog 来发现和访问 S3 资产。这一扩展还使数据生产者能够通过一个单一界面来管理任何 S3 数据资产的安全控制。
要使用这一集成,您需要拥有适当的 S3 通用存储桶权限,而且您的 SageMaker 融通式合作开发工作室项目必须能够访问包含您的数据的 S3 存储桶。请在 Amazon SageMaker 融通式合作开发工作室中的 Amazon S3 数据文档页面了解有关先决条件的更多信息。
您可以添加一个指向现有 S3 存储桶的连接。
连接之后,您可以浏览可访问的文件夹,并选择存储桶或文件夹,然后选择发布到目录,以便创建可发现的资产。
此操作会创建一个“S3 对象集合”类型的 SageMaker Catalog 资产,并打开资产详细信息页面,用户可以从中增强业务上下文,以便改进搜索和提高可发现性。发布之后,数据使用者可以发现和订阅这些已经编目的资产。当数据使用者订阅“S3 对象集合”资产时,SageMaker Catalog 会在获得批准之后自动使用 S3 访问权限管控来授予访问权限,从而实现跨团队协作,同时确保只为正确的用户授予正确的访问权限。
当获得访问权限之后,您现在可以在 Amazon SageMaker Jupyter Notebook 中处理非结构化数据。如下屏幕截图显示了一个在医疗使用案例中处理图像的示例。
如果您拥有结构化数据,可以使用 Amazon Athena 来查询数据,也可以在 Notebook 中使用 Spark 来处理数据。
借助通过 S3 访问权限管控而授予的这一访问权限,您可以将 S3 数据无缝整合到我的工作流中 – 在 Notebook 中分析数据,将它们与湖仓和 Amazon Redshift 中的结构化数据相结合,以便执行全面分析。您可以访问非结构化数据,例如文档、JupyterLab Notebook 中的图像,以便训练机器学习模型或者生成可查询的洞察。
自动从湖仓中载入数据
这一集成会自动将您的所有湖仓数据集载入到 SageMaker Catalog 中。这一集成的关键优势在于,您可以将 AWS Glue Data Catalog(GDC)数据集导入到 SageMaker Catalog 中,无需手动设置即可对这些数据集进行编目、共享和集中管理。
这一集成需要对包含您的结构化数据集的 Data Catalog 使用现有的湖仓设置。
当您设置 SageMaker 域时,SageMaker Catalog 会自动从所有湖仓数据库和表中摄取元数据。这意味着,您无需进行任何配置,即可立即在 SageMaker 融通式合作开发工作室内浏览和使用这些数据集。
这一集成可以帮助您开始从 SageMaker 融通式合作开发工作室内管理、治理和使用这些资产,并应用可用于其他数据类型的那些治理策略和访问控制,同时统一技术元数据和业务元数据。
需要了解的其他事项
请注意以下几点:
- 发布情况 – 这些集成已在所有支持 Amazon SageMaker 的商业 AWS 区域推出。
- 定价 – 需要支付标准的 SageMaker 融通式合作开发工作室、QuickSight 和 Amazon S3 费用。集成本身不收取额外费用。
- 文档 – 您可以在 SageMaker 融通式合作开发工作室文档中找到完整的设置指南。
通过 Amazon SageMaker 融通式合作开发工作室控制台开始使用这些新推出的集成。
祝您构建顺利!
— Donnie
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。