跳至主要内容

什么是数据集成平台?

什么是数据集成平台?

现代组织会跨数十到数千个系统和格式创建并使用数据。数据集成指合并来自不同系统和格式的数据,并对其进行标准化处理,使数据更加实用的过程。借助集成数据,您可获取所有数据的单一统一视图,以提供决策支持并进行报告,继续分析数据,从而为决策提供更充分的依据。

公司需要整合数据以支持业务分析、自定义机器学习模型以及用于其他企业应用程序和业务流程。数据集成涉及收集、转换和整合原始数据,使企业能从整合后的数据中获益。例如,交易数据、账户数量和类型数据以及客户服务记录有助于银行为客户创建统一的数据视图。

数据集成流程是怎样的?

组织深知数据集成对提升工作流程效率的好处。定义数据集成流程有助于组织生成更可靠、可重复的结果。 

1.识别不同的数据来源

自动或手动识别需要集成的多个数据来源。组织会跨多种不同类型的系统和数据格式创建和存储数据。例如,组织可能使用各类 SQL 数据库、内存缓存和文档存储。组织内部的应用程序可能会以专有格式存储数据,而无需直接访问外部数据。

2.确定集成策略

结合相关数据存储、数据格式和组织需求,以确定提取数据并将其转换为标准化格式的最佳方法。以下是一些常见的数据集成策略:

  • 提取、转换、加载(ETL)模式:从当前系统提取数据,转换数据后,然后将其加载到目标系统。ETL 是数据仓库存储的常用模式。
  • 提取、加载、转换(ELT)模式:从当前系统提取数据,将数据加载到目标系统,然后转换数据。ELT 允许保留数据的非结构化形式,直至需要使用它来进行分析时为止。ELT 是数据湖存储的常见模式。
  • 实时流是传输摄取:从流中捕获数据并执行数据摄取,从而实现近乎实时的数据集成。
  • 变更数据捕获(CDC):发现数据变更并将这些变更发布到事件流,以进行数据摄取的过程。

在此阶段,您还需要确定目标存储系统或数据存储库(例如数据仓库或数据湖)。

3.设计架构

概述数据的最终状态对应的架构或无架构存储类型。该架构必须可扩展且可进行版本控制,并且符合企业数据存储预期。新架构应保持数据质量和数据准确性,并为未来集成制定相应的数据治理规则。

4.提取数据

确定最佳数据提取方法,以最大限度地减少对业务运营的干扰。例如,许多组织会在每日营业结束后采用批量提取方式整合非实时数据。组织可能需要使用 API 提取数据以实现专有应用程序集成,或使用 Amazon AppFlow 等服务在软件即服务(SaaS)应用程序与云之间传输数据。

5.将数据迁移至集中存储

将数据传输到集中存储。有时,数据来源与其目标端位于不同位置,例如,将数据从本地迁移到云端。数据迁移可能需要额外的安全措施、额外的带宽或考虑数据驻留相关要求。

6.转换数据

数据可能需要在集中存储中转换为最终形式。数据转换可能不仅仅是格式更改,例如,根据多个数据点计算平均值。

什么是无服务器数据集成?

企业正将其数据工作流程从本地基础设施迁移到现代云数据平台。云架构能帮助组织突破物理硬件限制,并提供商业智能、人工智能等先进且可集成的云数据分析服务。 

无服务器是一种云计算概念,可提供完全弹性、具备容错能力的云服务,同时消除服务器配置的复杂性。传统上,创建数据管道时,您需要预置并维护用于数据摄取、转换和处理的服务器和代码服务。使用无服务器数据集成产品,您可获得完全的可扩展性,且无需承担管理开销。作业会运行至完成,之后服务再次进入休眠状态,直至下次需要时。

无服务器适用于按需数据集成作业,其按使用量付费的模式有助于降低公司的基础设施成本。 

例如,AWS Glue 就是一项无服务器数据集成解决方案。AWS Glue 让您可以发现并连接到 100 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控数据管道,进而将数据加载到数据湖、数据仓库和湖仓中。 

通过 AWS Glue,您可以根据工作负载的特征以及开发人员和分析师的偏好,为任何工作负载使用合适的数据集成引擎。AWS Glue 作业可以按计划、按需或基于事件进行调用。

与 AWS Glue 进行无服务器 ETL 数据集成

要开始使用 AWS Glue,请启动 AWS Glue Studio 控制台。在开始使用 AWS Glue 前,请在控制台中设置必要的 IAM 策略和角色。

第 1 步 — 向 AWS Glue Data Catalog 添加表定义

导航至 Data Catalog。选择“使用爬网程序添加表”,然后选择要爬取的源数据存储,以提供架构和元数据的数据映射,在 Data Catalog 中创建数据定义和表。

第 2 步 — 定义转换作业

从导航窗格中选择“ETL 作业”,然后选择“使用可视化 ETL 创建作业”。在可视化编辑器中添加数据来源和数据目标节点,并配置相关数据。Glue Studio 会在“脚本”选项卡中生成代码,将源表中的数据转换为目标表的架构格式。

第 3 步 — 运行 AWS Glue 作业

您可以通过“作业详细信息”选项卡中的数据治理工具设置作业运行参数。配置完参数后,选择“保存”,然后选择“运行”,以启动数据转换和集成流程。

第 4 步 — 检查输出

在“可视化”选项卡中,选择目标节点以查看数据预览,确保节点中的数据准确无误。

有关更多信息,请参阅 AWS Glue:用户指南

什么是零 ETL 集成?

零 ETL 是一组集成,可最大限度地减少构建 ETL 数据管道的需求。通常,在将数据从数据来源传输到目标时,您需要创建、配置并运行 ETL 管道。但是,使用零 ETL 数据集成方法,ETL 流程会自动执行,并隐藏在软件流程中。 

首次将数据从来源加载到目标后,每次来源中的数据更新时,系统都会自动进行后续的数据复制。这种零 ETL 流程支持近乎实时的分析管道。

AWS 提供多种支持零 ETL 的服务,包括 Amazon RedshiftAmazon RDS for MySQLAmazon DynamoDBAmazon DocumentDBAmazon SageMakerAmazon CloudWatchAmazon OpenSearch ServiceAmazon Security LakeAmazon Aurora。 

与 Amazon Redshift 和 Amazon Aurora 的零 ETL 集成

Amazon Redshift 是一款云数据仓库,让企业能够以经济实惠的方式扩展分析工作负载。同时,Amazon Aurora 是一款与 MySQL 和 PostgreSQL 兼容的高性能关系型数据库。 

步骤 1 — 配置集成源 

确认您的 Amazon Aurora 数据库支持与 Amazon Redshift 的零 ETL 集成。撰写本文时,Amazon Redshift 支持与以下 Amazon Aurora 版本进行零 ETL 集成:

  • Amazon Aurora MySQL
  • Amazon Aurora PostgreSQL

在 Aurora 中配置二进制日志记录,确保捕获要复制的数据变更。为静态数据和传输中数据选择加密选项,以满足安全要求。最后,设置必要的 IAM 策略和角色,以授予与 Amazon Redshift 集成的权限。

Amazon Redshift 还支持与 Amazon RDS for MySQL、Amazon DynamoDB 以及 Salesforce、SAP、ServiceNow、Zendesk 等应用程序的零 ETL 集成。

步骤 2 — 配置目标端

您可以启动一个具备适当存储和计算配置的新 Redshift 集群(如果没有)。确保 Amazon Redshift 集群具有必要的网络访问权限和加密设置。修改安全组和 VPC 设置,以 Aurora 和 Redshift 之间建立连接。

第 3 步 — 验证集成

Amazon Redshift 会从 Amazon Aurora 执行初始数据加载。之后,它会自动监控数据来源并实时复制更新的数据。您可以在 Amazon Redshift 中运行查询,以验证数据是否与源数据一致。

AWS 如何满足您的数据集成需求?

数据集成是企业获取多个数据来源数据的完整视图、为可视化和高级分析提供支撑的关键。管理不断增长的非结构化、半结构化和结构化数据来源中的复杂集成管道可能很困难。云数据集成通过无服务器、零 ETL 等创新数据集成工具和服务,帮助简化数据管理工作流程。在此处探索满足现代数据集成需求的 AWS 服务。