什麼是資料整合平台?
現代化組織建立及使用成千上萬的系統及各種格式的資料。資料整合是指將不同系統與格式的資料相結合,並對其進行規範化處理以使資料更實用的程序。藉助整合的資料,您可存取包含全部資料的單一且統一的檢視,以便為決策提供支援及進行報告,進而對資料進行分析,從而為決策提供更多資訊。
公司需要整合式資料來支援業務分析、自訂機器學習模型,以及用於其他企業應用程式與業務程序。資料整合涉及收集、轉換及整合原始資料,以便企業可受益於資料集合形式。舉例來說,交易中的資料、帳戶數量及類型,以及客戶服務記錄可協助為銀行建立一個統一的客戶資料檢視。
資料整合程序有哪些?
各組織對於資料整合在改善工作流程效率方面的益處都有所了解。藉助定義資料整合程序,組織能夠產生更可靠、重複的結果。
1.確認各種不同的資料來源
確認將需要自動或手動整合的多種資料來源。組織在眾多不同類型的系統中,採用各種資料格式來建立及存放存資料。舉例來說,組織可使用各式各樣的 SQL 資料庫、記憶體快取,以及文件存放區。組織中的應用程式可能以專屬格式來存放資料,無須直接的外部資料存取權。
2.確定整合策略
檢閱相關的資料儲存體與格式,以及您的組織要求,進而確定擷取及轉換資料至規範化格式的最佳方式。下面列出了部分一般資料整合策略:
- 擷取、轉換、載入 (ETL) 模式可從目前的系統中擷取資料,轉換資料,然後載入資料至目標系統。ETL 是適用於資料倉儲存的一般模式。
- 擷取、載入、轉換 (ELT) 模式可從目前的系統中擷取資料,載入資料至目標系統,然後再轉換資料。在您需要資料進行分析之前,ELT 可採用非結構化形式來保留資料。ELT 是適用於資料湖的一般模式。
- 即時串流擷取可擷取串流中的資料,然後執行資料擷取,以便近乎即時地進行資料整合。
- 變更資料擷取 (CDC) 是指探索資料變更,然後發布這些變更至事件串流,以便進行資料擷取的程序。
在此階段,您還需要確定資料倉儲或資料湖等目標儲存系統或資料儲存器。
3.設計結構描述
依據資料的最終狀態,概述資料結構描述或無結構描述儲存類型。結構描述必須可擴展、版本化,以及與企業資料儲存期望值相符。全新結構描述應保持資料品質及資料準確度,以及針對未來整合設置有相應的資料治理規則。
4.擷取資料
確定資料擷取的最佳方法,以便將業務營運中斷降至最低。舉例來說,很多組織每天在結束業務之後,都會利用批次擷取來整合非即時資料。組織可能需要使用 API 來擷取資料,以便進行專屬應用程式整合,或者使用 Amazon AppFlow 等服務,在軟體即服務 (SaaS) 應用程式與雲端間傳輸資料。
5.移轉資料至中央存放區
傳送資料至中央存放區。資料來源與目的地有時會在不同位置,舉例來說,資料從內部部署移轉至雲端。資料移轉可能需要額外的安全措施、額外的頻寬,或者資料落地考量。
6.轉換資料
資料可能需要在中央存放區轉換至其最終形式。轉換的資料不僅在格式上有所變更,舉例來說,透過多個資料點來計算平均值。
什麼是無伺服器資料整合?
企業正將其資料工作流程從本地基礎結構,移轉至現代化雲端資料平台。藉助雲端架構,組織能夠克服實體硬體約束,以及提供商業智慧與 AI 等進階、整合式雲端資料分析服務。
無伺服器是一個雲端運算概念,能夠提供完全具備彈性、容錯能力雲端服務,還可消除伺服器佈建的複雜性。在傳統部署中,建立資料管道時,您將佈建及維護伺服器與程式碼服務,才能進行資料擷取、轉換,以及操縱。藉助無伺服器資料整合產品,您將具備全面的可擴展性,無須負擔管理開銷。任務可執行到完成,且服務再次進入休眠狀態,直至下次需要。
對於隨需資料整合任務而言,無伺服器很實用,其依用量付費模式有助於降低公司的基礎結構費用。
舉例來說,AWS Glue 是一項無伺服器資料整合解決方案。AWS Glue 讓您能夠探索並連線至超過 100 個不同的資料來源,在集中式資料型錄中管理您的資料,並且以視覺方式建立、執行與監控資料管道,將資料載入到您的資料湖、資料倉儲和湖倉。
透過 AWS Glue,您可以根據任何工作負載的特性,以及開發人員與分析師的偏好,使用合適的資料整合引擎。您可以依排程、隨需或根據事件調用 AWS Glue 任務。
與 AWS Glue 進行無伺服器 ETL 資料整合
如需開始使用 AWS Glue,啟動 AWS Glue Studio 主控台。在開始使用 AWS Glue 之前,前往主控台設定必要的 IAM 政策與角色。
步驟 1 – 新增資料表定義至 AWS Glue Data Catalog
導覽至 Data Catalog。選擇使用編目程式來新增資料表,然後選擇您想要用於編目的來源資料存放區,以便提供結構描述與中繼資料的資料映射,進而在 Data Catalog 中建立資料定義與資料表。
步驟 2 – 定義轉型任務
從導覽窗格中選擇 ETL 任務,然後選擇「使用視覺化的 ETL 來建立任務」。在視覺化編輯器中新增資料來源與資料目標節點,然後對資料進行設定。Glue Studio 可在指令碼標籤中生成程式碼,這會轉換來源資料表格的資料到目標資料表的結構描述。
步驟 3 – 執行 AWS Glue 任務
您可藉助「任務詳細資訊」索引標籤中的資料治理工具,為任務執行設定參數。您完成參數設定後,依序選擇「儲存」及「執行」,以便啟動資料處理的轉換與整合程序。
步驟 4 – 檢閱輸出
在「視覺化」索引標籤中,選擇用於觀測資料預覽的目標節點,以便確認節點中包含準確的資料。
若要了解詳細資訊,請參閱 AWS Glue:使用者指南。
什麼是零 ETL 整合?
零 ETL 是一組整合,可將建置 ETL 資料管道的需求降至最低。一般情況下,從資料來源傳輸資料至目的地時,您可建立、設定及執行 ETL 管道。然而,藉助零 ETL 資料整合方法,ETL 程序可自動執行且在軟體處理程序中會隱藏。
首次從來源載入資料至目的地後,每次更新來源中的資料,都會自動執行進一步資料複寫。此零 ETL 程序支援近乎即時的分析管道。
AWS 提供多項可支援零 ETL 的服務,包括 Amazon Redshift、Amazon RDS for MySQL、Amazon DynamoDB、Amazon DocumentDB、Amazon SageMaker、Amazon CloudWatch、Amazon OpenSearch Service、Amazon Security Lake,以及 Amazon Aurora。
Amazon Redshift 與 Amazon Aurora 的零 ETL 整合
Amazon Redshift 是一項雲端資料倉儲服務,支援企業以實惠的方式來擴展其分析工作負載。與此同時,Amazon Aurora 是與 MySQL 及 PostgreSQL 相容的高效能關聯式資料庫。
步驟 1 – 設定整合來源
驗證 Amazon Aurora 資料庫是否支援與 Amazon Redshift 的零 ETL 整合。在編寫時,Amazon Redshift 支援下列與 Amazon Aurora 的零 ETL 整合。
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
在 Aurora 中設定二進位日誌記錄,進而確保您可擷取資料變更來進行複寫。針對靜態資料與傳輸中資料選擇加密選項,以便滿足安全要求。最後,設定必要的 IAM 政策與角色,以便授予與 Amazon Redshift 進行整合的許可。
此外,Amazon Redshift 還可支援與 Amazon RDS for MySQL 、Amazon DynamoDB,以及 Salesforce、SAP、ServiceNow 及 Zendesk 等應用程式的 零 ETL。
步驟 2 – 設定目的地
若沒有目的地,可啟動擁有適當儲存體與運算組態的全新 Redshift 叢集。確認 Amazon Redshift 叢集具備必要的網路存取權與加密設定。修改安全群組與 VPC 設定,以便允許 Aurora 與 Redshift 間的連線。
步驟 3 – 驗證整合
Amazon Redshift 可透過 Amazon Aurora 執行初始資料載入。在此之後,該服務可自動監控來源,以及及時複寫更新的資料。您可在 Amazon Redshift 中執行查詢,以便確認資料與來源相符。
AWS 如何支援您的資料移轉需求?
資料整合是為企業提供多個資料來源完整資料狀況的關鍵,這些資料可用於進行視覺化與進階分析。在日益增長的非結構性、半結構性與結構性資料來源中,管理複雜的整合管道可能困難重重。透過雲端資料整合,可藉助無伺服器與零 ETL 等創新的資料整合工具及服務,來簡化資料管理工作流程。在此探索符合現代化資料整合需求的各項 AWS 服務。