跳至主要內容

資料湖倉架構

Amazon SageMaker 的資料湖倉架構

透過統一、開放且安全的資料架構,簡化分析和 AI

概觀

Amazon SageMaker 新一代版本建置於開放式湖倉架構之上,並與 Apache Iceberg 完全相容。 整合所有在 Amazon Simple Storage Service (Amazon S3) 資料湖 (包括 S3 表格) 和 Amazon Redshift 資料倉儲中的資料,以便在單一資料複本上建置強大的分析和 AI/ML 應用程式。透過與營運資料庫及應用程式進行零 ETL 整合,與資料來源進行查詢聯合,以及遠端 Apache Iceberg 資料表的型錄聯合,來連線其他來源的資料。使用與 Iceberg 相容的工具和引擎,獲得就地存取和查詢您的資料的靈活性。透過定義整合式存取控制項來保護您的資料,這些許可在所有分析和機器學習 (ML) 工具與引擎中強制執行。

看其如何運作

了解如何在開放且安全的資料湖倉中存取來自 S3 資料湖、S3 Tables 和 Redshift 資料倉儲的統一資料。

Missing alt text value

優勢

統一 Amazon S3 資料湖 (包括 S3 Tables) 和 Amazon Redshift 資料倉儲中的所有資料。透過零 ETL 整合,將來自營運資料庫和應用程式的資料近乎即時地匯入資料湖倉。透過各項查詢聯合功能,來存取及查詢跨第三方資料來源的就地資料。另外,從 AWS 分析引擎到型錄聯合,可藉此直接、安全及經濟高效地存取存放於 S3 且在遠端型錄註冊的 Apache Iceberg 資料表。

您可利用所有與 Apache Iceberg 相容的分析工具和引擎 (如 SQL、Apache Spark、商業智慧 (BI) 及 AI/ML 工具),靈活地就地存取及查詢資料湖屋中的統一資料。

透過資料表、資料欄,或者儲存格層級的整合式、精細存取控制項來保障所有資料的安全性,以及跨所有分析工具與引擎強制執行這些許可。利用標籤型、屬性型或角色型存取政策,來滿足您的安全要求。無需建立副本即可跨組織分享資料。

使用案例

藉助單一資料複本統一 Amazon S3 資料湖和 Amazon Redshift 資料倉儲中的所有資料,以滿足您的分析和 AI 計畫的需求。整合式存取控制可讓您定義精細許可,並在整個組織中安全地分享單一資料複本。

透過零 ETL 整合,存取營運資料庫和應用程式中的近乎即時資料。透過各種 AWS 服務以及支援 Apache Iceberg 的開放原始碼和第三方工具與引擎,就地存取和查詢您的資料。

將來自多個 Amazon Redshift 資料倉儲的現有資料引入資料湖倉,以查詢和合併儲存在 Amazon Redshift 叢集和工作群組中的資料。無需管理多個資料分享,即可擴展擷取、轉換和載入 (ETL) 程序、BI 報告和按需分析的工作負載。

客戶

Lennar

「在過去的 18 個月內,我們一直與 AWS 合作,轉換我們的資料基礎,以使用經濟高效的一流解決方案。隨著 Amazon SageMaker Unified Studio 和 Amazon SageMaker 資料湖倉等技術取得進步,我們正透過無縫存取資料和服務來加快交付速度,從而讓我們的工程師、分析師和科學家取得為自身業務提供實質性價值的洞見。」

Lennar 資料與分析資深副總裁 Lee Slezak

Missing alt text value

Roche

羅氏 (Roche) 是全球製藥和診斷領域的先驅,其致力於發展科學,以改善世人的生活。

「我們一直在使用 Amazon Redshift 從所有資料儲存庫中的結構化和半結構化資料取得洞察。新的 Amazon SageMaker 資料湖倉讓我深感興奮,因為其有潛力透過 Amazon Redshift、AWS Glue Data Catalog 和 AWS Lake Formation 等服務增強和統一對資料湖或其他資料來源的存取。這項創新將讓我們的資料和工程團隊能夠簡化資料存取,促進資料、分析和應用程式工作負載之間的互通性。我預計,透過減少資料複製,資料錯誤也將顯著減少、處理時間將縮短 40%、分析資料將更快地寫回交易系統以改善決策,並且我們的團隊能夠專注於創造商業價值。」

Roche 全球產品策略工程主管 Yannick Misteli

Blue outline logo with the word 'Roche' in the center, displayed within a hexagonal border on a transparent background.

Idealista

Idealista 透過提供線上房地產分類平台,為整個南歐的房地產經紀人和個人提供支援。

「我們的目標是簡化對 Salesforce 資料的存取,以增強資料湖中的分析。透過應用程式功能,我們可以利用新的 Amazon SageMaker 資料湖倉對零 ETL 整合的支援機制,簡化資料擷取和載入流程,同時消除多個 ETL 的需要,以直接進入 Salesforce。這種集中化的方法可降低複雜性,並顯著改善我們的資料管理效率。我們預計能夠節省大量的資料擷取和匯入開發時間,讓團隊能夠專注於從資料中取得可行的洞察,而不是將時間耗費在收集資料上。」

Idealista 資料平台工程經理 Javier Monterrubio

The word 'idealista' displayed in a pixel-style, black font on a white background.

Carrier

「在 Carrier,下一代 Amazon SageMaker 正在透過簡化建置和擴展資料產品的方式來轉變我們的企業資料戰略。SageMaker Unified Studio 提供的資料探索、處理和模型開發方法大幅度加快我們的 Lakehouse 實作。最令人印象深刻的是,該服務與我們現有資料型錄和內建治理控制項的順暢整合可讓我們在保持安全標準的同時將資料存取普及化,協助我們的團隊在整個企業內快速提供進階分析和人工智慧解決方案。」

Missing alt text value

合作夥伴

Tableau

Tableau 協助人們和組織變得更資料驅動。

「Amazon 與 Salesforce Tableau 携手,致力於創新和協助客戶取得成功。藉助 Amazon 全新的零 ETL 整合,我們將 Tableau 的 AI 驅動資料和分析與 Amazon 強大的資料基礎設施相結合,協助組織改變從資料中獲取洞察的方式。這種順暢整合讓我們的客戶能夠利用 Amazon SageMaker 資料湖倉和 Amazon Redshift 的強大功能,從所有結構化和非結構化資料中獲取洞見,從而顯著降低工程複雜性和縮短部署時間。Tableau 和 Amazon 攜手協助客戶加速數位轉型並大規模創造商業價值。」

Tableau 進階分析資深副總裁 Ali Tore

The image shows the Tableau logo with a colorful, geometric icon followed by the word 'Tableau' in stylized blue text.

dbt Labs

dbt Labs 的使命是協助分析師建立和傳播組織知識。

「長期以來,我們一直是 Amazon Redshift 之上的轉型標準,提供靈活性、協作和信任。隨著新的 Amazon SageMaker 資料湖倉的推出,我們很高興能夠將此價值擴展到更多客戶以及 AWS 環境中的更多資料。現在,客戶可以存取其在 AWS 各項服務中的所有資料,包括資料倉儲和資料湖中的資料。我們很高興能夠將我們的能力與新的 Amazon SageMaker 結合起來,為我們的共同客戶提供治理、編目和資料最佳化功能。」

dbt Labs 合作副總裁 Shawn Toldo

The DataRobot company logo with a red and black design.

Informatica

Informatica 是企業 AI 驅動雲端資料管理領域的領導者,致力於協助企業發揮關鍵資產的變革性能力,充分利用資料和 AI 技術。

「我們的 Intelligent Data Management Cloud (IDMC) 平台和 Amazon SageMaker 可協助組織充分挖掘資料的價值並促進創新和提高效率。身為 Amazon SageMaker 資料湖倉啟動合作夥伴,我們很自豪能夠提供符合現代資料驅動組織高標準的企業級解決方案。結合 AWS 的基礎結構,我們能夠協助各產業更快、更明智地做出決策,從而取得更重大的成果。」

Informatica 產品管理資深副總裁 Pratik Parekh

The logo for Informatica, featuring an orange geometric shape with a blue arrow and the company name 'Informatica' in modern font.