Amazon S3 Tables
使用 Amazon S3 中的全受管 Apache Iceberg 資料表大規模儲存表格式資料
什麼是 S3 Tables?
Amazon S3 Tables 是全受管 Apache Iceberg 資料表,可自動化管理資料湖和湖倉儲的營運負擔。透過進階壓縮和維護策略,S3 Tables 會隨著資料磁碟區成長而自動最佳化查詢效能。S3 Tables 可搭配任何與 Iceberg 相容的引擎,包括 Apache Spark、Trino、Amazon Athena、Amazon Redshift 和其他第三方工具,從而實現架構靈活性,並提供大規模儲存表格式資料的最簡單方式。
優勢
S3 Tables 透過壓縮、快照管理和未參考檔案移除來持續最佳化 Iceberg 資料表。自動複寫可降低分散式團隊的查詢延遲,而 Intelligent-Tiering 可將儲存成本降低高達 80%。因此,資料團隊可以專注於建置,而不是管理基礎結構。
工作負載增長越多,Iceberg 資料表維護和最佳化就越重要,並且更加難以跟上它們的步伐。S3 Tables 會自動保持資料表效能,因此在資料增長時,查詢會維持一致性,而不會出現降級。資料由雲端中最耐用的儲存提供支援,預設設計為提供 99.999999999% (11 個 9) 的耐用性和 99.99% 的可用性。
S3 Tables 採用 Apache Iceberg 開放標準,可確保您的資料絕不會與單一運算引擎或供應商綁定。 S3 Tables 採用 Iceberg REST Catalog API,因此其可以使用與 Iceberg 相容的引擎,包括 Spark、Trino、Flink、Athena、Redshift、Snowflake 和其他第三方工具,從而既能保留對現有工具的投資,同時又可提供長期靈活性。
管理 Iceberg 資料表控管和安全性可能既複雜又分散。S3 Tables 是一流的 AWS 資源,其中內置了資料表層級存取控制、加密和生命週期管理,因此無需管理每個資料表的 S3 儲存貯體政策,並可簡化複雜分析環境的控管。
S3 Tables 提供了針對分析而最佳化的儲存,與儲存在一般用途 S3 儲存貯體中的 Iceberg 資料表相比,可將每秒交易量提高 10 倍。藉助 MCP 支援,AI 代理程式和 LLM 可以與 S3 Tables 互動,從而實現 AI 驅動分析。透過 Iceberg REST API 與 AWS 分析服務的原生整合以及與第三方工具的相容性,意味著 S3 Tables 可以為新興 AI 驅動工作流程提供支援。
使用案例
透過將資料湖從 Parquet、Apache Hive 或 Hadoop 遷移至 Apache Iceberg 資料表,實現資料湖現代化,從而降低營運複雜度,同時建置支援進階分析和 AI/ML 學習工作負載的可擴展 AI 就緒資料湖。
進一步了解
使用 AWS 串流服務,將資料從 IoT 感應器、交易系統和應用程式日誌等來源直接串流至 Iceberg 資料表中,並透過自動背景最佳化,實現近乎即時的串流資料可查詢。
與在一般用途儲存貯體中儲存 Iceberg 資料表相比,S3 Tables 可將每秒交易量提高 10 倍,因此非常適合需要高輸送量的大規模分析工作負載和營運。
透過模型上下文協定 (MCP) 使用自然語言查詢儲存在 Iceberg 資料表中的資料,無需 SQL 專業知識即可實現臨機探索。S3 Tables 支援多個使用者和 AI 助理並行存取,並且具有自動最佳化功能,可維持查詢效能。
進一步了解
觀看示範
了解 Amazon S3 Tables、我們建置的原因以及其運作方式
立即觀看合作夥伴與整合
Daft
「Amazon S3 Tables 是 Daft 在支援 Apache Iceberg 上的理想補充。透過與 AWS Lake Formation 和 AWS Glue 的整合,我們能夠輕鬆將現有的 Iceberg 讀寫功能擴展至 S3 Tables,同時充分發揮其最佳化的效能。我們期待這項新服務的發展,並很高興能夠為 Python 資料工程與 ML/AI 生態系統提供業界領先的 S3 Tables 支援。」
Daft 執行長兼共同創始人 Sammy Sidhu
Dremio
「Dremio 很高興能為 Amazon S3 Tables 的一般可用性提供支援。S3 Tables 支援 Apache Iceberg REST Catalog (IRC) 規格,可確保與 Dremio 的無縫互通性,讓使用者受惠於高效能 SQL 引擎,輕鬆查詢管理於最佳化 S3 資料表儲存貯體中的 Apache Iceberg 資料表。這項合作強化了開放標準在資料湖倉生態系統中的重要性,同時消除了整合的複雜性,並加速客戶的採用。有了 Amazon S3 Tables 和 IRC 支援,組織可獲得所需的靈活性與選擇性,從而在 AI 時代建置統一的資料湖倉架構。」
Dremio 技術長 Rahim Bhojani
DuckDB Labs
「Amazon S3 Tables 完美契合 DuckDB 的願景,即透過開放檔案格式來實現資料分析的民主化。AWS 與 DuckDB Labs 的合作讓我們能夠進一步擴展 DuckDB 對 Iceberg 的支援,並開發與 S3 Tables 的無縫整合。我們相信 DuckDB 和 S3 Tables 共同的「內建電池 (batteries-included)」能夠融合為一個強大的分析技術堆疊,不僅能處理各種工作負載,同時保持極低的使用門檻。」
DuckDB Labs 執行長 Hannes Mühleisen
HighByte
「Amazon S3 Tables 是一項強大的新功能,可提升表格式資料的管理、效能與儲存,從而最佳化分析工作負載。HighByte Intelligence Hub 與 Amazon S3 Tables 的直接整合,可讓全球製造商輕鬆為其工業資料建立開放式的交易資料湖。S3 Tables 可立即查詢原始 Parquet 資料,讓客戶無需額外處理或轉換,就能將情境化資訊從邊緣傳送至雲端,以供立即使用。這對於我們的共同客戶在效能提升與成本最佳化方面都產生了重大影響。」
HighByte 技術長 Aron Semle
PuppyGraph
「Amazon S3 一直以來都是現代資料基礎結構的基礎,而 S3 Tables 的推出則是一個重要的里程碑,讓 Apache Iceberg 離成為資料與 AI 通用標準的目標更進一步。這項創新可讓組織利用 S3 上的高效能開放式資料表格式,在不重複資料的情況下達成多引擎分析。對於 PuppyGraph 客戶而言,這代表著他們現在可以直接在 S3 資料上執行即時圖形查詢,維持新鮮、可擴充的洞察力,而無需複雜的 ETL 開銷。我們很高興能參與這次的演進,讓圖形分析就像資料本身一樣流暢無縫。」
PuppyGraph 共同創始人兼執行長 Weimo Liu
RisingWave
「RisingWave 與 Amazon S3 Tables 整合,能夠讓組織順從地善用 Amazon S3 中的 Apache Iceberg 資料表,從而讓其串流資料管道功能得到增強。 無論是擷取原始資料,進行即時轉換,還是將結果寫回至 S3,RisingWave 都能讓您輕鬆地將 Iceberg 資料表用做您的工作流程的自然延伸。憑藉這項整合方案,簡化了資料管理、降低了營運複雜度,並且為處理串流分析的團隊提供順暢的互通性。」
RisingWave Labs 產品長 Rayees Pasha
Ryft
「Ryft 與 Amazon S3 Tables 整合使團隊能夠以全自主資料湖倉的形式操作 Apache Iceberg 資料表。客戶可獲得工作負載感知最佳化和管理、自動檔案佈局最佳化和壓縮、受管快照保留和復原、Apache Iceberg 資料表的自動合規性以及對其資料湖倉的完整可見性,所有這些皆基於 Iceberg 原生儲存。「Ryft 和 S3 Tables 可共同提供一致的快速查詢、更低的儲存成本以及可靠的營運,而無需手動調校或 cron 型維護。」
Ryft 執行長兼共同創始人 Yossi Reitblat
Snowflake
「我們很高興能將 Snowflake 的魔力帶到 Amazon S3 Tables。這項合作使 Snowflake 客戶能夠透過現有的 Snowflake 設定,無縫讀取與處理儲存在 S3 Tables 中的資料,無需進行複雜的資料遷移或重複。透過結合 Snowflake 世界級的效能分析功能與 Amazon S3 Tables 對 Apache Iceberg 資料表的高效能儲存,各組織可以輕鬆地查詢和分析其儲存於 Amazon S3 的資料表資料。」
Snowflake 合作夥伴解決方案工程全球總監 Rithesh Makkena
Starburst
「我們很高興看到 Amazon S3 推出內建支援 Apache Iceberg 的 S3 Tables,進一步推動了 Iceberg Open Data Lakehouse 生態系統。我們期待透過 S3 資料表儲存貯體與 AWS 合作,協助我們的共同客戶使用最佳化的 Trino (領先的開放原始碼 MPP SQL 引擎) 所驅動的 Open Lakehouse 強大功能,跨越各種分析與 AI 使用案例,應用於 Amazon S3 中的資料。」
Starburst 產品副總裁 Matt Fuller
StreamNative
「我們與 Amazon S3 Tables 的整合能讓即時、AI 就緒的資料比以往更開放、更容易存取。Ursa 在 S3 上的無領導架構已經降低了儲存成本,而與 S3 Tables 的直接整合更進一步提升了效能與效率。在由 AI 驅動的世界中,資料治理至關重要。StreamNative 致力於協助企業降低 90% 的 TCO,同時以輕鬆且可負擔的方式,讓企業利用受管控的即時資料來建立由 AI 驅動的應用程式。」
StreamNative 執行長兼共同創始人 Sijie Guo
常見問答集
您應該使用 S3 Tables,以一種簡單、高效能且符合成本效益的方式在 Amazon S3 中儲存表格式資料。S3 Tables 讓您能夠將結構化資料整理成資料表,然後使用標準 SQL 陳述式查詢資料,幾乎無需設定。此外,S3 Tables 還可提供與 S3 本身相同的耐用性、可用性、可擴展性和效能特性,並自動最佳化您的儲存,以最大限度地提高查詢效能並降低成本。S3 Tables 使用 Intelligent-Tiering 儲存類別,可依據存取模式來自動執行成本最佳化,並且不會影響效能或增加營運開銷。
與在一般用途 Amazon S3 儲存貯體中儲存 Iceberg 資料表相比,S3 Tables 可將每秒交易量 (TPS) 提高 10 倍。S3 Tables 會自動對基礎資料執行壓縮,以持續最佳化您的資料表,進而實現最佳查詢效能。根據您的工作負載和查詢模式,您也可以選擇進階壓縮策略,例如排序和 z 順序壓縮,以進一步最佳化資料表。排序壓縮會根據指定的資料欄組織資料,以提高篩選作業的查詢效能,而 Z 順序壓縮可最佳化多個維度的資料組織,因此在您需要同時查詢多個資料欄的資料時,其非常適合。
只需幾個簡單步驟即可開始使用 S3 Tables,而無需在 S3 以外建立任何基礎結構。首先,在 S3 主控台中建立資料表儲存貯體。作為透過主控台建立第一個資料表儲存貯體的環節,與 AWS Analytics 服務的整合會自動進行,這就使 S3 能夠將帳戶和區域中的所有資料表儲存貯體和資料表自動填入 AWS Glue Data Catalog。之後,各種 AWS 查詢引擎 (例如 Amazon Athena、EMR 和 Redshift) 目前就可以存取 S3 Tables。接下來,您可以按一下以從 S3 主控台使用 Amazon Athena 建立資料表。位於 Athena 中之後,您可以快速開始填入新資料表並查詢它們。
或者,您也可以透過 AWS Glue Data Catalog 使用 Iceberg REST Catalog 端點來存取 S3 Tables,這可讓您探索整個資料資產,包括所有資料表資源。您也可以直接連線至個別資料表儲存貯體端點,以探索該儲存貯體內的所有 S3 Tables 資源。這可讓您與支援 Apache Iceberg REST Catalog 規格的任何應用程式或查詢引擎一起使用 S3 Tables。