Tabel Amazon S3
Simpan data tabular dalam skala besar dengan tabel Iceberg Apache terkelola penuh di Amazon S3
Apa itu Tabel S3?
Tabel Amazon S3 adalah tabel Iceberg Apache terkelola penuh yang mengotomatiskan beban operasional pengelolaan danau data dan lakehouse. Melalui strategi pemadatan dan pemeliharaan lanjutan, Tabel S3 secara otomatis mengoptimalkan performa kueri seiring dengan bertambahnya volume data. Tabel S3 bekerja dengan mesin yang kompatibel dengan Iceberg, termasuk Apache Spark, Trino, Amazon Athena, Amazon Redshift, dan alat pihak ketiga lainnya, yang memungkinkan fleksibilitas arsitektur dan memberikan cara termudah untuk menyimpan data tabular dalam skala besar.
Manfaat
Tabel S3 terus mengoptimalkan tabel Iceberg melalui pemadatan, manajemen snapshot, dan penghapusan file yang tidak direferensikan. Replikasi otomatis mengurangi latensi kueri untuk tim terdistribusi, dan Intelligent-Tiering mengurangi biaya penyimpanan hingga 80%. Akibatnya, tim data dapat fokus pada pembangunan, alih-alih mengelola infrastruktur.
Makin banyak beban kerja bertambah, makin penting pemeliharaan dan optimisasi tabel Iceberg, dan makin sulit untuk mengimbanginya. Tabel S3 menjaga performa tabel secara otomatis sehingga performa kueri tidak menurun meskipun data makin besar. Data didukung oleh penyimpanan paling tahan lama di cloud, yang dirancang untuk memberikan daya tahan 99,999999999% (11 sembilan) dan ketersediaan 99,99% secara default.
Dibangun di atas standar terbuka Iceberg Apache, Tabel S3 memastikan data Anda tidak pernah terkunci ke dalam satu mesin komputasi atau vendor. Tabel S3 mengekspos API Katalog REST Iceberg dapat digunakan dengan mesin yang kompatibel dengan Iceberg termasuk Spark, Trino, Flink, Athena, Redshift, Snowflake, dan alat pihak ketiga lainnya, yang mempertahankan investasi pada alat yang ada sambil memungkinkan fleksibilitas jangka panjang.
Mengelola tata kelola dan keamanan tabel Iceberg bisa jadi rumit dan terfragmentasi. Tabel S3 adalah sumber daya AWS kelas satu dengan kontrol akses tingkat tabel, enkripsi, dan manajemen siklus hidup bawaan sehingga tidak perlu lagi mengelola kebijakan bucket S3 untuk setiap tabel dan tata kelola pada lingkungan analitik yang kompleks menjadi lebih sederhana.
Tabel S3 menghadirkan penyimpanan yang dioptimalkan untuk analitik, dengan transaksi per detik hingga 10x lebih tinggi dibandingkan tabel Iceberg yang disimpan dalam bucket S3 tujuan umum. Dengan dukungan MCP, agen AI dan LLM dapat berinteraksi dengan Tabel S3, yang memungkinkan analitik berbasis AI. Integrasi native dengan layanan Analitik AWS dan kompatibilitas dengan alat pihak ketiga melalui API REST Iceberg berarti Tabel S3 dapat mendukung alur kerja bertenaga AI yang muncul.
Cara kerja Tabel S3
Kasus penggunaan
Modernisasi danau data dengan bermigrasi dari Parquet, Apache Hive, atau Hadoop ke tabel Iceberg Apache sehingga mengurangi kompleksitas operasional sekaligus membangun danau data yang dapat disakalakan dan siap untuk AI yang mendukung analitik lanjutan dan beban kerja pembelajaran AI/ML.
Pelajari selengkapnya
Alirkan data langsung ke tabel Iceberg dari berbagai sumber, seperti sensor IoT, sistem transaksi, dan log aplikasi menggunakan layanan Streaming AWS, dengan optimisasi latar belakang otomatis yang membuat data streaming dapat dikueri hampir secara waktu nyata.
Tabel S3 memberikan hingga 10x lebih banyak transaksi per detik dibandingkan penyimpanan tabel Iceberg dalam bucket tujuan umum, yang membuatnya sangat cocok untuk beban kerja analitik skala besar dan operasi yang membutuhkan throughput tinggi.
Data kueri yang disimpan dalam tabel Iceberg menggunakan bahasa alami melalui Protokol Konteks Model (MCP), yang memungkinkan eksplorasi ad-hoc tanpa keahlian SQL. Tabel S3 mendukung akses bersamaan dari beberapa pengguna dan asisten AI dengan optimisasi otomatis yang mempertahankan performa kueri.
Pelajari selengkapnya
Tonton demo
Pelajari tentang Tabel Amazon S3, alasan dikembangkan, dan cara kerjanya
Tonton sekarangPartner dan integrasi
Daft
"Tabel Amazon S3 adalah pelengkap sempurna bagi dukungan Daft untuk Iceberg Apache. Dengan memanfaatkan integrasinya dengan AWS Lake Formation dan AWS Glue, kami dapat dengan mudah memperluas kemampuan baca dan tulis Iceberg kami yang ada ke Tabel S3, sekaligus memanfaatkan performanya yang telah dioptimalkan. Kami menantikan evolusi layanan baru ini, dan kami sangat senang untuk memberikan dukungan Tabel S3 terbaik di kelasnya untuk ekosistem Rekayasa Data Python & ML/AI."
Sammy Sidhu, CEO & Co-Founder - Daft
Dremio
"Dremio dengan senang hati mendukung ketersediaan umum Tabel Amazon S3. Dengan mendukung spesifikasi Katalog REST Iceberg (IRC) Apache, Tabel S3 memastikan interoperabilitas yang lancar dengan Dremio, sehingga pengguna dapat memperoleh manfaat dari mesin SQL performa tinggi yang mampu mengkueri tabel Iceberg Apache yang dikelola dalam bucket tabel S3 yang dioptimalkan. Kolaborasi ini memperkuat pentingnya standar terbuka dalam ekosistem lakehouse, dengan menghilangkan kompleksitas integrasi dan mempercepat adopsi pelanggan. Dengan Tabel Amazon S3 dan dukungan IRC, organisasi mendapatkan fleksibilitas dan pilihan yang dibutuhkan untuk membangun arsitektur lakehouse terpadu di era AI."
Rahim Bhojani, CTO - Dremio
DuckDB Labs
"Tabel Amazon S3 benar-benar selaras dengan visi DuckDB untuk mendemokratisasi analitik data menggunakan format file terbuka. Kolaborasi antara AWS dan DuckDB Labs memungkinkan kami untuk lebih memperluas dukungan Iceberg di DuckDB dan mengembangkan integrasi secara lancar dengan Tabel S3. Kami percaya pendekatan battery-included yang diusung DuckDB dan S3 ketika digabungkan akan membentuk tumpukan analitik kuat yang dapat menangani berbagai beban kerja sekaligus menjaga agar hambatan yang masuk sangat rendah."
Hannes Mühleisen, Chief Executive Officer - DuckDB Labs
HighByte
"Tabel Amazon S3 adalah fitur baru yang kuat yang mengoptimalkan manajemen, performa, dan penyimpanan data tabular untuk beban kerja analitik. Integrasi langsung HighByte Intelligence Hub dengan Tabel Amazon S3 memudahkan manufaktur global untuk membangun danau data transaksional yang terbuka untuk data industri mereka. Tabel S3 memungkinkan pelanggan mengueri data Parquet mentah secara instan sehingga mereka dapat mengirim informasi kontekstual dari edge ke cloud untuk langsung digunakan tanpa perlu pemrosesan atau transformasi tambahan. Hal ini berdampak besar pada performa dan optimisasi biaya untuk pelanggan kami."
Aron Semle, Chief Technology Officer - HighByte
PuppyGraph
"Amazon S3 telah lama menjadi fondasi infrastruktur data modern, dan peluncuran Tabel S3 menandai sebuah tonggak penting yaitu membawa Iceberg Apache lebih dekat agar menjadi standar universal untuk data dan AI. Inovasi ini memungkinkan organisasi untuk memanfaatkan format tabel terbuka beperforma tinggi di S3, yang memungkinkan analitik multimesin tanpa duplikasi data. Untuk pelanggan PuppyGraph, hal ini berarti bahwa mereka kini dapat menjalankan kueri grafik secara waktu nyata langsung pada data S3 mereka, dengan tetap mempertahankan wawasan yang segar dan dapat diskalakan tanpa kompleksitas ETL yang berat. Kami sangat antusias menjadi bagian dari evolusi ini, dengan menghadirkan analitik grafik yang selancar data itu sendiri."
Weimo Liu, Co-founder & CEO - PuppyGraph
RisingWave
Integrasi RisingWave dengan Tabel Amazon S3 memberdayakan organisasi untuk memanfaatkan tabel Iceberg Apache secara lancar di Amazon S3 sehingga meningkatkan kemampuan alur data streaming mereka. Baik Anda menyerap data mentah, mentransformasinya secara waktu nyata, maupun menulisnya hasil kembali ke S3, RisingWave memudahkan untuk bekerja dengan tabel Iceberg sebagai bagian yang terintegrasi secara alami dalam alur kerja Anda. Integrasi ini menyederhanakan manajemen data, mengurangi kompleksitas operasional, dan memungkinkan interoperabilitas yang lancar bagi tim yang bekerja dengan analitik streaming."
Rayees Pasha, CPO - RisingWave Labs
Ryft
"Integrasi Ryft dengan Tabel Amazon S3 memungkinkan tim untuk mengoperasikan tabel Iceberg Apache sebagai lakehouse yang sepenuhnya otonom. Pelanggan mendapatkan optimisasi dan tata kelola yang disesuaikan dengan beban kerja, optimisasi dan pemadatan tata letak file secara otomatis, retensi dan pemulihan snapshot terkelola, kepatuhan otomatis untuk tabel Iceberg Apache, serta visibilitas penuh atas lakehouse mereka, semuanya di penyimpanan native Iceberg. Bersama-sama, Ryft dan Tabel S3 menghadirkan kueri cepat secara konsisten, biaya penyimpanan lebih rendah, dan operasi yang andal tanpa perlu penyetelan manual atau pemeliharaan berbasis cron."
Yossi Reitblat, CEO & Co-Founder - Ryft
Snowflake
"Kami sangat senang dapat menghadirkan keajaiban Snowflake ke Tabel Amazon S3. Kolaborasi ini memungkinkan pelanggan Snowflake untuk membaca dan memproses data yang disimpan di Tabel S3 dengan lancar menggunakan pengaturan Snowflake yang sudah ada sehingga tidak membutuhkan migrasi atau duplikasi data yang kompleks. Dengan menggabungkan kemampuan analitik beperforma kelas dunia dari Snowflake dengan penyimpanan efisien tabel Iceberg Apache di Tabel Amazon S3, organisasi dapat mengueri dan menganalisis data tabular yang disimpan di Amazon S3 dengan mudah."
Rithesh Makkena, Global Director of Partner Solutions Engineering - Snowflake
Starburst
"Kami sangat antusias melihat Amazon S3 memperkenalkan dukungan bawaan untuk Iceberg Apache dengan Tabel S3, yang turut memajukan ekosistem Open Data Lakehouse Iceberg Dengan bucket tabel S3, kami berharap dapat berkolaborasi dengan AWS untuk membantu pelanggan bersama kami menghadirkan kekuatan Open Lakehouse, yang ditenagai oleh Trino yang dioptimalkan – mesin SQL MPP sumber terbuka terkemuka, untuk berbagai kasus penggunaan analitik dan AI pada data di Amazon S3."
Matt Fuller, Vice President, Product - Starburst
StreamNative
"Integrasi kami dengan Tabel Amazon S3 membuat data waktu nyata yang siap untuk AI menjadi lebih terbuka dan mudah diakses daripada sebelumnya. Arsitektur tanpa pemimpin Ursa di S3 sudah mengurangi biaya penyimpanan, dan integrasi langsung dengan Tabel S3 makin meningkatkan performa dan efisiensi. Dalam dunia yang digerakkan oleh AI, tata kelola data sangat penting. Di StreamNative, kami berkomitmen untuk membantu bisnis mengurangi TCO hingga 90% sekaligus membuat pembangunan aplikasi yang ditenagai AI menjadi mudah dan terjangkau dengan data waktu nyata yang terkelola."
Sijie Guo, CEO & Co-Founder - StreamNative
Tanya Jawab Umum
Anda harus menggunakan Tabel S3 sebagai cara sederhana, beperforma, dan hemat biaya untuk menyimpan data tabular di Amazon S3. Tabel S3 memberi Anda kemampuan untuk mengatur data terstruktur ke dalam tabel, lalu mengueri data tersebut menggunakan pernyataan SQL standar, tanpa pengaturan. Selain itu, Tabel S3 menghadirkan ketahanan, ketersediaan, skalabilitas, dan karakteristik performa yang sama seperti S3 itu sendiri, dan secara otomatis mengoptimalkan penyimpanan Anda untuk memaksimalkan performa kueri dan meminimalkan biaya. Dengan kelas penyimpanan Intelligent-Tiering, Tabel S3 secara otomatis mengoptimalkan biaya berdasarkan pola akses, tanpa memengaruhi performa atau tanpa biaya tambahan operasional.
Tabel S3 mampu menghasilkan transaksi per detik (TPS) hingga 10x lebih tinggi dibandingkan dengan menyimpan tabel Iceberg di bucket Amazon S3 tujuan umum. Tabel S3 secara otomatis melakukan pemadatan pada data yang mendasarinya untuk terus mengoptimalkan tabel Anda demi performa kueri yang optimal. Bergantung pada beban kerja dan pola kueri Anda, Anda juga dapat memilih strategi pemadatan lanjutan, seperti pemadatan pengurutan dan berbasis z-orde untuk lebih mengoptimalkan tabel Anda. Pemadatan pengurutan mengatur data berdasarkan kolom tertentu untuk meningkatkan kinerja kueri untuk operasi yang difilter, sementara pemadatan berbasis z-orde mengoptimalkan organisasi data di beberapa dimensi, sehingga sangat cocok ketika Anda perlu mengueri data di beberapa kolom secara bersamaan.
Anda dapat mulai menggunakan Tabel S3 hanya dalam beberapa langkah sederhana tanpa perlu menyiapkan infrastruktur apa pun di luar S3. Pertama, buat bucket tabel di konsol S3. Sebagai bagian dari pembuatan bucket tabel pertama Anda melalui konsol, layanan Analitik AWS akan terintegrasi secara otomatis, yang memungkinkan S3 untuk secara otomatis mengisi semua bucket tabel dan tabel di akun dan Region Anda di Katalog Data AWS Glue. Setelah itu, Tabel S3 kini dapat diakses oleh mesin kueri AWS, seperti Amazon Athena, EMR, dan Redshift. Selanjutnya, Anda dapat mengklik untuk membuat tabel menggunakan Amazon Athena dari konsol S3. Begitu sampai di Athena, Anda bisa langsung mulai mengisi tabel baru dan menjalankan kueri terhadapnya.
Sebagai alternatif, Anda dapat mengakses Tabel S3 menggunakan titik akhir Katalog REST Iceberg melalui Katalog Data AWS Glue, yang memungkinkan Anda untuk mengidentifikasi seluruh aset data Anda, termasuk semua sumber daya tabel. Anda juga dapat terhubung langsung ke titik akhir bucket tabel tertentu untuk menemukan semua sumber daya Tabel S3 dalam bucket tersebut. Hal ini memungkinkan Anda untuk menggunakan Tabel S3 dengan aplikasi atau mesin kueri apa pun yang mendukung spesifikasi Katalog REST Iceberg Apache.