Amazon Web Services ブログ
【開催報告 & 資料公開】Apache Iceberg on AWS ミートアップ開催報告
こんにちは。ソリューションアーキテクトの疋田です。
2025 年 5 月 14 日に「Apache Iceberg on AWS ミートアップ ~話題のIcebergをAWSで徹底活用~」と題したイベントを開催しました。ご参加いただきました皆様には、改めて御礼申し上げます。
本セミナーでは、AWS における Iceberg の活用についてさまざまな角度からご紹介しました。Iceberg 活用の全体像に加えて、マネージドな Iceberg のストレージである Amazon S3 Tables Bucket、既存データレイクからの移行における考え方、リアルタイムデータ処理を実現するストリーミングワークロードの実装方法、更には機械学習における活用まで、幅広いトピックをご紹介しました。本ブログでは、その内容を簡単にご紹介しつつ、発表資料を公開致します。
すでに Iceberg を活用されている方も、これからはじめる方も是非ご確認下さい!
セッションの紹介
Apache Iceberg on AWS
アマゾン ウェブ サービス ジャパン合同会社 Principal Big Data Architect 関山 宜孝
資料ダウンロード
本セッションでは、Apache Iceberg の概要と主要なユースケース、AWS 上での利用方法についてご紹介しました。Iceberg は大規模なデータセットの分析に利用できるオープンテーブルフォーマットであり、様々な規模のデータを効率的かつ便利に扱う仕組みをもちます。異なるツール間を繋ぐ共通的なテーブル仕様としても機能し、幅広いユースケースに活用できます。AWS はオープンソースの Iceberg をより便利に利用するための仕組みをワンストップで提供しています。Amazon Data Firehose や AWS Glue Zero-ETL によって、個別のデータパイプラインを実装しなくても様々なデータストアから Iceberg テーブルにデータを取り込むことができます。また、AWS Glue Data Catalog のテーブル最適化によりフルマネージドで Iceberg テーブルをメンテナンスすることができ、パフォーマンスとコストを継続的に最適化できます。AWS で Iceberg を活用することで、オープンソースの Iceberg を最大限活かしながら、データの取り込みやテーブルのメンテナンスをより簡単に実現できます。
Amazon S3 Tables – テーブルバケットと汎用バケット
アマゾン ウェブ サービス ジャパン合同会社 Senior Storage Specialist Solutions Architect 焼尾 徹
資料ダウンロード
本セッションでは、AWS で Apache Iceberg を活用する際のストレージの選択肢である、Amazon S3 Tables バケットと Amazon S3 汎用バケットについて、汎用バケットの特徴を振り返りながら深掘りしました。S3 Tables は、表形式のデータに最適化された新しいバケットタイプで、Iceberg の仕組みをフルマネージドに提供します。S3 Tables によって、テーブルの内部的な仕組みを意識することなく、安全かつ効率的に Iceberg を利用できます。一方で、汎用バケット上での Iceberg の活用は歴史があり、カスタマイズ性が高く、Amazon S3 やIceberg の機能をフル活用できます。AWS では、それぞれのストレージをユースケースに応じて使い分けることができます。
Apache Iceberg 移行アプローチの勘所
アマゾン ウェブ サービス ジャパン合同会社 Analytics Specialist Solutions Architect 疋田 宗太郎
資料ダウンロード
本セッションでは、既存のデータレイクを Iceberg へ移行する際のアプローチについてご紹介しました。 Iceberg への移行を検討する際は、まず移行を通じて実現したい目的を確認し、それに基づいて移行後の構成を設計することが大切です。Glue Data Calotag は Hive テーブルと Iceberg の両方を同時に管理できるため、全てのデータを一度に移行する必要はなく、移行の効果が大きいテーブルから段階的に実施できます。データパイプラインを Iceberg へ移行する際の対象は大きく分けてデータ取り込み / 変換ジョブ、テーブルデータ、コンシューマー側のツールの 3 つの要素が挙げられます。それぞれについて、データ規模、ファイル形式、更新頻度、移行方式、書き込み処理の扱い、移行前後のデータの検証、コストなどのポイントを抑えながら移行を計画していくことが重要です。
Apache IcebergとAWSで実現するストリーミングワークロード
アマゾン ウェブ サービス ジャパン合同会社 Analytics Specialist Solutions Architect 深見 修平
資料ダウンロード
本セッションでは、Iceberg を活用したストリーミングワークロードに焦点を当てて AWS のサービスをどのように活用できるかご紹介しました。Iceberg のスキーマが柔軟に変更できる点や、データ品質を担保するための Write-Audit-Publish (WAP) の仕組み、Merge-on-Read (MOR) による性能最適化など、ストリーミングデータを扱うのに適した利用方法をご紹介しました。AWS での実装オプションとしては、AWS Glue 上での Apache Spark Structured Streaming, Amazon Managed Service for Apache Flink 上での Apache Flink など多様な連携方法が利用できます。特に、Amazon Data Firehose は幅広いデータソースから Iceberg テーブルへのマネージドなデータの取り込みが可能です。また、プレビュー中の MySQL や PostgreSQL から Iceberg テーブルへの CDC 連携機能を使用すると、データベースの変更をニアリアルタイムで Iceberg テーブルへと取り込むことができます。
三菱UFJ銀行 金融市場領域におけるApache Iceberg / PyIcebergの可能性
株式会社三菱 UFJ 銀行 市場企画部市場エンジニアリング室 福田 晃平 氏
資料ダウンロード
最後は株式会社三菱 UFJ 銀行 (以下、三菱 UFJ 銀行)における、金融時系列テーブル管理における Iceberg と PyIceberg 活用の取り組みについて紹介しました。三菱 UFJ 銀行の市場部門では、伝統的な機械学習や生成 AI におけるモデルガバナンスとデータガバナンスを効果的に実現するため、特徴量のデータ品質管理やバージョン管理を実現するための仕組みを必要としていました。それらのデータはレコードレベルの更新や、スキーマ構造の柔軟な変更といった要件にも対応していく必要があります。
これらの要件に対応できるツールとして、Iceberg の活用に注目しました。Iceberg は、タグやブランチによるバージョン管理など、先述した特徴量のガバナンスに必要な多くの機能を備えています。しかしながら、日次時系列データのようにユースケースによっては〜数千万レコード程度のそれほど大きくないデータもあり、大規模なデータを扱う分散処理の仕組みを必ずしも必要としないことがあります。また、データサイエンティストのスキルセットとしても、JVM 系言語のスキルセットがない場合も多く、より慣れ親しんだツールによる活用を必要としていました。一方で、データやモデルのガバナンスはデータ規模に依存せずデータサイエンス共通の課題でもありました。
そこで、PyIceberg の検証を行うことにしました。PyIceberg は Python で Iceberg を操作するためのライブラリであり、Python のランタイムさえあれば簡単に Iceberg を操作できます。特徴量データの管理に求められる要件の PyIceberg での実現可能性を検証した結果、PyIceberg 単体ではテーブルメンテナンスなどに限界があるものの、AWS Glue の マネージドな機能で補完することで、Amazon SageMaker AI や Glue、AWS Lambda を組み合わせた堅牢な ML データ管理基盤を構築できることが示されました。
これらの検証結果を踏まえて、PyIceberg を活用してモデルガバナンスとデータガバナンスを実現しながら、データサイエンティストが伸び伸びと開発できるワークフローを整備していく展望が示されました。
まとめ
今回は、AWS での Iceberg の活用をテーマに、様々なセッションを用意させていただきました。本イベントをきっかけに、Iceberg を利用いただくことで、皆様のデータ分析ワークロードが少しでも楽になり、幸せになることを願っております。今後も、お客様のシステム運用を少しでも効率化できるように、このようなイベントを企画し、情報発信を継続していきます。AWS のサービスを利用することをご検討いただいているお客様がいらっしゃいましたら、無料で個別相談会を開催しておりますので、こちらのリンクからぜひお申し込みください。
アマゾン ウェブ サービス ジャパン 合同会社 ソリューションアーキテクト 疋田