Amazon Web Services ブログ
Category: AWS Glue
【開催報告 & 資料公開】Apache Iceberg on AWS ミートアップ開催報告
2025 年 5 月 14 日に「Apache Iceberg on AWS ミートアップ ~話題のIcebergをAWSで徹底活用~」と題したイベントを開催しました。ご参加いただきました皆様には、改めて御礼申し上げます。
本セミナーでは、AWS における Iceberg の活用についてさまざまな角度からご紹介しました。Iceberg 活用の全体像に加えて、マネージドな Iceberg のストレージである Amazon S3 Tables Bucket、既存データレイクからの移行における考え方、リアルタイムデータ処理を実現するストリーミングワークロードの実装方法、更には機械学習における活用まで、幅広いトピックをご紹介しました。本ブログでは、その内容を簡単にご紹介しつつ、発表資料を公開致します。
すでに Iceberg を活用されている方も、これからはじめる方も是非ご確認下さい!
新機能: sort コンパクションと z-order コンパクションで Amazon S3 内での Apache Iceberg クエリパフォーマンスを向上
sort コンパクションと z-order コンパクションを使用して、Amazon S3 Tables と 汎 […]
ファーストパーティデータによる D2C (Direct-to-Consumer) マーケティングの実現:生成 AI によるパーソナライズされた体験の提供
消費財 (Consumer Packaged Goods) 企業が長期的な成功を収めるためには、考慮すべき点がたくさんあります。とりわけ、ブランドコントロールを維持し、利益率を改善し、顧客との良い関係を築く新しい方法を見つける必要があります。幸いなことに、生成 AI の出現により、消費財企業がこれらすべての課題に対処できるようになりました。。ただし、これは万能のアプローチではありません。AI を組織に導入するだけでは、最大のメリットは得られません。ビジネス目標に沿った戦略的アプリケーションを採用する必要があります。
AWS Lambda と AWS Glue Iceberg REST エンドポイントを使用した PyIceberg による軽量な分析環境の実現
Apache Iceberg は、データレイクで人気の選択肢となっています。ACID (原子性、一貫性、独立性、永続性) トランザクション、スキーマ進化、タイムトラベル機能を提供します。Iceberg テーブルは、Apache Spark や Trino などの様々な分散データ処理フレームワークからアクセスできるため、多様なデータ処理のニーズに対して柔軟なソリューションとなります。そのような Iceberg を扱うためのツールの中で、PyIceberg は分散コンピューティングリソースを必要とせずに、Python スクリプト上でテーブルのアクセスと管理を可能にします。
この投稿では、AWS Glue Data Catalog と AWS Lambda と統合された PyIceberg が、直感的な Python インターフェースを通じて Iceberg の強力な機能を活用するための軽量なアプローチを提供する方法を示します。この統合により、チームはほとんどセットアップやインフラストラクチャの依存関係の設定を行わずとも Iceberg テーブルの操作や利用を開始できることを説明します。
Apache Iceberg on AWS Glue Data Catalog における同時書き込み競合の管理
この記事では、Iceberg テーブルで信頼性の高い同時書き込み処理メカニズムを実装する方法を示します。Iceberg の同時実行モデルを探り、一般的な競合シナリオを検討し、自動再試行メカニズムと、カスタムの競合解決ロジックが必要な状況の両方の実用的な実装パターンを提供して、レジリエントなデータパイプラインを構築します。また、AWS Glue Data Catalog テーブル最適化による自動コンパクションのパターンについても説明します。
Docker コンテナを使って AWS Glue 5.0 のジョブをローカルで開発・テストする
AWS Glue は、さまざまな開発ニーズに対応するため、Amazon ECR Public Gallery を通じて公式の AWS Glue Docker イメージを提供しています。この記事では、Docker コンテナを使用して AWS Glue 5.0 ジョブをローカルで開発およびテストする方法を示します。
NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第二回 パフォーマンス改善)
※ この記事はお客様に寄稿いただき AWS が加筆・修正したものとなっています。 本稿は株式会社 NTT ドコ […]
NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第一回 コスト削減)
※ この記事はお客様に寄稿いただき、AWS が加筆・修正したものとなっています。 本稿は株式会社 NTT ドコ […]
AWS Glue と SAP データで RISE 拡張
多くのお客様がSAP のソースデータと SAP 以外のソースデータを組み合わせて活用したいと考えています。この […]
AWS を活用した公共部門向けデータ配信
組織が情報に基づいた意思決定を行い、イノベーションを促進するためには、データの共有が不可欠です。 アマゾン ウェブ サービス (AWS) は、大規模なデータを安全に配信するためのさまざまなツールとサービスを提供しています。 公共の利益のためにオープンデータの公開、ビジネス目的でのプライベートデータセットの収益化、さらには社内での協業などの用途で、AWS は必要なインフラストラクチャとサポートを提供します。詳細については、この投稿をお読みください。