AWS Glue が AWS Lake Formation テーブルに対してフルアクセスが許可されている場合の Apache Spark 機能を拡張
AWS Glue では、ジョブのロールにテーブルへのフルアクセス権が付与されている場合に、AWS Glue 5.0 Apache Spark ジョブから AWS Lake Formation に登録されたテーブルへの読み書き操作をサポートするようになりました。この機能により、同じ Apache Spark アプリケーション内で、Apache Hive テーブルおよび Iceberg テーブルに対して CREATE、ALTER、DELETE、UPDATE、MERGE INTO といったステートメントを含むデータ操作言語 (DML) 操作が可能になります。
Lake Formation のきめ細かなアクセス制御 (FGAC) は、行や列、セル単位での詳細なセキュリティ管理を実現しますが、多くの ETL ワークロードではテーブル全体へのフルアクセスが必要とされます。この新機能により、AWS Glue 5.0 Spark ジョブでは、テーブルへのフルアクセスが許可されている場合にデータを直接読み書きできるようになり、これまで特定の抽出、変換、ロード (ETL) 操作を制限していた制約がなくなりました。Resilient Distributed Datasets (RDD)、カスタムライブラリ、ユーザー定義関数 (UDF) などの高度な Spark の機能を Lake Formation テーブルで利用できるようになりました。さらに、データチームは、SageMaker Unified Studio の互換モードを使って複雑でインタラクティブな Spark アプリケーションを実行しながら、Lake Formation のテーブルレベルのセキュリティ境界を維持することができます。
この機能は、AWS Glue と AWS Lake Formation がサポートされているすべての AWS リージョンでご利用いただけます。詳細については、AWS Glue の製品ページとドキュメントをご覧ください。