Amazon EMR Serverless により、Apache Spark ワークロードのローカルストレージのプロビジョニングが不要に
Amazon EMR Serverless で、Apache Spark ワークロード向けにローカルストレージプロビジョニングを不要にするサーバーレスストレージが提供されるようになりました。これにより、データ処理コストを最大 20% 削減し、ディスク容量の制約によるジョブの失敗を防ぎます。アプリケーションごとにローカルディスクの種類やサイズを設定する必要がなくなりました。EMR Serverless はシャッフルなどの中間データオペレーションを自動的に処理し、ローカルストレージ料金は発生しません。ジョブが消費したコンピューティングリソースとメモリリソースに対してのみ料金を支払います。
EMR Serverless は、中間データオペレーションをフルマネージドかつ自動スケール可能なサーバーレスストレージにオフロードし、転送中および保存中のデータを暗号化し、ジョブ単位で分離します。サーバーレスストレージはストレージをコンピューティングから切り離すため、Spark は一時的なデータを保存するためにワーカーをアクティブにしておくのではなく、アイドル状態になったらすぐにワーカーを解放できるようにします。ディスク容量不足によるジョブの失敗を防ぎ、アイドル状態のワーカーへの課金を回避することでコストを削減します。これは、動的なリソース割り当てを使用するジョブに特に役立ちます。たとえば、数百万件のお客様との対話を処理するレコメンデーションエンジンなど、初期段階で大規模なデータセットを高い並列処理で処理し、データが集約されるにつれてリソースが減少するようなジョブです。
この機能は、EMR リリース 7.12 以降で一般提供されています。利用可能なリージョンについては、サポートされている AWS リージョンをご覧ください。使用を開始するには、EMR サーバーレスのドキュメントのサーバーレスストレージをご覧ください。