データ統合プラットフォームとは?

現代の組織は、数万から数千のシステムやフォーマットにわたってデータを作成し、使用しています。データ統合とは、さまざまなシステムや形式のデータを組み合わせ、データをより有用なものにするために正規化するプロセスを指します。統合されたデータにより、意思決定の支援やレポート作成のためにすべてのデータを一元的に表示し、データを分析できるため、意思決定のためのより多くの情報を得ることができます。

企業は、ビジネス分析をサポートしたり、機械学習モデルをカスタマイズしたり、その他のエンタープライズアプリケーションやビジネスプロセスに使用したりするために、統合されたデータを必要としています。データ統合には、未加工データを収集、変換、統合して、企業がその集合形式から利益を得られるようにすることが含まれます。たとえば、取引データ、口座の数と種類、顧客サービス記録などは、銀行の顧客データを一元的に把握するのに役立ちます。

データ統合プロセスとは?

組織は、より生産的なワークフローのためのデータ統合の利点を理解しています。データ統合プロセスを定義することで、組織はより信頼性が高く、再現性のある成果を生み出すことができます。

1.さまざまなデータソースを特定する

自動または手動で、統合が必要な複数のデータソースを特定します。組織は、さまざまなタイプのシステムやデータ形式でデータを作成し、保存します。たとえば、組織ではさまざまな種類の SQL データベース、メモリキャッシュ、およびドキュメントストアを使用する場合があります。組織内のアプリケーションでは、外部データへの直接的なアクセスなしに、独自の形式でデータを保存する場合があります。

2.統合戦略を決定する

組織の要件とともに、関連するデータストレージと形式を調べて、データを抽出して正規化された形式に変換する最適な方法を判断してください。一般的なデータ統合戦略は次のとおりです。

抽出、変換、読み込み (ETL) パターンは、現在のシステムからデータを抽出し、データを変換して、ターゲットシステムにデータをロードします。ETL はデータウェアハウスストレージの一般的なパターンです。
抽出、読み込み、変換 (ELT) パターンは、現在のシステムからデータを抽出し、そのデータをターゲットシステムに読み込み、データを変換します。ELT を使用すると、分析に必要になるまで、データを非構造化形式で残すことができます。ELT はデータレイクストレージの一般的なパターンです。
リアルタイムストリーミングインジェストは、ストリームからデータをキャプチャし、ほぼリアルタイムのデータ統合のためのデータインジェストを実行します。
変更データキャプチャ (CDC) は、データへの変更を発見し、その変更をデータインジェストのためにイベントストリームに公開するプロセスです。

この段階では、データウェアハウスやデータレイクなど、ターゲットのストレージシステムまたはデータリポジトリを決定する必要もあります。

3.スキーマを設計する

データの最終状態を示すデータスキーマ、つまりスキーマのないストレージタイプの概要を説明します。スキーマは拡張可能でバージョン管理が可能で、企業のデータストレージ要件に適合している必要があります。新しいスキーマは、将来の統合に備えて、対応するデータガバナンスルールとともに、データの品質と正確性を維持する必要があります。

4.データを抽出する

業務の中断を最小限に抑えるための最適なデータ抽出方法を決定してください。たとえば、多くの組織では、非リアルタイムのデータを統合するために、毎日営業終了後にバッチ抽出を使用しています。組織は、独自のアプリケーション統合のために API を使用してデータを抽出したり、Amazon AppFlow などのサービスを使用して Software as a Service (SaaS) アプリケーションとクラウド間でデータを転送したりする必要がある場合があります。

5.データを一元管理されたストアに移動する

データを一元化されたストアに転送します。オンプレミスからクラウドにデータを移動する場合など、データソースと宛先が異なる場所にある場合があります。データを移動するには、追加のセキュリティ対策、追加の帯域幅、またはデータレジデンシーに関する考慮事項が必要になる場合があります。

6.データを変換する

データを一元管理されたストアで最終的な形に変換する必要があるかもしれません。変換されたデータは、複数のデータポイントから平均を計算する場合など、単なる形式の変更にとどまらない場合があります。

サーバーレスデータ統合とは?

企業はデータワークフローをオンサイトのインフラストラクチャから最新のクラウドデータプラットフォームに移行しています。クラウドアーキテクチャは、組織が物理的なハードウェアの制約を克服し、ビジネスインテリジェンスや AI などの高度で統合可能なクラウドデータ分析サービスを提供するのに役立ちます。

サーバーレスとは、柔軟性と耐障害性に優れたクラウドサービスを提供し、サーバープロビジョニングの複雑さを排除するクラウドコンピューティングのコンセプトです。従来、データパイプラインを作成するときは、データインジェスト、変換、操作のためのサーバーとコードサービスをプロビジョニングして保守していました。サーバーレスデータ統合製品を使用すると、管理オーバーヘッドなしで完全なスケーラビリティを実現できます。ジョブは完了するまで実行され、サービスは次に必要になるまで再び休止状態になります。

サーバーレスは、企業のインフラストラクチャコストの削減に役立つ従量課金制モデルを備えているため、オンデマンドのデータ統合ジョブに役立ちます。

たとえば、AWS Glue はサーバーレスのデータ統合ソリューションです。AWS Glue を使用すると、100 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理するとともに、データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、データウェアハウス、レイクハウスにロードできます。

AWS Glue を使用すると、ワークロードの特性、およびデベロッパーとアナリストの希望に基づいて、あらゆるワークロードに適切なエンジンを使用できます。AWS Glue のジョブは、スケジュールベース、オンデマンド、イベントベースで呼び出すことができます。

AWS Glue とのサーバーレス ETL データ統合

AWS Glue の使用を開始するには、AWS Glue スタジオコンソールを起動します。AWS Glue の使用を開始する前に、必要な IAM ポリシーとロールをコンソールで設定します。

ステップ 1 - AWS Glue データカタログにテーブル定義を追加する

データカタログに移動します。[クローラーを使用してテーブルを追加] を選択し、クロールするソースデータストアを選択してスキーマとメタデータのデータマッピングを行い、データカタログにデータ定義とテーブルを作成します。

ステップ 2 - トランスフォーメーションジョブを定義する

ナビゲーションペインから ETL ジョブを選択し、[Visual ETL を使用してジョブを作成] を選択します。ビジュアルエディターにデータソースノードとデータターゲットノードを追加し、データを設定します。Glue Studio は、ソーステーブルのデータをターゲットテーブルのスキーマに変換するコードを [スクリプト] タブで生成します。

ステップ 3 - AWS Glue ジョブを実行する

ジョブ実行のパラメーターは、[ジョブの詳細] タブのデータガバナンスツールを使用して設定できます。パラメーターを設定したら、[保存] を選択し、次に [実行] を選択して、変換と統合のデータプロセスを開始します。

ステップ 4 - 出力を確認する

[ビジュアル] タブで、ターゲットノードを選択してデータプレビューを確認し、ノードに正確なデータがあることを確認します。

詳細については、AWS Glue: ユーザーガイドを参照してください。

ゼロ ETL 統合とは?

ゼロ ETL は、ETL データパイプラインを構築する必要性を最小限に抑える一連の統合です。通常、データソースから宛先にデータを転送するときに、ETL パイプラインを作成、構成、実行します。ただし、ゼロ ETL データ統合方法では、ETL プロセスは自動化され、ソフトウェアプロセス内に隠されます。

ソースからデスティネーションに初めてデータをロードすると、ソースのデータが更新されるたびに、さらにデータの複製が自動的に行われます。このゼロ ETL プロセスにより、ほぼリアルタイムの分析パイプラインが可能になります。

AWS には、Amazon Redshift、Amazon RDS for MySQL、Amazon DynamoDB、Amazon DocumentDB、Amazon SageMaker、Amazon CloudWatch、Amazon OpenSearch Service、Amazon Security Lake、Amazon Aurora など、ゼロ ETL をサポートする複数のサービスがあります。

Amazon Redshift および Amazon Aurora とのゼロ ETL 統合

Amazon Redshift は、企業が分析ワークロードを手頃な価格で拡張できるクラウドデータウェアハウスです。一方、Amazon Aurora は MySQL および PostgreSQL と互換性のある高性能リレーショナルデータベースです。

ステップ 1— 統合ソースを設定する

お使いの Amazon Aurora データベースが Amazon Redshift とのゼロ ETL 統合をサポートしていることを確認してください。Amazon Redshift は、この記事を書いている時点で Amazon Aurora との以下のゼロ ETL 統合をサポートしています。

Amazon Aurora MySQL
Amazon Aurora PostgreSQL

Aurora でバイナリログ記録を設定して、レプリケーション用のデータ変更を確実にキャプチャします。セキュリティ要件を満たすために、保管中および転送中のデータの暗号化オプションを選択します。最後に、Amazon Redshift との統合に必要なアクセス権限を付与するために必要な IAM ポリシーとロールを設定します。

Amazon Redshift は Amazon RDS for MySQL、Amazon DynamoDB、および Salesforce、SAP、ServiceNow、Zendesk などのアプリケーションとのゼロ ETL もサポートしています。

ステップ 2 — 送信先を設定する

適切なストレージとコンピューティング設定で新しい Redshift クラスターを起動していない場合は起動します。Amazon Redshift クラスターに必要なネットワークアクセスと暗号化設定があることを確認します。セキュリティグループと VPC 設定を変更して、Aurora と Redshift 間の接続を許可します。

ステップ 3 — 統合を検証する

Amazon Redshift は Amazon Aurora からのデータの初期ロードを実行します。その後、自動的にソースを監視し、更新されたデータをリアルタイムで複製します。Amazon Redshift でクエリを実行して、データがソースと一致することを確認できます。

AWS はデータ統合のニーズをどのようにサポートできますか?

複数のデータソースからのデータの全体像を企業に提供し、ビジュアライゼーションと高度な分析を実現するには、データ統合が重要です。増え続ける非構造化データソース、半構造化データソース、構造化データソースにわたる複雑な統合パイプラインを管理することは難しい場合があります。クラウドデータ統合は、サーバーレスやゼロ ETL などの革新的なデータ統合ツールとサービスにより、データ管理ワークフローを簡素化します。最新のデータ統合のニーズを満たす AWS のサービスについては、こちらをご覧ください。

データ統合プラットフォームとは?

ページトピック