- 分析›
- Amazon Redshift›
- Amazon Redshift の特徴
Amazon Redshift の機能
データレイクハウス向けの SQL を使用して、規模に合わせて比類のないコストパフォーマンスを実現
優れたコストパフォーマンス、スケーラビリティ、セキュリティを実現
すべて開くRA3 インスタンスは、必要なインスタンスの数を指定することにより、ストレージとは別にコンピューティングリソースについて支払う柔軟性を備えており、大量のコンピューティングキャパシティを必要とする、パフォーマンスが重要なワークロードの速度を最大化します。
列指向ストレージ、データ圧縮、ゾーンのマッピングによって、クエリ実行に必要な I/O の量が削減されます。また、Amazon Redshift では、LZO、Zstandard などの業界標準のエンコーディングだけでなく、数値と日付/時刻型向けの専用の圧縮エンコーディング AZ64 も提供しており、それによりストレージの節約とクエリパフォーマンスの最適化を実現できます。
同時実行数の増加に応じて数秒で一時的なキャパシティを追加することで、一貫したサービスレベルで事実上無制限の同時ユーザーと同時クエリをサポートします。各クラスターは 1 日あたり最大 1 時間の無料同時実行スケーリングクレジットを獲得できるため、コストへの影響を最小限に抑えてスケーリングできます。これらの無料クレジットは、97% のお客様の同時実行性に関するニーズを十分に満たすものです。
わずか数クリックで他の Redshift データウェアハウスから Redshift データベースへの書き込みを開始でき、コストパフォーマンスのニーズに応じてさまざまなタイプとサイズのウェアハウスを追加することで、データコラボレーション、ETL/データ処理ワークロードのコンピューティングの柔軟なスケーリングがさらに可能になります。各ウェアハウスは独自のコンピューティングに対して課金されるため、コンピューティング使用量の透明性が高まり、その結果、コストを抑えることができます。
Amazon Redshift マテリアライズドビューを使用すると、ダッシュボードやビジネスインテリジェンス (BI) ツールからのクエリなどの反復的または予測可能な分析ワークロードのクエリパフォーマンスを大幅に高速化し、データ処理ジョブを抽出、変換、ロード (ETL) できます。マテリアライズドビューを使用すると、データレイク、ゼロ ETL テーブル、データ共有テーブルを含む 1 つ以上のテーブルを参照する可能性がある、選択したステートメントの事前計算済みの結果を保存および管理できます。増分更新では、ベーステーブル、または Amazon Redshift は前回の更新後に発生したテーブルの変更を識別し、マテリアライズドビュー内の対応するレコードのみを更新します。増分更新は完全更新よりも短時間で実行され、ワークロードのパフォーマンスが向上します。
繰り返されるクエリの応答時間は 1 秒未満です。繰り返しクエリを実行するダッシュボード、視覚化、および BI ツールでは、パフォーマンスが大幅に向上します。クエリを実行すると、Amazon Redshift はキャッシュを検索し、以前の実行でキャッシュされた結果がないか確認します。キャッシュされている結果が見つかり、データが変更されていないことがわかると、クエリを再度実行せずに、キャッシュされている結果を即座に返します。
受信クエリフィルター (特定の地域の売上など) に基づいてデータを自動的にソートすることで、反復クエリのパフォーマンスを向上させる新しい強力なテーブルソートメカニズム。この方法では、従来の方法に比べてテーブルスキャンのパフォーマンスが大幅に向上します。
リカバリ時間を短縮し、データを失うことなく自動的にリカバリできる容量を保証することで、リカバリ機能を拡張します。Amazon Redshift マルチ AZ データウェアハウスは、スタンバイリソースを使用することなく高可用性を実現することで、パフォーマンスと価値を最大化し、可用性を 99.99% の SLA 水準に引き上げます。
Amazon Redshift では、ファイアウォールルールを設定して、データウェアハウスクラスターに対するネットワークアクセスを制御できます。Amazon Redshift を Amazon Virtual Private Cloud (Amazon VPC) の中で実行することもでき、このようにするとデータウェアハウスクラスターはお客様専用の仮想ネットワーク内に隔離されます。このクラスターをお客様の既存の IT インフラストラクチャに接続するには、業界標準の暗号化 IPsec VPN を使用します。
いくつかのパラメータを設定するだけで、Amazon Redshift が、転送中のデータの保護には TLS、保管中のデータの保護にはハードウェアアクセラレーション対応の AES-256 暗号化を使用するように設定できます。保存データの暗号化を有効化する場合、ディスクに書き込まれたすべてのデータはあらゆるバックアップと同じように暗号化されます。デフォルトでは、Amazon Redshift でキー管理を行います。
IAM アイデンティティセンターとの統合により、組織は Amazon Redshift、Amazon QuickSight、および AWS Lake Formation 間の信頼できるアイデンティティ伝達をサポートできます。お客様は、Microsoft Entra ID、Okta、Ping、OneLogin などのサードパーティー ID プロバイダー (IdP) を利用して、組織のアイデンティティを使って QuickSight や Amazon Redshift クエリエディタ、サードパーティー BI ツールや SQL エディタから、シングルサインオンで Amazon Redshift にアクセスできます。管理者は、サードパーティーの IdP のユーザーとグループを使用して、サービス全体のデータへのアクセスをきめ細かく管理し、AWS CloudTrail でユーザーレベルのアクセスを監査できます。信頼できる ID 伝達により、ユーザーの ID は QuickSight、Amazon Redshift、および Lake Formation 間でシームレスに渡され、インサイトを得るまでの時間が短縮され、スムーズな分析が可能になります。
詳細な行および列レベルのセキュリティコントロールにより、ユーザーはアクセスできる必要があるデータのみを表示できます。Amazon Redshift は AWS Lake Formation と統合されており、Lake Formation の列レベルのアクセスコントロールが、データレイク内のデータに対する Redshift クエリにも適用されます。Amazon Redshift のデータ共有は、Lake Formation による一元化されたアクセスコントロールをサポートし、Amazon Redshift から共有されるデータのガバナンスを簡素化します。Lake Formation は、安全なデータレイクのセットアップ、すべての消費サービスにわたるデータへのきめ細かなアクセスの集中管理、および行レベルと列レベルの制御の適用を容易にするサービスです。動的データマスキングを使用すると、ユーザーに表示される識別可能なデータの量を制限して、機密データを保護できます。このようなフィールドに複数のレベルのアクセス許可を定義すると、データのコピーを複数作成しなくても、Amazon Redshift の使い慣れた SQL インターフェイスを使用して、さまざまなユーザーやグループがさまざまなレベルのデータにアクセスできるようになります。
SQL を使用してレイクハウス内の統合データ全体からインサイトを引き出す
すべて開く
Amazon Redshift と Amazon SageMaker のレイクハウスとの統合により、SQL を使用してすべての統合データを分析できます。Amazon Simple Storage Service (Amazon S3) のデータをオープンフォーマットでクエリできるため、データレイクとデータウェアハウス間のデータ移動が不要になります。SageMaker のレイクハウスで Amazon Redshift データを開くと、AWS と Apache アイスバーグの分析ツールにアクセスできるようになり、包括的なデータ分析と機械学習 (ML) がサポートされます。
Amazon Redshift は、Apache Iceberg、Apache Hudi、Delta Lake のテーブル形式で使い慣れた ANSI SQL を使用する読み取り専用クエリをサポートし、Apache Parquet、ORC、Avro、JSON、CSV などのオープンファイル形式を Amazon S3 で直接クエリすることもできます。Apache Iceberg は、テーブル構造を通じてトランザクションの一貫性を実現し、データレイクの整理を強化するオープンソースのテーブル形式の例です。Amazon Redshift Spectrum を使用すると、データレイク内のテーブルや Parquet などのオープンデータ形式のデータを読み取ることができると同時に、Amazon S3 に最大エクサバイト規模の構造化データ、半構造化データ、非構造化データを保持できます。Parquet にエクスポートするオプションを含め、Amazon Redshift UNLOAD コマンドを使用してデータレイクにデータをエクスポートすることもできます。Amazon Redshift からデータレイクにデータをエクスポートして戻すと、Amazon Athena、Amazon EMR、SageMaker などの AWS サービスを使用してデータをさらに分析できます。
SQL を使用すると、データ探索と分析のためのウェブベースのアナリストワークベンチにより、データアナリスト、データエンジニア、その他の SQL ユーザーが Amazon Redshift のデータとデータレイクにアクセスしやすくなります。Query Editor では、ワンステップでクエリ結果を視覚化したり、スキーマやテーブルを作成したり、データを視覚的に読み込んだり、データベースオブジェクトを参照したりできます。また、SQL クエリ、分析、視覚化、および注釈を作成および共有し、それらをチームと安全に共有するための直感的なエディタも提供します。
1 つのデータと AI の開発環境である SageMaker Unified Studio で Amazon Redshift 搭載の組み込み SQL エディタを使用して、データレイク、データウェアハウス、データベース、およびアプリケーションに保存されているデータをクエリできます。
ほぼリアルタイムの分析で意思決定を加速
すべて開く
Aurora、アマゾンリレーショナルデータベースサービス (Amazon RDS)、Amazon DynamoDB、エンタープライズアプリケーション、Amazon Redshift をコードなしで統合することで、データベースやアプリケーション全体でペタバイト規模のデータを即座に分析し、機械学習を行うことができます。例えば、オペレーション、トランザクション、またはエンタープライズアプリケーションソースに書き込まれたデータについては、Aurora ゼロ ETL 統合と Amazon Redshift の併用により、データを Amazon Redshift でシームレスに使用できるようになり、複雑な ETL データパイプラインを構築して維持する必要が最小限に抑えられます。
Amazon S3 からのデータの取り込みを簡素化および自動化することで、カスタムソリューションの構築やサードパーティーサービスの管理にかかる時間と労力を削減できます。この機能により、Amazon Redshift は、ファイルの取り込みを自動化し、内部で継続的なデータの読み込み手順を処理することにより、コピー手順を手動で繰り返し実行する必要がなくなります。自動コピーのサポートにより、データエンジニアリングの知識がなくても基幹業務ユーザーやデータアナリストが簡単に取り込みルールを作成し、Amazon S3 からロードするデータの場所を設定できます。
SQL を使用して、Amazon Kinesis Data Streams と Amazon Managed Streaming for Apache Kafka (Amazon MSK) に接続し、そこからデータを直接取り込みます。また、Amazon Redshift ストリーミングインジェストでは、ストリームの上にマテリアライズドビューを直接作成できるため、ダウンストリームパイプラインの作成と管理が簡単になります。マテリアライズドビューには、ELT パイプラインの一部として SQL 変換を含めることもできます。定義されたマテリアライズドビューを手動で更新して、最新のストリーミングデータを照会できます。
Amazon Aurora PostgreSQL 互換エディション、Amazon Relational Database (Amazon RDS) for MySQL、Amazon Aurora MySQL 互換エディションのデータベースなどの 1 つ以上の Amazon RDS インスタンスのライブデータをクエリすることで、データを移動せずにビジネスオペレーション全体を即座に可視化できます。
インフラストラクチャの管理なしに簡単な SQL 分析が可能
すべて開く
データウェアハウスのインフラストラクチャをセットアップして管理することなく、数秒で分析を実行して拡張できます。AI 主導のスケーリングと最適化テクノロジーにより、 Amazon Redshift Serverless はデータウェアハウスの容量を自動的かつプロアクティブにプロビジョニングしてスケーリングできるため、最も要求の厳しいワークロードでも高速なパフォーマンスを実現できます。このシステムは、AI の手法を使用して、同時実行クエリ、クエリの複雑さ、データ量の流入、ETL パターンなど、主要な側面にわたってお客様のワークロードパターンを学習します。その後、1 日を通して継続的にリソースを調整し、カスタマイズされたパフォーマンス最適化を適用します。希望するパフォーマンス目標を設定すると、データウェアハウスは一貫したパフォーマンスを実現するために自動的にスケールします。
高度なアルゴリズムにより、実行時間とリソース要件に基づいて着信クエリを予測および分類し、パフォーマンスと同時実行を動的に管理すると同時に、ビジネスクリティカルなワークロードの優先順位付けをサポートします。ショートクエリアクセラレーション (SQA) では、ダッシュボードなどのアプリケーションから高速キューに短いクエリを送信し、大規模なクエリの背後で長時間にわたって待機するのではなく、即座に処理されるようにします。自動ワークロード管理 (WLM) では、機械学習を使用してメモリと同時実行を動的に管理することで、クエリのスループットを最大限に高めます。また、数百件のクエリが送信されていても、最も重要なクエリを優先するように設定できるようになりました。Amazon Redshift Advisor は、Amazon Redshift のパフォーマンスをさらに強化するために明示的なユーザーアクションが必要な場合に推奨を行います。クエリパターンが予測不能な動的なワークロードの場合、自動マテリアライズドビューは、Amazon Redshift クラスターの自動更新、自動クエリ書き換え、増分更新、継続的なモニタリングを通じて、クエリのスループットを改善し、クエリのレイテンシーを低減して、実行時間を短縮します。自動テーブル最適化は、クラスターのワークロードのパフォーマンスを最適化するためのソートキーおよび分散キーを選択します。Amazon Redshift が、キーを適用するとクラスターのパフォーマンスが向上すると判断した場合、管理者の介入を必要とせずに、テーブルが自動的に変更されます。追加機能である自動バキューム削除、自動テーブルソート、および自動分析により、Amazon Redshift クラスターを手動でメンテナンスおよび調整する必要がなくなり、新しいクラスターと本番ワークロードで最高のパフォーマンスを実現できます。
簡単な API を使用して Amazon Redshift を操作する: Amazon Redshift を利用すると、あらゆる種類の従来型、クラウドネイティブ、コンテナ化されたサーバーレスウェブサービスベースのアプリケーション、およびイベント駆動型アプリケーションを使用してデータに簡単にアクセスできます。Amazon Redshift Data API は、AWS SDK でサポートされているプログラミング言語とプラットフォーム (Python、Go、Java、Node.js、PHP、Ruby、C++ など) からのデータアクセス、取り込み、送信を簡素化します。Data API を使用すれば、ドライバーを設定したり、データベース接続を管理したりする必要がなくなります。それらの管理を行う代わりに、ユーザーは Data API が提供する安全な API エンドポイントを呼び出して、Amazon Redshift クラスターに SQL コマンドを実行することができます。データベース接続の管理とデータのバッファリングは Data API が行います。Data API は非同期であるため、後で結果を取得できます。クエリ結果は 24 時間保存されます。
コンソール内でクエリを実行したり、QuickSight、Tableau、Microsoft Power BI、Alteryx、Querybook、Jupyter Notebook、Informatica、dbt、MicroStrategy、Looker などの SQL クライアントツール、ライブラリ、データサイエンスツールに接続したりできます。
生成 AI でアプリケーションをコンテキスト化し、ユーザーの生産性を高める
すべて開くAmazon Redshift クエリエディタでは、データアクセス許可の範囲内で正確な SQL コードのレコメンデーションを安全に生成するクエリを平易な英語で記述します。
Amazon Redshift は Amazon Bedrock とシームレスに統合されているため、標準の SQL コマンドを使用して直接生成 AI 機能を実現できます。この統合により、データチームはインフラストラクチャをさらに複雑にすることなく、テキスト分析、翻訳、感情検出などのタスクに Anthropic Claude や Amazon Titan などの基盤モデルを使用できます。ユーザーは既存のデータ分析ワークフロー内でシームレスに AI モデルを呼び出すことができ、企業データからインサイトを抽出する方法を変革します。
Amazon Redshift ML により、データアナリスト、データサイエンティスト、BI プロフェッショナル、デベロッパーは SQL を使用して SageMaker モデルを簡単に作成、トレーニング、デプロイできます。Amazon Redshift ML では、SQL ステートメントを使用して、Amazon Redshift のデータで SageMaker モデルを作成およびトレーニングしてから、そのモデルを使って、直接クエリやレポートでチャーン検出や財務予測、パーソナライゼーション、リスクスコアリングなどの予測を取得することができます。テキストの要約、エンティティ抽出、感情分析などの高度な自然言語処理タスクに対して大規模言語モデルを Amazon Redshift に取り込むことで、SQL を使用してデータからより深いインサイトを得ることができます。