Amazon Polly

Amazon Polly - AI 音声ジェネレーター

数十の言語で高品質で自然な人間の声を展開

Amazon Polly とは何ですか?

Amazon Polly は、オンデマンドで音声を生成し、あらゆるテキストを音声ストリームに変換する、フルマネージドサービスです。深層学習テクノロジーを使用して、記事、ウェブページ、PDF ドキュメント、他のテキスト読み上げ (TTS) の変換を行います。Polly は、エンゲージメントとコンバージョンを実現する音声起動アプリケーションを構築できるように、幅広い言語で数十種類のリアルな音声を提供します。さまざまな地域や市場のユーザーの多様な言語、アクセシビリティ、学習ニーズに対応します。強力なニューラルネットワークと生成音声エンジンがバックグラウンドで機能し、音声を合成します。Amazon Polly API を既存のアプリケーションに統合して、すぐに音声対応にします。

ユースケース

RSS フィード、ウェブサイト、動画など、世界中のオーディエンスが利用するアプリケーションに音声を追加します。モバイルおよび IoT アプリケーションを将来に向けて音声対応にします。

音声生成の詳細。

Amazon Polly の音声出力を保存および再生し、インタラクティブまたは自動化された音声応答システムを通じて発信者にプロンプトを表示します。AI の機能を使用して、顧客と感情的につながる音声を生成します。

音声エンジンの詳細

スクリプトから直接、アニメーション、ゲーム、他のメディア用のナレーションを作成します。W3C 標準の XML ベースのマークアップ言語である SSML を使用して、シーンに合わせてフレージング、強調、イントネーションを調整します。音声の長さを自動的に調整して、多言語の吹き替えを容易にします。

SSML の詳細

機能

Amazon Polly は、以下に挙げる機能を含むさまざまな機能を備えています

リアルな音声

一貫して高速な応答時間で会話型のユーザーエクスペリエンスを提供

Amazon Polly の出力をリクエストする際、数十のリアルな音声とさまざまな言語から選択できます。各音声はネイティブスピーカーを使用して作成され、同じ言語内でも音声ごとにバリエーションがあります。ほとんどの言語には 1 つ以上の男性と女性の声が含まれているため、ユースケースに最適なものを選択できます。

A woman wearing a yellow jacket stands outside, smiling while using a pink smartphone near a metal railing and modern structure.

カスタマイズ可能な出力

必要に応じて音声出力をカスタマイズおよび制御する

Amazon Polly を使用すると、オーディエンスの注目を集めて維持するカスタムテキスト読み上げ出力を作成できます。頭字語、会社名、社内用語、または選択した他の単語の発音を変更するには、カスタム辞書を使用します。また、Amazon Polly の Speech Synthesis Markup Languages (SSML) タグを使用すると、強調、イントネーション、言い回し、スタイルを調整することもできます。ビジネスに最適な音声 AI 出力を生成します。

Two people collaborating at a desk, with one working on code displayed on a laptop and the other pointing to a data visualization of yellow data points on a computer monitor, representing artificial intelligence or machine learning analysis.

生成 AI の力

わずかなコストで組み込みの生成 AI 機能にアクセス

Amazon Polly は、テキストから音声への変換のために選択できる複数の音声エンジンをサポートしています。エンジンは、10 億のパラメータトランスフォーマーをデプロイして、増分的かつストリーミング可能な態様で音声を生成します。この AI 音声ジェネレーターは、実際の人間の声に似ている、はっきりとした、感情に訴える、非常に口語的な合成音声を作成します。

テキストから音声へ

People collaborating at a wooden table with laptops, smartphone, potted plant, and a lightbulb lamp, suggesting teamwork and brainstorming in a modern workspace.

コントロールとセキュリティ

標準的なフォーマットで音声を安全に保存および再配信する

追加料金なしで、再配布、分析、アーカイブ、他のユースケースのために、テキスト読み上げ出力を MP3 や OGG などの標準的な音声ファイルに保存できます。必要に応じてファイルをキャッシュして、より高速に取得できます。コンテンツのセキュリティ、信頼性、プライバシーは、AWS の最優先事項です。Amazon Polly は、テキスト送信のコンテンツを保持しません。

よくある質問

はい。Amazon Polly は、サインアップ後 1 年間、最小使用しきい値まで、テキスト読み上げ AI サービスを無料で提供しています。しきい値は、選択した音声エンジンに応じて 10 万～500 万文字です。詳細については、Amazon Polly の料金をご覧ください。

Amazon Polly は、40 以上の言語と言語バリアントで 100 以上の男性と女性の音声を提供します。AWS は、音声機能を継続的に更新および追加しています。

Amazon Polly は、8,000 Hz、16,000 Hz、22,050 Hz でサンプリングされた MP3、ogg、および他の標準的な音声ファイル形式を生成します。

答えは「はい」です。現在、Alexa は Polly テクノロジーを使用してテキスト読み上げ生成ソリューションを強化しています。ただし、Alexa の音声は Alexa 専用に作成されており、外部では入手できません。

いいえ。Amazon Polly は、フルマネージドクラウド AI サービスです。コード内の API を使用して通信します。Amazon Polly のソースコードを環境にダウンロードまたはデプロイすることはできません。ただし、開始から 12 か月間は Amazon Polly を無料で使用できます (事前に決められた使用しきい値の制限まで)。詳細については、Amazon Polly の料金をご覧ください。

次のステップ

サービス

無料アカウントで使用を開始

サインアップ

料金

料金ページにアクセスする

料金にアクセス

ブログ

Amazon Polly をカスタマイズする方法を学ぶ

ブログを読む

お問い合わせ

エキスパートに相談する

お問い合わせ

Amazon Polly - AI 音声ジェネレーター

Amazon Polly とは何ですか?

ユースケース