AWS Inferentia をご利用のお客様
お客様が AWS Inferentia を使用して深層学習モデルをデプロイする方法をご覧ください。
NetoAI
NetoAI は、TSLAM、ViNG、DigiTwin、NAPI を含む TelcoCore スイートを提供し、通信事業者が複雑なマルチドメイン運用と顧客ライフサイクル管理を自動化できるよう支援します。その基礎となるのが、この分野初のオープンソースの action-oriented モデル、TSLAM LLM です。これを構築するには、独自のデータセットの膨大な 20 億トークンでモデルを微調整する必要がありましたが、Amazon SageMaker と AWS Trainium trn1 インスタンスを使用することで、大幅なコスト削減を実現し、3 日以内にすべてのファインチューニングを完了しました。本番環境では、AWS Inferentia2 と Neuron SDK により、一貫して 300 ~ 600 ミリ秒の低い推論のレイテンシーが実現します。AWS 専用に構築された AWS AI チップ上のこのエンドツーエンドのソリューションは、通信業界全体に特殊で高性能な AI を提供するという当社の使命の鍵となります。
Ravi Kumar Palepu 氏 創設者兼 CEO
SplashMusic
HummingLM 用の大規模な音声変換モデルのトレーニングには、計算負荷と反復処理が大量に発生します。トレーニングワークロードを AWS Trainium に移行し、Amazon SageMaker HyperPod で調整することで、モデルの正確性を維持しながら、トレーニングコストを 54% 削減し、トレーニングサイクルを 50% 高速化できました。また、Amazon FSx for Lustre を活用して、トレーニングデータとチェックポイントへの高スループット、低レイテンシーのアクセスを実現し、わずか 1 週間で 2 PB を超えるデータを Amazon S3 に移行しました。AWS Inferentia2 搭載の Inf2 インスタンスを使用すると、推論のレイテンシーを最大 10 倍削減でき、より高速で応答性の高いリアルタイムの音楽生成が可能になります。
Tomofun
台湾に本社を置くペットテックスタートアップであり、Furbo Pet Camera を提供する Tomofun は、ペットオーナーがペットとリモートで関わる方法を革新しています。Furbo は、スマートカメラと AI を組み合わせることで、吠えたり、走ったり、異常な行動をしたりするのを検知し、リアルタイムでオーナーにアラートを送信します。課題は二重でした。すなわち、Tomofun は、数千台のデバイスにわたるペットの継続的な行動モニタリングにおいてコスト効率を維持する必要がありましたが、同時に、既に PyTorch 向けに最適化されていた BLIP コードベースの大部分を書き直すことなく、モデルの忠実度とスループットを維持する必要がありました。BLIP の推論を Amazon EC2 Inf2 インスタンスに移行することで、Tomofun はデプロイコストを 83% 削減できました。