Amazon Web Services ブログ

寄稿:H.U.グループ中央研究所における、ゲノムデータのクラウド上でのリアルタイム自動解析

本稿は、H.U.グループ中央研究所による、クラウド上でゲノムデータをリアルタイムかつ自動で解析する環境の開発について、実際に内製開発を行なわれた、 久我 有祐美様、木下 大輔様、関家 友子様、湯原 悟志様より寄稿いただきました。

1.イントロダクション

H.U.グループは、「ヘルスケアにおける新しい価値の創造を通じて、人々の健康と医療の未来に貢献すること」をMissionに掲げる企業グループです。当グループでは、検査・関連サービス事業、臨床検査薬事業、ヘルスケア関連サービス事業の3つを主軸とし、医療に関する様々な製品やサービスを提供しています。
そして我々が所属するH.U.グループ中央研究所では、サイエンスを起点として新たなシーズの探索や新規事業の創出を目指し活動しています。その中でもバイオインフォマティクス課では、オミックス解析に関する研究開発や、解析環境の開発と実装などに取り組んでいます。

今回、オミックス解析の中でも、ゲノム解析の情報処理工程をリアルタイムかつ自動で実行する解析環境の開発と技術検証を実施しましたので、本ブログでその取り組みをご紹介いたします。

2.背景

ヒトや細菌、ウイルスなどのゲノムデータからは非常に多くの情報を得ることができ、疾患の診断や治療、感染症の追跡や制御、新薬開発などに役立つことから、医療におけるゲノム解析の需要は年々高まってきています。

ゲノムデータを解析する遺伝子検査にはいくつかの方法があります。その中でも、次世代シークエンサー (NGS) と呼ばれるDNAやRNAの塩基配列を高速かつ大規模に決定する技術を用いた解析では、出力されるデータ量が膨大で複雑な計算を行うため、計算リソースの確保が必須です。
弊社では、研究開発や事業部門においてヒトゲノムシークエンスや腸内細菌叢解析などほぼ全ての解析をオンプレミスサーバーで実施していますが、ストレージや計算リソースを需要に合わせて柔軟に調整することが難しく、計算リソースの過不足が生じてしまう課題がありました。
また、ゲノムデータの解析は複数の工程を経て行われ、コマンドラインを用いた操作も必要です。社内研修による検査員の技術取得も進めていますが、検査需要の急増に対応した人員の育成・拡充には時間を要します。そのため、解析の実行自体も大きなハードルとなっていました。
これらの課題を解決するために、柔軟に解析環境をスケールでき、ゲノムデータ解析の一連の工程を自動化した解析環境の開発に取り組みました。開発にあたり、多様なサービスやオミックスデータ解析で豊富な実績を有するAWSを利用しました。

3.技術検証の詳細

3-1.構築環境の概要

我々は、AWSマネージドサービスを利用し、以下の機能をもつ解析環境を実現しました。

  • シークエンスデータのクラウドへの転送から解析までの全工程を自動化
  • サンプル数やプロセスに応じた柔軟な解析リソースの立ち上げ
  • 解析状況の確認のための情報の集約
  • 解析状況をユーザーへ通知

今回の検証で使用したシークエンサーの特徴として、経時的にシークエンスの生データが出力され、実験者がシークエンスを停止させるまでデータが出力されます。この経時的に出力されるデータを都度自動的に解析することで、人の手を介さずにほぼリアルタイムでの解析を実現しました。また、取得されたデータ量についてユーザーにメール通知を送る機能を実装しました。これまで実験者がシークエンスの状況や取得データ量を目視で確認していましたが、自動で取得データ量を確認することで、実験者の作業削減にも繋がりました。さらに、実験者は必要データ量の取得が完了したことを通知で容易に把握でき、より適切なタイミングでシークエンスを停止することも可能になりました。
解析を全て自動化すると、現在の解析状況の把握が難しくなるため、プロセス毎に作成されるファイルの出力状況を集約し、進捗を確認するためのデータベースを作成しました。このデータベースは進捗状況の把握だけでなく、解析に要した時間の集計などにも活用が可能です。

これらの機能を実現する解析環境の構築は、全て研究開発員による内製開発で行いました。

3-2.ソリューション概要

上記の機能を実現するにあたり、各工程で以下のAWSサービスを利用しました。

【構成図】

Amazon Simple Storage Service (Amazon S3) へのデータ転送:
AWS DataSyncを利用し、シークエンスの生データをオンプレミスからS3へ転送します。DataSyncのタスク作成や実行はオンプレミスで作成したスクリプトで自動化しました。

各種処理の自動実行:
AWS上で行う各種処理はAWS Lambdaで実行を管理しました。
キーとなるファイルがS3に作成されたことをAmazon EventBridgeで検出し、AWS Step Functionsを介して各処理のLambda関数が実行されます。 Lambda関数は機能ごとに分割して実装することで、開発やトラブルシューティング時の切り分けを容易にしました。また、それら複数の関数を効率的に連携・管理するために、Step Functionsを活用しています。

解析の実施:
AWS LambdaでAWS Batchジョブがキックされると、解析パイプラインが実行されます。
解析パイプラインはNextflowとDockerを使用して作成しております。DockerイメージはAmazon Elastic Container Registry (Amazon ECR) に格納し、解析時にはイメージからコンテナを作成して解析が行われます。これにより、サンプル数や解析プロセスに応じた柔軟な計算リソースの立ち上げを実現しています。

データの集約:
Amazon DynamoDBを利用し、解析バッチ単位のテーブルの作成と各種結果ファイルのパスやタイムスタンプなどを集約します。

通知機能:
解析状況の通知には、Amazon Simple Notification Service (Amazon SNS) を使用しました。

4.構築振り返り

今回の解析環境は、全て内製で構築しました。しかし、当初はAWSについての知識や利用経験が浅く、機能や役割を理解することはスムーズにできても、運用上どのような設定にするのが最適かを考えながらの構築には非常に多くの時間を要しました。自分たちで手を動かしてみないと見えてこない部分も多いため、チーム内で構築範囲を分担し、各担当範囲のサービスを実際に動かしてみることから始めました。トライ&エラーを繰り返し、各々の課題や疑問を共有・議論していくことで、チーム全体の理解を深めていきました。情報収集の際は、AWSに関する様々なドキュメントや先行事例がウェブに公開されているため、非常に参考になりました。さらに、生成AIの活用も非常に有効で、調査や検証の効率を高めることができました。また、サポートも充実しており、特に構成の検討ではAWSチームからの技術的な支援に大変助けられました。

構築を進めていくと、初めに想定していた構成では対応しづらい部分もあり、その都度「AWSのマネージドサービスで何ができるのか」と「自分たちが実現したい機能」をすり合わせ、試行錯誤しながら解決していきました。
今回の内製開発を通して、技術的な知識だけでなく、解析の流れや必要な性能、運用上の制約などを高い解像度で把握し、適切なサービスを選択して活用することが非常に重要であると改めて実感しました。

5.成果

今回、全てのシークエンスデータの解析工程を自動化し、リアルタイムでの解析にも対応できる柔軟性の高い解析環境の開発と技術検証を行い、実現性や効果について様々な知見を得ることができました。自動化を実現することで、解析の作業負担削減やヒューマンエラーの防止だけでなく、実験者が他のタスクにリソースを割くことができるようになり、全体の作業効率の向上も期待されます。さらに、リアルタイム解析と全体の効率化により、TAT(Turn Around Time: 検体受領から報告完了までの時間)の更なる短縮が可能となり、迅速な結果報告が求められる検査にも貢献できると考えます。実際に、クラウドベースのリアルタイム解析環境構築によってデータ解析を高速化し、臨床現場での迅速な意思決定を支援した論文も報告されています[1]。
もちろんこれらの技術は、今回検証したようなリアルタイムで経時的に出力されるデータだけでなく、他のシークエンスデータの解析などにも活用できます。
また、全て内製開発を行うことで、メンバーのスキル向上にも繋がりました。「作りたいものを思い描いた通りに実現する」ことは中々に難しく、外注する際にはベンダーとの認識の共有でギャップが生じることがあります。今回、内製開発をしたことで実験者の意見も含めた現状の課題や理想像の認識共有がスムーズに進み、各メンバーが必要な技術を習得することで、現場のニーズを反映した機能を実現することができました。

5.まとめ

AWSの各種サービスを活用し、ゲノム解析の情報処理工程を自動で実行・スケールする解析環境の開発と検証の取り組みについてご紹介しました。今回は技術検証が目的でしたが、今後はこの技術と得られた知見を活用し、検査需要の変動に柔軟に対応でき、ユーザービリティの高い解析環境の開発と実装を目指していきたいと考えています。
また、現在は環境の複製や別プロジェクトでの活用を見据え、Infrastructure as Code (IaC) についての取り組みも進めています。IaCによってインフラ構築も自動化し、迅速な横展開や効率的なバージョン管理も可能になることで、更なる付加価値向上が見込まれます。
以上のように、我々は日々進歩する技術を取り入れながら自社でその技術を醸成し、より価値の高いサービスを提供することで医療とヘルスケアの発展に貢献して参ります。

参考文献:

[1] Gorzynski, John E., et al. “Ultrarapid Nanopore Genome Sequencing in a Critical Care Setting.” New England Journal of Medicine, vol. 386, no. 7, 2022, pp. 700–702.
https://doi.org/10.1056/NEJMc2112090

著者:

久我有祐美
H.U.グループ中央研究所 試験開発部 バイオインフォマティクス課
オミックス解析のための解析環境整備や解析パイプラインの開発、ゲノム解析などを担当しています。

木下大輔
H.U.グループ中央研究所 試験開発部 バイオインフォマティクス課
オミックス解析のための環境整備やシステム開発、サーバー管理などを担当しています。

関家友子
H.U.グループ中央研究所 試験開発部 バイオインフォマティクス課
データ解析全般を担当するとともにデータ解析のための環境整備も担当しています。

湯原悟志
H.U.グループ中央研究所 試験開発部 担当部長
バイオインフォマティクス関連領域における研究開発戦略立案など担当しています。