亚马逊AWS官方博客

使用 Amazon Bedrock Agents 加速生物标志物的分析和发现

该博文旨在介绍基于 Amazon Bedrock Agents 搭建多模态生物标志物分析工作流程。

根据美国国家癌症研究所的说法,癌症生物标志物是“在血液、其他体液或组织中发现的生物分子,是正常或异常过程或疾病(如癌症)的标志。”生物标志物通常区分受影响的患者和没有疾病的人。著名的癌症生物标志物包括肺癌的 EGFR、乳腺癌的 HER2、俯卧癌的 PSA等。BEST(生物标志物、端点和其他工具)将生物标志物分为几种类型,如诊断、预后和预测性生物标志物,这些生物标志物可以用各种技术进行测量,包括分子、成像和生理测量。

发表在《自然评论药物发现》上的一项研究提到,肿瘤药物从第一阶段到批准的总体成功率仅为 5% 左右。生物标志物通过改善试验患者分层、加快药物开发、降低成本和风险以及实现个性化药物,在提高临床开发成功方面发挥着至关重要的作用。例如,一项对 1079 种肿瘤药物的研究发现,使用生物标志物开发的药物的成功率为 24%,而不使用生物标志物开发的化合物的成功率为 6%。

研究科学家和真实世界证据(RWE)专家在利用现有工具集分析生物标志物并验证生物标志物发现假设时面临诸多挑战。最明显的是,这包括在各种生物医学文献(如 PubMed)、公共科学数据库(如蛋白质数据库)、商业数据库和企业内部专有数据中进行搜索、汇总和生成见解的手动且耗时的步骤。他们希望能够快速使用、修改或开发识别生物标志物以及关联不同模式、适应症、药物暴露和治疗,以及生存等相关终点结果所必需的工具。每个实验可能采用不同的数据、工具和可视化组合。科学文献中的证据应易于识别,并能结合相关背景进行引用。

Amazon Bedrock Agents 使生成式人工智能应用程序能够通过与公司系统、应用程序编程接口(API)和数据源无缝连接,实现多步骤任务自动化。Amazon Bedrock 的 multi-agent collaboration 使开发人员能够构建、部署和管理多个专门智能体,这些智能体可无缝协作,以处理日益复杂的业务工作流程。

在本文中,我们将向您展示使用亚马逊云科技 Amazon Bedrock 智能体的智能工作流程如何通过自然语言界面,帮助科研人员加快这一进程。我们定义了一个示例分析管道,专门用于分析肺癌生存率,涉及临床、基因组学以及生物标志物的成像模态。我们展示了各种专门智能体,包括生物标志物数据库分析师、统计学家、临床证据研究员和医学影像专家,它们与一个主管智能体协同工作。我们展示了智能体的高级自我审查和规划能力,这些能力通过将复杂任务分解为一系列步骤,并展示生成最终答案的推理过程,帮助赢得终端用户的信任。此解决方案的代码可在 GitHub 上获取。

多模态生物标志物分析工作流程

  • 分析多模态患者生物标志物的研究科学家提出的一些科学需求示例包括:
  • 与总生存期相关的前五大生物标志物是什么?给我展示一张高风险和低风险患者的 Kaplan Meier 生存曲线。
  • 根据文献证据,肿瘤的哪些特性与元基因 X 活性和表皮生长因子受体(EGFR)通路相关?
  • 你能计算基因 X 低表达患者队列的影像生物标志物吗?给我看看肿瘤分割情况以及球形度和伸长率数值。

为了回答上述问题,科研人员通常会使用多模态数据(包括临床数据、基因组数据和计算机断层扫描 (CT) 成像数据)运行生存分析流程(如下图所示)。

他们可能需要:

  1. 以编程方式对各种结构化和非结构化的输入数据进行预处理,并提取生物标志物(影像组学/基因组学/临床及其他生物标志物)。
  2. 进行统计生存分析,如 Cox 比例风险模型,并生成可视化图表,如 Kaplan-Meier 曲线,以便解读。
  3. 进行基因集富集分析(GSEA)以识别重要基因。
  4. 研究相关文献以验证初步发现。
  5. 将研究结果与放射基因组生物标志物相关联。

解决方案概述

我们提出了一个基于大语言模型(LLM)智能体的框架,以增强和加速上述分析流程。LLM Agent 的设计模式包括反思、工具使用、规划和多 Agents 协作等能力。智能体帮助用户根据专有数据和公共数据以及用户输入来完成操作。智能体协调基础模型(FM)、数据源、软件应用程序和用户对话之间的交互。此外,智能体自动调用 API 来执行操作,并搜索知识库以补充这些操作所需的信息。

如前面的图所示,我们将解决方案定义为包括多个子智能体进行规划和推理,其中包括:

  • 生物标志物数据库分析师:将自然语言问题转换为 SQL 语句,并在生物标志物的 Amazon Redshift 数据库上执行。
  • 统计学家:自定义容器构建生存回归模型,并进行可视化,如 Kaplan Meier 图表。
  • 临床证据研究员:使用 PubMed API 在生物医学文献中搜索外部证据。使用 Amazon Bedrock 进行检索增强生成(RAG),以便根据内部文献证据提供回复。
  • 临床试验分析师:使用 gov API 搜索过往的临床试验研究。
  • 医学影像专家:使用亚马逊云科技 Amazon SageMaker,为智能体增添利用临时集群触发异步作业以处理 CT 扫描图像的能力。

结论

研究科学家在识别和验证特定于癌症亚型且与干预措施和患者预后相关的生物标志物方面面临重大挑战。现有的工具通常需要大量人工步骤来跨各种不同数据源进行搜索、汇总并得出见解。本文展示了亚马逊云科技 Amazon Bedrock Agents 如何通过多 Agents 协作和相关工具提供一个灵活的框架,以助力加速这一关键的发现过程。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

本篇作者

方康

卡内基梅隆大学计算机硕士,现任大中华地区亚马逊医疗 & 生命科学行业解决方案架构师。在加入亚马逊之前就职于华大基因,任职首席云架构师,负责开发和维护基因组学领域云计算平台, 为全球合作伙伴提供基因组学数据管理,转化和分析方案。同时致力于基因组学数据管理与分析,HPC(高性能计算集群)与异构计算,工作流语言,数据转化与压缩和生命科学数据的合规与安全等领域的应用。