Überspringen zum Hauptinhalt

AWS-Lösungsportfolio

  • AWS-Lösungsportfolio
  • Empfehlung für die Integration und Analyse von Multi-Omics- und multimodalen Daten auf AWS

Empfehlung für die Integration und Analyse von Multi-Omics- und multimodalen Daten auf AWS

Übersicht

Diese Anleitung hilft Benutzern, genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für umfangreiche Analysen vorzubereiten und interaktive Abfragen für einen Data Lake durchzuführen. Es umfasst die Automatisierung von Infrastructure as Code (IaC), kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD) für schnelle Iterationen, eine Ingestion-Pipeline zum Speichern und Transformieren der Daten sowie Notebooks und Dashboards für interaktive Analysen. Wir demonstrieren auch, wie Genomik-Varianten- und Annotationsdaten gespeichert und mit AWS HealthOmics, Amazon Athena und Amazon SageMaker Notebooks abgefragt werden. Diese Anleitung wurde in Zusammenarbeit mit Bioteam erstellt.

Funktionsweise

Architektur

Bereiten Sie genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für groß angelegte Analysen und Abfragen mit einem Data Lake vor.

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

Bereiten Sie genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für groß angelegte Analysen und Abfragen mit einem Data Lake vor.

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Well-Architected-Säulen

Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.

In dieser Anleitung werden CodeBuild und CodePipeline verwendet, um alles zu erstellen, zu verpacken und bereitzustellen, was in der Lösung benötigt wird, um Variant Call Files (VCFs) aufzunehmen und zu speichern und mit multimodalen und multiomischen Daten aus den Datensätzen in The Cancer Genome Atlas (TCGA) und The Cancer Imaging Atlas (TCIA) zu arbeiten. Die serverlose Erfassung und Analyse von Genomikdaten wird mithilfe eines vollständig verwalteten Dienstes — Amazon Omics — demonstriert. Codeänderungen, die im CodeCommit-Repository der Lösung vorgenommen wurden, müssen über die bereitgestellte CodePipeline-Bereitstellungspipeline bereitgestellt werden.

Whitepaper zur betrieblichen Exzellenz lesen

In dieser Anleitung wird der rollenbasierte Zugriff mit IAM verwendet. Für alle Buckets ist die Verschlüsselung aktiviert, sie sind privat und blockieren den öffentlichen Zugriff. Für den Datenkatalog in AWS Glue ist die Verschlüsselung aktiviert und alle von AWS Glue auf Amazon S3 geschriebenen Metadaten sind verschlüsselt. Alle Rollen werden mit den geringsten Privilegien definiert und die gesamte Kommunikation zwischen den Services bleibt innerhalb des Kundenkontos. Administratoren können das Jupyter-Notebook und die Daten von Amazon Omics Variant Stores kontrollieren. Der Datenzugriff auf den AWS Glue Catalog wird vollständig über Lake Formation verwaltet, und der Datenzugriff von Athena, SageMaker Notebook und QuickSight wird über bereitgestellte IAM-Rollen verwaltet.

Whitepaper zur Sicherheit lesen

AWS Glue, Amazon S3, Amazon Omics und Athena sind alle serverlos und skalieren die Datenzugriffsleistung, wenn Ihr Datenvolumen steigt. AWS Glue stellt die Ressourcen bereit, konfiguriert und skaliert sie, um Ihre Datenintegrationsaufträge auszuführen. Athena ist serverlos, sodass Sie Ihre Daten schnell abfragen können, ohne Server oder Data Warehouses einrichten und verwalten zu müssen. Der In-Memory-Speicher von QuickSight SPICE skaliert Ihre Datenexploration auf Tausende von Benutzern. 

Whitepaper zur Zuverlässigkeit lesen

Durch den Einsatz serverloser Technologien stellen Sie nur genau die Ressourcen bereit, die Sie benötigen. Bei jedem AWS Glue-Job wird bei Bedarf ein Spark-Cluster bereitgestellt, um Daten zu transformieren und die Ressourcen nach Abschluss der Bereitstellung aufzuheben. Wenn Sie sich dafür entscheiden, neue TCGA-Datensätze hinzuzufügen, können Sie neue AWS Glue-Jobs und AWS Glue-Crawler hinzufügen, die auch Ressourcen bei Bedarf im Voraus erstellen. Athena führt Abfragen automatisch parallel aus, sodass die meisten Ergebnisse innerhalb von Sekunden zurückgegeben werden. Amazon Omics optimiert die Leistung von Variantenabfragen im großen Maßstab, indem Dateien in Apache Parquet umgewandelt werden.

Whitepaper zur Leistung und Effizienz lesen

Durch den Einsatz serverloser Technologien, die nach Bedarf skalieren, zahlen Sie nur für die Ressourcen, die Sie nutzen. Um die Kosten weiter zu optimieren, können Sie die Notebook-Umgebungen in SageMaker beenden, wenn sie nicht verwendet werden. Das QuickSight-Dashboard wird auch über eine separate CloudFormation-Vorlage bereitgestellt. Wenn Sie also nicht beabsichtigen, das Visualisierungs-Dashboard zu verwenden, können Sie sich dafür entscheiden, es nicht bereitzustellen, um Kosten zu sparen. Amazon Omics optimiert die Kosten für die Speicherung variantener Daten in großem Maßstab. Die Abfragekosten werden durch die Menge der von Athena gescannten Daten bestimmt und können optimiert werden, indem Abfragen entsprechend geschrieben werden.

Whitepaper zur Kostenoptimierung lesen

Durch die umfassende Nutzung von Managed Services und dynamischer Skalierung minimieren Sie die Umweltauswirkungen der Back-End-Services. Eine entscheidende Komponente für die Nachhaltigkeit ist die Maximierung der Nutzung von Notebook-Server-Instances. Sie sollten die Notebook-Umgebungen beenden, wenn Sie sie nicht verwenden. 

Whitepaper zur Nachhaltigkeit lesen

Weitere Erwägungen

Datentransformation

Diese Architektur entschied sich für AWS Glue für das Extrahieren, Transformieren und Laden (ETL), das für die Erfassung, Vorbereitung und Katalogisierung der Datensätze in der Lösung für Abfrage und Leistung erforderlich ist. Sie können bei Bedarf neue AWS Glue-Jobs und AWS Glue-Crawler hinzufügen, um neue Datensätze von The Cancer Genome Atlas (TCGA) und The Cancer Image Atlas (TCIA) aufzunehmen. Sie können auch neue Aufträge und Crawler hinzufügen, um Ihre eigenen Datensätze aufzunehmen, aufzubereiten und zu katalogisieren.

Datenanalyse

Diese Architektur entschied sich für SageMaker Notebooks, um eine Jupyter-Notebook-Umgebung für Analysen bereitzustellen. Sie können der bestehenden Umgebung neue Notizbücher hinzufügen oder neue Umgebungen erstellen. Wenn Sie RStudio Jupyter-Notebooks vorziehen, können Sie RStudio auf Amazon SageMaker verwenden.

Datenvisualisierung

Diese Architektur entschied sich für QuickSight, um interaktive Dashboards für die Datenvisualisierung und -erkundung bereitzustellen. Die Einrichtung des QuickSight-Dashboards erfolgt über eine separate CloudFormation-Vorlage. Wenn Sie also nicht beabsichtigen, das Dashboard zu verwenden, müssen Sie es nicht bereitstellen. In QuickSight können Sie Ihre eigenen Analysen erstellen, zusätzliche Filter oder Visualisierungen untersuchen und Datensätze und Analysen mit Kollegen teilen.

Mit Zuversicht bereitstellen

Dieses Repository schafft eine skalierbare Umgebung in AWS, um genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für umfangreiche Analysen vorzubereiten und interaktive Abfragen gegen einen Data Lake durchzuführen. Die Lösung zeigt, wie 1) Healthomics Variant Store & Annotation Store verwendet wird, um genomische Variantendaten und Annotationsdaten zu speichern, 2) serverlose Datenaufnahme-Pipelines für die multimodale Datenaufbereitung und Katalogisierung bereitzustellen, 3) klinische Daten über eine interaktive Schnittstelle zu visualisieren und zu untersuchen und 4) interaktive Analyseabfragen für einen multimodalen Data Lake mit Amazon Athena und Amazon SageMaker auszuführen.

Es wird eine detaillierte Anleitung zum Experimentieren und zur Verwendung in Ihrem AWS-Konto bereitgestellt. Jede Phase der Erstellung der Anleitung, einschließlich Bereitstellung, Verwendung und Bereinigung, wird untersucht, um sie für die Bereitstellung vorzubereiten.

Implementierungsleitfaden öffnen

Der Beispielcode dient als Ausgangspunkt. Er ist in der Branche erprobt, präskriptiv, aber nicht endgültig, und ein Blick unter die Haube, der Ihnen den Einstieg erleichtert.

Beispielcode in der AWS-Konsole bereitstellen

Beispielcode in GitHub öffnen

Ähnliche Inhalte

Empfehlung

Leitfaden für die multimodale Datenanalyse mit KI-Services für das Gesundheitswesen und ML-Services auf AWS

Dieser Leitfaden zeigt, wie ein durchgängiges Framework für die Analyse multimodaler Gesundheits- und Biowissenschaftsdaten (HCLS) eingerichtet werden kann.

Weitere Informationen

Mitarbeiter

BioTeam ist ein IT-Beratungsunternehmen für Biowissenschaften, das sich der Beschleunigung wissenschaftlicher Entdeckungen verschrieben hat, indem es die Lücke zwischen dem, was Wissenschaftler mit Daten tun wollen, und dem, was sie tun können, schließt. BioTeam arbeitet seit 2002 an der Schnittstelle von Wissenschaft, Daten und Technologie und verfügt über die interdisziplinären Fähigkeiten, Strategien, fortschrittliche Technologien und IT-Dienstleistungen anzuwenden, um die schwierigsten Probleme in Forschung, Technik und Betrieb zu lösen. Wir sind in der Lage, wissenschaftliche Anforderungen in leistungsstarke wissenschaftliche Datenökosysteme zu übersetzen und sind stolz auf unsere Fähigkeit, mit einer Vielzahl von führenden Unternehmen in der biowissenschaftlichen Forschung zusammenzuarbeiten, von Biotech-Startups bis zu den größten globalen Pharmaunternehmen, von Bundesbehörden bis zu akademischen Forschungseinrichtungen.
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

Haftungsausschluss

Der Beispielcode, die Softwarebibliotheken, die Befehlszeilentools, die Machbarkeitsnachweise, die Vorlagen oder andere zugehörige Technologien (einschließlich derjenigen, die von unseren Mitarbeitern bereitgestellt werden) werden Ihnen als AWS-Inhalte im Rahmen der AWS-Kundenvereinbarung oder der entsprechenden schriftlichen Vereinbarung zwischen Ihnen und AWS (je nachdem, was zutrifft) zur Verfügung gestellt. Sie sollten diese AWS-Inhalte nicht in Ihren Produktionskonten oder für Produktions- oder andere kritische Daten verwenden. Sie sind verantwortlich für das Testen, Sichern und Optimieren des AWS-Inhalts, z. B. des Beispielcodes, für die Verwendung in der Produktion auf der Grundlage Ihrer spezifischen Qualitätskontrollverfahren und -standards. Bei der Bereitstellung von AWS-Inhalten können AWS-Gebühren für die Erstellung oder Nutzung von kostenpflichtigen AWS-Ressourcen anfallen, z. B. für den Betrieb von Amazon-EC2-Instances oder die Nutzung von Amazon-S3-Speicher.

Haben Sie die gewünschten Informationen gefunden?

Ihr Beitrag hilft uns, die Qualität der Inhalte auf unseren Seiten zu verbessern.