Empfehlung für die Integration und Analyse von Multi-Omics- und multimodalen Daten auf AWS
Übersicht
Funktionsweise
Architektur
Bereiten Sie Genom-, klinische, Mutations-, Expressions- und Image-Daten für groß angelegte Analysen vor und führen Sie Abfragen in einem Data Lake durch.
CI/CD
Bereiten Sie Genom-, klinische, Mutations-, Expressions- und Image-Daten für groß angelegte Analysen vor und führen Sie Abfragen in einem Data Lake durch.
Well-Architected-Säulen
Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.
Diese Empfehlung verwendet CodeBuild und CodePipeline um alles zu erstellen, zu verpacken und bereitzustellen, was in der Lösung benötigt wird, um Variant Call Files (VCFs) zu erfassen und zu speichern und mit multimodalen und multiautomatischen Daten aus den Datensätzen des The Cancer Genome Atlas (TCGA) und The Cancer Imaging Atlas (TCIA) zu arbeiten. Die serverlose Aufnahme und Analyse von Genomikdaten wird anhand eines vollständig verwalteten Services demonstriert – Amazon Omics. Codeänderungen, die im CodeCommit-Repository der Lösung vorgenommen werden, werden über die mitgelieferte CodePipeline-Bereitstellungspipeline bereitgestellt.
Diese Empfehlung verwendet rollenbasierten Zugriff mit IAM und alle Buckets haben Verschlüsselung aktiviert, sind privat und blockieren den öffentlichen Zugriff. Der Datenkatalog in AWS Glue ist verschlüsselt und alle von AWS Glue in Amazon S3 geschriebenen Metadaten sind verschlüsselt. Alle Rollen werden mit den geringsten Berechtigungen definiert und die gesamte Kommunikation zwischen den Services bleibt innerhalb des Kundenkontos. Administratoren können auf Daten aus Jupyter Notebooks, Amazon Omics Variant Stores und dem AWS-Glue-Datenkatalog vollständig über Lake Formation zugreifen, während sie auf Daten aus Athena, SageMaker Notebook und Amazon QuickSight über bereitgestellte IAM-Rollen zugreifen können.
AWS Glue, Amazon S3, Amazon Omics und Athena sind alle „serverless“ und skalieren die Datenzugriffsleistung, wenn Ihr Datenvolumen wächst. AWS Glue stellt die für die Ausführung Ihrer Datenintegrationsaufgaben erforderlichen Ressourcen bereit, konfiguriert und skaliert sie. Athena ist serverless, damit Sie schnell Daten abfragen können, ohne Server oder Data Warehouses einrichten und verwalten zu müssen. Der QuickSight-SPICE-In-Memory-Speicher skaliert Ihre Datenexploration auf Tausende von Benutzern.
Durch den Einsatz von Serverless-Technologien stellen Sie nur genau die Ressourcen bereit, die Sie benötigen. Jeder AWS-Glue-Auftrag stellt bei Bedarf einen Spark-Cluster bereit, um Daten zu transformieren, und hebt die Bereitstellung der Ressourcen auf, wenn er fertig ist. Wenn Sie sich entscheiden, neue TCGA-Datensätze hinzuzufügen, können Sie neue AWS-Glue-Aufträge und AWS-Glue-Crawler hinzufügen, die ebenfalls Ressourcen auf Abruf bereitstellen. Athena führt automatisch Abfragen parallel aus, wodurch die meisten Ergebnisse innerhalb von Sekunden ausgegeben werden. Amazon Omics optimiert die Leistung von Variantenabfragen im großen Maßstab durch die Umwandlung von Dateien in Apache Parquet.
Durch den Einsatz von Serverless.Technologien, die nach Bedarf skalieren, zahlen Sie nur für die Ressourcen, die Sie nutzen. Um die Kosten weiter zu optimieren, können Sie die Notebook-Umgebungen in SageMaker anhalten, wenn sie nicht verwendet werden. Das QuickSight-Dashboard wird ebenfalls über eine separate CloudFormation-Vorlage bereitgestellt. Wenn Sie also nicht beabsichtigen, das Visualisierungs-Dashboard zu verwenden, können Sie es auch nicht bereitstellen, um Kosten zu sparen. Amazon Omics optimiert die Kosten für die Speicherung von Variantendaten im großen Maßstab. Die Abfragekosten werden durch die Menge der von Athena gescannten Daten bestimmt und können durch das Schreiben entsprechender Abfragen optimiert werden.
Durch die umfassende Nutzung von Managed Services und dynamischer Skalierung minimieren Sie die Umweltauswirkungen der Back-End-Services. Eine entscheidende Komponente für die Nachhaltigkeit ist die Maximierung der Nutzung von Notebook-Server-Instances. Sie sollten die Notebook-Umgebungen anhalten, wenn Sie sie nicht benutzen.
Weitere Erwägungen
Datentransformation
Diese Architektur entschied sich für AWS Glue für das Extract, Transform and Load (ETL), das zum Aufnehmen, Aufbereiten und Katalogisieren der Datensätze in der Lösung für Abfragen und Leistung erforderlich ist. Sie können bei Bedarf neue AWS Glue Jobs und AWS Glue Crawler hinzufügen, um neue Datensätze The Cancer Genome Atlas (TCGA) und The Cancer Image Atlas (TCIA) zu importieren. Sie können auch neue Aufträge und Crawler hinzufügen, um Ihre eigenen Datensätze aufzunehmen, aufzubereiten und zu katalogisieren.
Datenanalyse
Diese Architektur wählte SageMaker-Notebooks, um eine Jupyter-Notebook-Umgebung für die Analyse bereitzustellen. Sie können der bestehenden Umgebung neue Notizbücher hinzufügen oder neue Umgebungen erstellen. Wenn Sie RStudio den Jupyter-Notebooks vorziehen, können Sie RStudio in Amazon SageMaker verwenden.
Datenvisualisierung
Diese Architektur entschied sich für QuickSight, um interaktive Dashboards für die Visualisierung und Erkundung von Daten bereitzustellen. Die Einrichtung des QuickSight-Dashboards erfolgt über eine separate CloudFormation-Vorlage. Wenn Sie also nicht beabsichtigen, das Dashboard zu verwenden, müssen Sie es nicht bereitstellen. In QuickSight können Sie Ihre eigenen Analysen erstellen, zusätzliche Filter oder Visualisierungen erkunden und Datensätze und Analysen mit Kollegen teilen.
Mit Zuversicht bereitstellen
Dieses Repository schafft eine skalierbare Umgebung in AWS, um genomische, klinische, Mutations-, Expressions- und Bildgebungsdaten für umfangreiche Analysen vorzubereiten und interaktive Abfragen gegen einen Data Lake durchzuführen. Die Lösung zeigt, wie Sie 1) HealthOmics Variant Store und Annotation Store verwenden, um genomische Variantendaten und Annotationsdaten zu speichern, 2) Serverless-Datenerfassungs-Pipelines für die multimodale Datenaufbereitung und Katalogisierung bereitstellen, 3) klinische Daten über eine interaktive Schnittstelle visualisieren und erforschen und 4) interaktive analytische Abfragen gegen einen multimodalen Data Lake mit Amazon Athena und Amazon SageMaker ausführen.
Es wird eine detaillierte Anleitung zum Experimentieren und zur Verwendung in Ihrem AWS-Konto bereitgestellt. Jede Phase der Erstellung der Anleitung, einschließlich Bereitstellung, Verwendung und Bereinigung, wird untersucht, um sie für die Bereitstellung vorzubereiten.
Implementierungsleitfaden öffnen
Der Beispielcode dient als Ausgangspunkt. Er ist in der Branche erprobt, präskriptiv, aber nicht endgültig, und ein Blick unter die Haube, der Ihnen den Einstieg erleichtert.
Ähnliche Inhalte
Empfehlung
Leitfaden für die multimodale Datenanalyse mit KI-Services für das Gesundheitswesen und ML-Services auf AWS
Dieser Leitfaden zeigt, wie ein durchgängiges Framework für die Analyse multimodaler Gesundheits- und Biowissenschaftsdaten (HCLS) eingerichtet werden kann.
Mitarbeiter
Haftungsausschluss
Haben Sie die gewünschten Informationen gefunden?
Ihr Beitrag hilft uns, die Qualität der Inhalte auf unseren Seiten zu verbessern.