Pustaka Solusi AWS

Panduan untuk Integrasi serta Analisis Data Multiomik dan Multimodal di AWS

Buka panduan

Buka kode sampel

Gambaran Umum

Panduan ini membantu pengguna menyiapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta melakukan kueri interaktif terhadap danau data. Panduan ini juga mencakup otomatisasi infrastruktur sebagai kode (IaC), integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) untuk iterasi cepat, jalur penyerapan untuk menyimpan dan mengubah data, serta notebook dan dasbor untuk analisis interaktif. Kami juga mendemonstrasikan cara varian genomika dan data anotasi disimpan dan dilakukan kueri menggunakan notebook AWS HealthOmics, Amazon Athena, dan Amazon SageMaker. Panduan ini dikembangkan melalui kolaborasi dengan Bioteam .

Cara kerjanya

Arsitektur

Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta menjalankan kueri pada danau data.

Unduh diagram arsitektur

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta menjalankan kueri pada danau data.

Unduh diagram arsitektur

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Pilar Well-Architected

Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda sebaiknya mengikuti sebanyak mungkin praktik terbaik Well-Architected.

Panduan ini menggunakan CodeBuild dan CodePipeline untuk membangun, mengemas, dan melakukan deployment semua yang diperlukan dalam solusi untuk menyerap dan menyimpan Variant Call Files (VCF), serta bekerja dengan data multimodal dan multiomik dari set data di The Cancer Genome Atlas (TCGA) dan The Cancer Imaging Archive (TCIA). Penyerapan dan analisis data genomik nirserver didemonstrasikan menggunakan layanan terkelola penuh - Amazon Omics. Perubahan kode yang dibuat dalam solusi di repositori CodeCommit akan di-deploy melalui pipeline deployment CodePipeline yang disediakan.

Baca laporan resmi Keunggulan Operasional

Panduan ini menggunakan kontrol akses berbasis peran dengan IAM dan semua bucket telah mengaktifkan enkripsi, bersifat privat, serta memblokir akses publik. Katalog data di AWS Glue telah mengaktifkan enkripsi, dan semua data meta yang ditulis oleh AWS Glue ke Amazon S3 juga dienkripsi. Semua peran didefinisikan dengan prinsip hak akses paling rendah, dan semua komunikasi antarlayanan tetap berada dalam akun pelanggan. Administrator dapat mengontrol notebook Jupyter, serta data Variant Stores Amazon Omics, dan akses data Katalog AWS Glue dikelola sepenuhnya menggunakan Lake Formation. Akses data Athena, SageMaker Notebook, dan QuickSight dikelola melalui peran IAM yang disediakan.

Baca laporan resmi Keamanan

AWS Glue, Amazon S3, Amazon Omics, dan Athena semuanya nirserver dan akan meningkatkan performa akses data seiring bertambahnya volume data. AWS Glue menyediakan, mengonfigurasi, dan menskalakan sumber daya yang diperlukan untuk menjalankan tugas integrasi data Anda. Athena bersifat nirserver, sehingga Anda dapat dengan cepat melakukan kueri terhadap data tanpa perlu menyiapkan dan mengelola server atau gudang data. Penyimpanan dalam memori QuickSight SPICE akan menskalakan eksplorasi data Anda hingga ribuan pengguna.

Baca laporan resmi Keandalan

Dengan menggunakan teknologi nirserver, Anda hanya menyediakan sumber daya yang benar-benar digunakan. Tiap tugas AWS Glue akan menyediakan klaster Spark sesuai permintaan untuk mentransformasi data dan menghentikan alokasi sumber daya setelah selesai. Jika memilih untuk menambahkan set data TCGA baru, Anda dapat menambahkan tugas AWS Glue dan perayap AWS Glue baru yang juga akan menyediakan sumber daya sesuai permintaan. Athena secara otomatis menjalankan kueri secara paralel, sehingga sebagian besar hasil dapat diperoleh dalam hitungan detik. Amazon Omics mengoptimalkan performa kueri varian dalam skala besar dengan mentransformasi file ke dalam format Apache Parquet.

Baca laporan resmi Efisiensi Performa

Dengan menggunakan teknologi nirserver yang dapat diskalakan sesuai permintaan, Anda hanya membayar sumber daya yang digunakan. Untuk lebih mengoptimalkan biaya, Anda dapat menghentikan lingkungan notebook di SageMaker saat tidak digunakan. Dasbor QuickSight juga di-deploy melalui templat CloudFormation terpisah, sehingga jika Anda tidak berencana menggunakan dasbor visualisasi tersebut, Anda dapat memilih untuk tidak men-deploy-nya guna menghemat biaya. Amazon Omics mengoptimalkan biaya penyimpanan data varian dalam skala besar. Biaya kueri ditentukan berdasarkan jumlah data yang dipindai oleh Athena dan dapat dioptimalkan dengan menulis kueri secara tepat.

Baca laporan resmi Optimisasi Biaya

Dengan memanfaatkan layanan terkelola dan penskalaan dinamis secara luas, Anda meminimalkan dampak lingkungan dari layanan backend. Komponen penting dalam keberlanjutan adalah memaksimalkan pemanfaatan instans server notebook. Anda sebaiknya menghentikan lingkungan notebook saat tidak digunakan.

Baca laporan resmi Keberlanjutan

Pertimbangan Tambahan

Transformasi Data

Arsitektur ini menggunakan AWS Glue untuk proses Extract, Transform, and Load (ETL) yang diperlukan guna menyerap, menyiapkan, serta mengatalogkan set data dalam solusi untuk kebutuhan kueri dan performa. Anda dapat menambahkan Tugas AWS Glue dan Perayap AWS Glue baru untuk menyerap set data dari The Cancer Genome Atlas (TCGA) dan The Cancer Imaging Archive (TCIA) sesuai kebutuhan. Anda juga dapat menambahkan tugas dan perayap baru untuk menyerap, menyiapkan, dan membuat katalog set data milik Anda sendiri.

Analisis Data

Arsitektur ini menggunakan Notebook SageMaker untuk menyediakan lingkungan notebook Jupyter untuk analisis. Anda dapat menambahkan notebook baru ke lingkungan yang ada atau buat lingkungan baru. Jika lebih memilih RStudio daripada notebook Jupyter, Anda dapat menggunakan RStudio di Amazon SageMaker.

Visualisasi Data

Arsitektur ini menggunakan QuickSight untuk menyediakan dasbor interaktif bagi visualisasi dan eksplorasi data. Penyiapan dasbor QuickSight dilakukan melalui templat CloudFormation terpisah, sehingga jika Anda tidak berencana menggunakan dasbor tersebut, Anda tidak perlu menyediakannya. Di QuickSight, Anda dapat membuat analisis sendiri, menjelajahi filter atau visualisasi tambahan, serta membagikan set data dan analisis kepada rekan kerja.

Melakukan deployment dengan percaya diri

Repositori ini membuat lingkungan yang dapat diskalakan di AWS untuk menyiapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta menjalankan kueri interaktif pada danau data. Solusi menunjukkan cara untuk 1) menggunakan Penyimpanan Varian & Penyimpanan Anotasi HealthOmics untuk menyimpan data varian genomik dan data anotasi, 2) menyediakan pipeline penyerapan data nirserver untuk persiapan dan pengatalogan data multimodal, 3) memvisualisasikan dan menjelajahi data klinis melalui antarmuka interaktif, serta 4) menjalankan kueri analitik interaktif pada danau data multimodal menggunakan Amazon Athena dan Amazon SageMaker.

Panduan terperinci disediakan untuk melakukan eksperimen dan penggunaan dalam akun AWS Anda. Setiap tahap dalam membuat Panduan ini, termasuk deployment, penggunaan, dan pembersihan, dibahas guna mempersiapkannya sebelum deployment.

Buka panduan implementasi

Kode sampel merupakan titik awal. Solusi ini telah tervalidasi di industri, bersifat preskriptif tetapi tidak definitif, serta memberikan gambaran mendalam untuk membantu Anda memulai.

Melakukan deployment kode sampel di Konsol AWS

Buka kode sampel di GitHub

Konten Terkait

Panduan

Panduan untuk Analisis Data Multimodal dengan Layanan AI dan ML Kondisi di AWS

Panduan ini menunjukkan cara menyiapkan kerangka kerja end-to-end untuk menganalisis data layanan kesehatan dan ilmu hayati (HCLS) multimodal.

Pelajari Selengkapnya

Kontributor

BioTeam adalah perusahaan konsultan IT ilmu hayati yang berfokus pada percepatan penemuan ilmiah dengan menjembatani kesenjangan antara apa yang ingin dilakukan ilmuwan dengan data dan apa yang dapat mereka lakukan. Bekerja di bidang seputar sains, data, dan teknologi sejak tahun 2002, BioTeam memiliki kemampuan interdisipliner untuk menerapkan strategi, teknologi canggih, dan layanan IT yang memecahkan masalah penelitian, teknis, dan operasional yang paling menantang. Terampil dalam menerjemahkan kebutuhan ilmiah ke dalam ekosistem data ilmiah yang kuat, kami bangga dengan kemampuan kami untuk bermitra dengan berbagai pemimpin dalam penelitian ilmu hayati, mulai dari perusahaan rintisan biotek hingga perusahaan farmasi global terbesar dan mulai dari lembaga pemerintah federal hingga lembaga penelitian akademik.

Pelajari selengkapnya

Penafian

Kode sampel; pustaka perangkat lunak; alat baris perintah; bukti konsep; templat; atau teknologi terkait lainnya (termasuk yang sebelumnya disediakan oleh personel kami) disediakan untuk Anda sebagai Konten AWS berdasarkan Perjanjian Pelanggan AWS, atau perjanjian tertulis yang relevan antara Anda dan AWS (mana saja yang berlaku). Anda tidak boleh menggunakan Konten AWS ini di akun produksi Anda, atau pada produksi atau data penting lainnya. Anda bertanggung jawab untuk menguji, mengamankan, dan mengoptimalkan Konten AWS, seperti kode sampel, yang sesuai untuk penggunaan tingkat produksi berdasarkan praktik dan standar kontrol kualitas spesifik Anda. Melakukan deployment Konten AWS dapat dikenai biaya AWS untuk membuat atau menggunakan sumber daya AWS berbayar, seperti menjalankan instans Amazon EC2 atau menggunakan penyimpanan Amazon S3.

Apakah Anda sudah menemukan yang Anda cari?

Sampaikan masukan Anda agar kami dapat meningkatkan kualitas konten di halaman kami