Lewati ke Konten Utama

Pustaka Solusi AWS

  • Pustaka Solusi AWS
  • Panduan untuk Integrasi dan Analisis Data Multiomik serta Multimodal di AWS

Panduan untuk Integrasi dan Analisis Data Multiomik serta Multimodal di AWS

Gambaran Umum

Panduan ini membantu pengguna menyiapkan data genomika, klinis, mutasi, ekspresi, serta pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Panduan ini juga mencakup otomatisasi infrastruktur sebagai kode (IaC), integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) untuk iterasi cepat, jalur penyerapan untuk menyimpan dan mengubah data, serta notebook dan dasbor untuk analisis interaktif. Kami juga mendemonstrasikan cara varian genomika dan data anotasi disimpan dan dilakukan kueri menggunakan notebook AWS HealthOmics, Amazon Athena, dan Amazon SageMaker. Panduan ini dibangun bekerja sama dengan Bioteam.

Cara kerjanya

Arsitektur

Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan kueri terhadap danau data.

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan kueri terhadap danau data.

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Pilar Well-Architected

Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda harus mengikuti praktik terbaik Well-Architected sebanyak mungkin.

Panduan ini menggunakan CodeBuild dan CodePipeline untuk membangun, mengemas, dan menerapkan semua yang diperlukan dalam solusi untuk menelan dan menyimpan Variant Call Files (VCFs) dan bekerja dengan data multi-modal dan multi-omik dari kumpulan data di The Cancer Genome Atlas (TCGA) dan The Cancer Imaging Atlas (TCIA). Penyerapan dan analisis data genomik tanpa server ditunjukkan menggunakan layanan yang dikelola sepenuhnya - Amazon Omics. Perubahan kode yang dibuat dalam repositori solusi CodeCommit akan digunakan melalui pipeline penerapan CodePipeline yang disediakan.

Baca laporan resmi Keunggulan Operasional

Panduan ini menggunakan akses berbasis peran dengan IAM dan semua bucket memiliki enkripsi yang diaktifkan, bersifat pribadi, dan memblokir akses publik. Katalog data di AWS Glue mengaktifkan enkripsi dan semua data meta yang ditulis oleh AWS Glue ke Amazon S3 dienkripsi. Semua peran ditentukan dengan hak akses paling rendah dan semua komunikasi di antara layanan tetap berada dalam akun pelanggan. Administrator dapat mengontrol notebook Jupyter, data Amazon Omics Variant Sto res, dan akses data Katalog AWS Glu e dikelola sepenuhnya menggunakan Lake Formation, dan akses data Athena, SageMaker Notebook, dan QuickSight dikelola melalui peran IAM yang disediakan.

Baca laporan resmi Keamanan

AWS Glu e, Amazon S3, Amazon Omic s, dan Athena semuanya tanpa server dan akan meningkatkan kinerja akses data saat volume data Anda meningkat. AWS Glue menyediakan, mengonfigurasi, dan menskalakan sumber daya yang diperlukan untuk menjalankan tugas integrasi data Anda. Athena tanpa server, sehingga Anda dapat dengan cepat menanyakan data Anda tanpa harus mengatur dan mengelola server atau gudang data apa pun. Penyimpanan dalam memori QuickSight SPICE akan menskalakan eksplorasi data Anda ke ribuan pengguna. 

Baca laporan resmi Keandalan

Dengan menggunakan teknologi nirserver, Anda hanya menyediakan sumber daya seperti yang Anda gunakan. Setiap pekerjaan AWS Glu e akan menyediakan cluster Spark sesuai permintaan untuk mengubah data dan menghapus penyediaan sumber daya setelah selesai. Jika Anda memilih untuk menambahkan kumpulan data TCGA baru, Anda dapat menambahkan pekerjaan AWS Glue baru dan perayap AWS Glue yang juga akan memprediksi sumber daya sesuai permintaan. Athena secara otomatis mengeksekusi kueri secara paralel, sehingga sebagian besar hasil kembali dalam hitungan detik. Amazon Omics meng optimalkan kinerja kueri varian dalam skala besar dengan mengubah file menjadi Apache Parquet.

Baca laporan resmi Efisiensi Performa

Dengan menggunakan teknologi nirserver yang sesuai permintaan, Anda hanya membayar sumber daya yang Anda gunakan. Untuk lebih mengoptimalkan biaya, Anda dapat menghentikan lingkungan notebook di SageMaker saat tidak digunakan. Dasbor QuickSight juga digunakan melalui template CloudFormation terpisah, jadi jika Anda tidak berniat menggunakan dasbor visualisasi, Anda dapat memilih untuk tidak menyebarkannya untuk menghemat biaya. Amazon Omics mengoptimalkan biaya penyimpanan data varian dalam skala besar. Biaya kueri ditentukan oleh jumlah data yang dipindai oleh Athena dan dapat dioptimalkan dengan menulis kueri yang sesuai.

Baca laporan resmi Optimisasi Biaya

Dengan menggunakan layanan terkelola dan penskalaan dinamis secara ekstensif, Anda meminimalkan dampak lingkungan dari layanan backend. Komponen penting untuk keberlanjutan adalah memaksimalkan penggunaan instans server notebook. Anda harus menghentikan lingkungan notebook saat tidak digunakan. 

Baca laporan resmi Keberlanjutan

Pertimbangan Tambahan

Transformasi Data

Arsitektur ini memilih AWS Glu e untuk Extract, Transform, and Load (ETL) yang diperlukan untuk menelan, menyiapkan, dan membuat katalog kumpulan data dalam solusi untuk kueri dan kinerja. Anda dapat menambahkan AWS Glue Jobs dan AWS Glu e Crawlers baru untuk menyerap kumpulan data The Cancer Genome Atlas (TCGA) dan The Cancer Image Atlas (TCIA) baru, sesuai kebutuhan. Anda juga dapat menambahkan tugas dan perayap baru untuk menyerap, menyiapkan, dan membuat katalog set data milik Anda sendiri.

Analisis Data

Arsitektur ini memilih Notebook SageMaker untuk menyediakan lingkungan notebook Jupyter untuk analisis. Anda dapat menambahkan notebook baru ke lingkungan yang ada atau buat lingkungan baru. Jika Anda lebih suka notebook RStudio daripada Jupyter, Anda dapat menggunakan R Studio di Amazon SageMaker.

Visualisasi Data

Arsitektur ini memilih QuickSight untuk menyediakan dasbor interaktif untuk visualisasi dan eksplorasi data. Peng aturan dasbor QuickSight dilakukan melalui template CloudFormation terpisah sehingga jika Anda tidak berniat menggunakan dasbor, Anda tidak perlu menyediakannya. Di QuickSight, Anda dapat membuat analisis sendiri, menjelajahi filter atau visualisasi tambahan, dan berbagi kumpulan data dan analisis dengan rekan kerja.

Terapkan dengan percaya diri

Repositori ini menciptakan lingkungan yang dapat diskalakan di AWS untuk menyiapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Solusinya menunjukkan cara 1) menggunakan HealthOmics Variant Store & Annotation Store untuk menyimpan data varian genom dan data anotasi, 2) menyediakan saluran penyerapan data tanpa server untuk persiapan dan katalogisasi data multi-modal, 3) memvisualisasikan dan mengeksplorasi data klinis melalui antarmuka interaktif, dan 4) menjalankan kueri analitik interaktif terhadap danau data multi-modal menggunakan Amazon Athena dan Amazon SageMaker.

Panduan mendetail disediakan untuk bereksperimen dan digunakan dalam akun AWS Anda. Setiap tahap pembuatan Panduan, termasuk deployment, penggunaan, dan pembersihan, diperiksa guna mempersiapkannya untuk deployment.

Buka panduan implementasi

Kode sampel adalah titik awal. Kode sampel ini divalidasi industri, bersifat preskriptif tetapi tidak definitif, dan menjadi sarana untuk mencoba sebelum menggunakannya.

Menyebarkan kode sampel di Konsol AWS

Buka kode sampel di GitHub

Konten Terkait

Panduan

Panduan untuk Analisis Data Multimodal dengan Layanan AI dan ML Kesehatan di AWS

Panduan ini menunjukkan cara menyiapkan kerangka kerja menyeluruh untuk menganalisis data layanan kesehatan dan ilmu hayati (HCLS) multimodal.

Pelajari Selengkapnya

Kontributor

BioTeam adalah perusahaan konsultasi IT ilmu hayat yang memiliki misi untuk mempercepat penemuan ilmiah dengan menutup celah antara apa yang ingin para ilmuwan lakukan dengan data—dan apa yang dapat mereka lakukan. Bekerja di bidang seputar sains, data, dan teknologi sejak tahun 2002, BioTeam memiliki kemampuan interdisipliner untuk menerapkan strategi, teknologi canggih, dan layanan IT yang memecahkan masalah penelitian, teknis, dan operasional yang paling menantang. Terampil dalam menerjemahkan kebutuhan ilmiah ke dalam ekosistem data ilmiah yang kuat, kami bangga dengan kemampuan kami untuk bermitra dengan berbagai pemimpin dalam penelitian ilmu hayati, mulai dari perusahaan rintisan biotek hingga perusahaan farmasi global terbesar dan mulai dari lembaga pemerintah federal hingga lembaga penelitian akademik.
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

Penafian

Kode sampel; pustaka perangkat lunak; alat baris perintah; bukti konsep; templat; atau teknologi terkait lainnya (termasuk yang sebelumnya disediakan oleh personel kami) disediakan untuk Anda sebagai Konten AWS berdasarkan Perjanjian Pelanggan AWS, atau perjanjian tertulis yang relevan antara Anda dan AWS (mana saja yang berlaku). Anda tidak boleh menggunakan Konten AWS ini di akun produksi Anda, atau pada produksi atau data penting lainnya. Anda bertanggung jawab untuk menguji, mengamankan, dan mengoptimalkan Konten AWS, seperti kode sampel, yang sesuai untuk penggunaan tingkat produksi berdasarkan praktik dan standar kontrol kualitas spesifik Anda. Melakukan deployment Konten AWS dapat dikenai biaya AWS untuk membuat atau menggunakan sumber daya AWS berbayar, seperti menjalankan instans Amazon EC2 atau menggunakan penyimpanan Amazon S3.

Apakah Anda sudah menemukan yang Anda cari?

Beri tahu kami agar kami dapat meningkatkan kualitas konten di halaman kami