- Pustaka Solusi AWS›
- Panduan untuk Integrasi dan Analisis Data Multiomik serta Multimodal di AWS
Panduan untuk Integrasi dan Analisis Data Multiomik serta Multimodal di AWS
Gambaran Umum
Cara kerjanya
Arsitektur
Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan kueri terhadap danau data.
CI/CD
Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan kueri terhadap danau data.
Pilar Well-Architected
Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda harus mengikuti praktik terbaik Well-Architected sebanyak mungkin.
Panduan ini menggunakan CodeBuild dan CodePipeline untuk membangun, mengemas, dan menerapkan semua yang diperlukan dalam solusi untuk menelan dan menyimpan Variant Call Files (VCFs) dan bekerja dengan data multi-modal dan multi-omik dari kumpulan data di The Cancer Genome Atlas (TCGA) dan The Cancer Imaging Atlas (TCIA). Penyerapan dan analisis data genomik tanpa server ditunjukkan menggunakan layanan yang dikelola sepenuhnya - Amazon Omics. Perubahan kode yang dibuat dalam repositori solusi CodeCommit akan digunakan melalui pipeline penerapan CodePipeline yang disediakan.
Panduan ini menggunakan akses berbasis peran dengan IAM dan semua bucket memiliki enkripsi yang diaktifkan, bersifat pribadi, dan memblokir akses publik. Katalog data di AWS Glue mengaktifkan enkripsi dan semua data meta yang ditulis oleh AWS Glue ke Amazon S3 dienkripsi. Semua peran ditentukan dengan hak akses paling rendah dan semua komunikasi di antara layanan tetap berada dalam akun pelanggan. Administrator dapat mengontrol notebook Jupyter, data Amazon Omics Variant Sto res, dan akses data Katalog AWS Glu e dikelola sepenuhnya menggunakan Lake Formation, dan akses data Athena, SageMaker Notebook, dan QuickSight dikelola melalui peran IAM yang disediakan.
AWS Glu e, Amazon S3, Amazon Omic s, dan Athena semuanya tanpa server dan akan meningkatkan kinerja akses data saat volume data Anda meningkat. AWS Glue menyediakan, mengonfigurasi, dan menskalakan sumber daya yang diperlukan untuk menjalankan tugas integrasi data Anda. Athena tanpa server, sehingga Anda dapat dengan cepat menanyakan data Anda tanpa harus mengatur dan mengelola server atau gudang data apa pun. Penyimpanan dalam memori QuickSight SPICE akan menskalakan eksplorasi data Anda ke ribuan pengguna.
Dengan menggunakan teknologi nirserver, Anda hanya menyediakan sumber daya seperti yang Anda gunakan. Setiap pekerjaan AWS Glu e akan menyediakan cluster Spark sesuai permintaan untuk mengubah data dan menghapus penyediaan sumber daya setelah selesai. Jika Anda memilih untuk menambahkan kumpulan data TCGA baru, Anda dapat menambahkan pekerjaan AWS Glue baru dan perayap AWS Glue yang juga akan memprediksi sumber daya sesuai permintaan. Athena secara otomatis mengeksekusi kueri secara paralel, sehingga sebagian besar hasil kembali dalam hitungan detik. Amazon Omics meng optimalkan kinerja kueri varian dalam skala besar dengan mengubah file menjadi Apache Parquet.
Dengan menggunakan teknologi nirserver yang sesuai permintaan, Anda hanya membayar sumber daya yang Anda gunakan. Untuk lebih mengoptimalkan biaya, Anda dapat menghentikan lingkungan notebook di SageMaker saat tidak digunakan. Dasbor QuickSight juga digunakan melalui template CloudFormation terpisah, jadi jika Anda tidak berniat menggunakan dasbor visualisasi, Anda dapat memilih untuk tidak menyebarkannya untuk menghemat biaya. Amazon Omics mengoptimalkan biaya penyimpanan data varian dalam skala besar. Biaya kueri ditentukan oleh jumlah data yang dipindai oleh Athena dan dapat dioptimalkan dengan menulis kueri yang sesuai.
Dengan menggunakan layanan terkelola dan penskalaan dinamis secara ekstensif, Anda meminimalkan dampak lingkungan dari layanan backend. Komponen penting untuk keberlanjutan adalah memaksimalkan penggunaan instans server notebook. Anda harus menghentikan lingkungan notebook saat tidak digunakan.
Pertimbangan Tambahan
Transformasi Data
Arsitektur ini memilih AWS Glu e untuk Extract, Transform, and Load (ETL) yang diperlukan untuk menelan, menyiapkan, dan membuat katalog kumpulan data dalam solusi untuk kueri dan kinerja. Anda dapat menambahkan AWS Glue Jobs dan AWS Glu e Crawlers baru untuk menyerap kumpulan data The Cancer Genome Atlas (TCGA) dan The Cancer Image Atlas (TCIA) baru, sesuai kebutuhan. Anda juga dapat menambahkan tugas dan perayap baru untuk menyerap, menyiapkan, dan membuat katalog set data milik Anda sendiri.
Analisis Data
Arsitektur ini memilih Notebook SageMaker untuk menyediakan lingkungan notebook Jupyter untuk analisis. Anda dapat menambahkan notebook baru ke lingkungan yang ada atau buat lingkungan baru. Jika Anda lebih suka notebook RStudio daripada Jupyter, Anda dapat menggunakan R Studio di Amazon SageMaker.
Visualisasi Data
Arsitektur ini memilih QuickSight untuk menyediakan dasbor interaktif untuk visualisasi dan eksplorasi data. Peng aturan dasbor QuickSight dilakukan melalui template CloudFormation terpisah sehingga jika Anda tidak berniat menggunakan dasbor, Anda tidak perlu menyediakannya. Di QuickSight, Anda dapat membuat analisis sendiri, menjelajahi filter atau visualisasi tambahan, dan berbagi kumpulan data dan analisis dengan rekan kerja.
Terapkan dengan percaya diri
Repositori ini menciptakan lingkungan yang dapat diskalakan di AWS untuk menyiapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Solusinya menunjukkan cara 1) menggunakan HealthOmics Variant Store & Annotation Store untuk menyimpan data varian genom dan data anotasi, 2) menyediakan saluran penyerapan data tanpa server untuk persiapan dan katalogisasi data multi-modal, 3) memvisualisasikan dan mengeksplorasi data klinis melalui antarmuka interaktif, dan 4) menjalankan kueri analitik interaktif terhadap danau data multi-modal menggunakan Amazon Athena dan Amazon SageMaker.
Panduan mendetail disediakan untuk bereksperimen dan digunakan dalam akun AWS Anda. Setiap tahap pembuatan Panduan, termasuk deployment, penggunaan, dan pembersihan, diperiksa guna mempersiapkannya untuk deployment.
Kode sampel adalah titik awal. Kode sampel ini divalidasi industri, bersifat preskriptif tetapi tidak definitif, dan menjadi sarana untuk mencoba sebelum menggunakannya.
Konten Terkait
Panduan
Panduan untuk Analisis Data Multimodal dengan Layanan AI dan ML Kesehatan di AWS
Panduan ini menunjukkan cara menyiapkan kerangka kerja menyeluruh untuk menganalisis data layanan kesehatan dan ilmu hayati (HCLS) multimodal.
Kontributor
Penafian
Apakah Anda sudah menemukan yang Anda cari?
Beri tahu kami agar kami dapat meningkatkan kualitas konten di halaman kami