Panduan untuk Integrasi serta Analisis Data Multiomik dan Multimodal di AWS
Gambaran Umum
Cara kerjanya
Arsitektur
Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta menjalankan kueri pada danau data.
CI/CD
Siapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta menjalankan kueri pada danau data.
Pilar Well-Architected
Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda sebaiknya mengikuti sebanyak mungkin praktik terbaik Well-Architected.
Panduan ini menggunakan CodeBuild dan CodePipeline untuk membangun, mengemas, dan melakukan deployment semua yang diperlukan dalam solusi untuk menyerap dan menyimpan Variant Call Files (VCF), serta bekerja dengan data multimodal dan multiomik dari set data di The Cancer Genome Atlas (TCGA) dan The Cancer Imaging Archive (TCIA). Penyerapan dan analisis data genomik nirserver didemonstrasikan menggunakan layanan terkelola penuh - Amazon Omics. Perubahan kode yang dibuat dalam solusi di repositori CodeCommit akan di-deploy melalui pipeline deployment CodePipeline yang disediakan.
Panduan ini menggunakan kontrol akses berbasis peran dengan IAM dan semua bucket telah mengaktifkan enkripsi, bersifat privat, serta memblokir akses publik. Katalog data di AWS Glue telah mengaktifkan enkripsi, dan semua data meta yang ditulis oleh AWS Glue ke Amazon S3 juga dienkripsi. Semua peran didefinisikan dengan prinsip hak akses paling rendah, dan semua komunikasi antarlayanan tetap berada dalam akun pelanggan. Administrator dapat mengontrol notebook Jupyter, serta data Variant Stores Amazon Omics, dan akses data Katalog AWS Glue dikelola sepenuhnya menggunakan Lake Formation. Akses data Athena, SageMaker Notebook, dan QuickSight dikelola melalui peran IAM yang disediakan.
AWS Glue, Amazon S3, Amazon Omics, dan Athena semuanya nirserver dan akan meningkatkan performa akses data seiring bertambahnya volume data. AWS Glue menyediakan, mengonfigurasi, dan menskalakan sumber daya yang diperlukan untuk menjalankan tugas integrasi data Anda. Athena bersifat nirserver, sehingga Anda dapat dengan cepat melakukan kueri terhadap data tanpa perlu menyiapkan dan mengelola server atau gudang data. Penyimpanan dalam memori QuickSight SPICE akan menskalakan eksplorasi data Anda hingga ribuan pengguna.
Dengan menggunakan teknologi nirserver, Anda hanya menyediakan sumber daya yang benar-benar digunakan. Tiap tugas AWS Glue akan menyediakan klaster Spark sesuai permintaan untuk mentransformasi data dan menghentikan alokasi sumber daya setelah selesai. Jika memilih untuk menambahkan set data TCGA baru, Anda dapat menambahkan tugas AWS Glue dan perayap AWS Glue baru yang juga akan menyediakan sumber daya sesuai permintaan. Athena secara otomatis menjalankan kueri secara paralel, sehingga sebagian besar hasil dapat diperoleh dalam hitungan detik. Amazon Omics mengoptimalkan performa kueri varian dalam skala besar dengan mentransformasi file ke dalam format Apache Parquet.
Dengan menggunakan teknologi nirserver yang dapat diskalakan sesuai permintaan, Anda hanya membayar sumber daya yang digunakan. Untuk lebih mengoptimalkan biaya, Anda dapat menghentikan lingkungan notebook di SageMaker saat tidak digunakan. Dasbor QuickSight juga di-deploy melalui templat CloudFormation terpisah, sehingga jika Anda tidak berencana menggunakan dasbor visualisasi tersebut, Anda dapat memilih untuk tidak men-deploy-nya guna menghemat biaya. Amazon Omics mengoptimalkan biaya penyimpanan data varian dalam skala besar. Biaya kueri ditentukan berdasarkan jumlah data yang dipindai oleh Athena dan dapat dioptimalkan dengan menulis kueri secara tepat.
Dengan memanfaatkan layanan terkelola dan penskalaan dinamis secara luas, Anda meminimalkan dampak lingkungan dari layanan backend. Komponen penting dalam keberlanjutan adalah memaksimalkan pemanfaatan instans server notebook. Anda sebaiknya menghentikan lingkungan notebook saat tidak digunakan.
Pertimbangan Tambahan
Transformasi Data
Arsitektur ini menggunakan AWS Glue untuk proses Extract, Transform, and Load (ETL) yang diperlukan guna menyerap, menyiapkan, serta mengatalogkan set data dalam solusi untuk kebutuhan kueri dan performa. Anda dapat menambahkan Tugas AWS Glue dan Perayap AWS Glue baru untuk menyerap set data dari The Cancer Genome Atlas (TCGA) dan The Cancer Imaging Archive (TCIA) sesuai kebutuhan. Anda juga dapat menambahkan tugas dan perayap baru untuk menyerap, menyiapkan, dan membuat katalog set data milik Anda sendiri.
Analisis Data
Arsitektur ini menggunakan Notebook SageMaker untuk menyediakan lingkungan notebook Jupyter untuk analisis. Anda dapat menambahkan notebook baru ke lingkungan yang ada atau buat lingkungan baru. Jika lebih memilih RStudio daripada notebook Jupyter, Anda dapat menggunakan RStudio di Amazon SageMaker.
Visualisasi Data
Arsitektur ini menggunakan QuickSight untuk menyediakan dasbor interaktif bagi visualisasi dan eksplorasi data. Penyiapan dasbor QuickSight dilakukan melalui templat CloudFormation terpisah, sehingga jika Anda tidak berencana menggunakan dasbor tersebut, Anda tidak perlu menyediakannya. Di QuickSight, Anda dapat membuat analisis sendiri, menjelajahi filter atau visualisasi tambahan, serta membagikan set data dan analisis kepada rekan kerja.
Melakukan deployment dengan percaya diri
Repositori ini membuat lingkungan yang dapat diskalakan di AWS untuk menyiapkan data genomik, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar serta menjalankan kueri interaktif pada danau data. Solusi menunjukkan cara untuk 1) menggunakan Penyimpanan Varian & Penyimpanan Anotasi HealthOmics untuk menyimpan data varian genomik dan data anotasi, 2) menyediakan pipeline penyerapan data nirserver untuk persiapan dan pengatalogan data multimodal, 3) memvisualisasikan dan menjelajahi data klinis melalui antarmuka interaktif, serta 4) menjalankan kueri analitik interaktif pada danau data multimodal menggunakan Amazon Athena dan Amazon SageMaker.
Panduan terperinci disediakan untuk melakukan eksperimen dan penggunaan dalam akun AWS Anda. Setiap tahap dalam membuat Panduan ini, termasuk deployment, penggunaan, dan pembersihan, dibahas guna mempersiapkannya sebelum deployment.
Kode sampel merupakan titik awal. Solusi ini telah tervalidasi di industri, bersifat preskriptif tetapi tidak definitif, serta memberikan gambaran mendalam untuk membantu Anda memulai.
Konten Terkait
Panduan
Panduan untuk Analisis Data Multimodal dengan Layanan AI dan ML Kondisi di AWS
Panduan ini menunjukkan cara menyiapkan kerangka kerja end-to-end untuk menganalisis data layanan kesehatan dan ilmu hayati (HCLS) multimodal.
Kontributor
Penafian
Apakah Anda sudah menemukan yang Anda cari?
Sampaikan masukan Anda agar kami dapat meningkatkan kualitas konten di halaman kami