AWS Solutions Library

AWS Solutions Library›
Guidance for Multi-Omics and Multi-Modal Data Integration and Analysis on AWS(AWS에서 다중 오믹스, 다중 모달 데이터 통합 및 분석을 위한 가이드)

Guidance for Multi-Omics and Multi-Modal Data Integration and Analysis on AWS(AWS에서 다중 오믹스, 다중 모달 데이터 통합 및 분석을 위한 가이드)

가이드 열기

샘플 코드로 이동

개요

이 지침은 사용자가 대규모 분석을 위해 게놈, 임상, 돌연변이, 발현, 이미징 데이터를 준비하고 데이터 레이크에 대해 대화형 쿼리를 수행하는 데 도움이 됩니다. 이 지침에는 코드형 인프라(IaC) 자동화, 신속한 반복을 위한 지속적 통합 및 지속적 배포(CI/CD), 데이터 저장과 변환을 위한 모으기 파이프라인, 대화형 분석을 위한 노트북 및 대시보드가 포함되어 있습니다. 또한 AWS HealthOmics, Amazon Athena, Amazon SageMaker 노트북을 사용하여 유전체 변이 데이터와 유전체 주석 데이터를 저장하고 쿼리하는 방식을 보여줍니다. 이 지침은 Bioteam과 협력하여 작성되었습니다.

작동 방식

아키텍처

데이터 레이크에 대한 대규모 분석 및 쿼리를 위해 게놈, 임상, 돌연변이, 발현 및 이미징 데이터를 준비합니다.

아키텍처 다이어그램 다운로드

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

데이터 레이크에 대한 대규모 분석 및 쿼리를 위해 게놈, 임상, 돌연변이, 발현 및 이미징 데이터를 준비합니다.

아키텍처 다이어그램 다운로드

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Well-Architected 원칙

위의 아키텍처 다이어그램은 Well-Architected 모범 사례를 고려하여 생성된 솔루션의 예시입니다. Well-Architected를 완전히 충족하려면 가능한 많은 Well-Architected 모범 사례를 따라야 합니다.

이 지침에서는 CodeBuild와 CodePipeline을 사용하여 VCF (변이 호출 파일) 를 수집 및 저장하고 TCGA (암 게놈 아틀라스) 및 암 이미징 아틀라스 (TCIA) 에 있는 데이터세트의 멀티모달 및 멀티오믹 데이터를 사용하는 데 필요한 모든 것을 구축, 패키징 및 배포합니다. 완전 관리형 서비스인 Amazon Omics를 사용하여 서버리스 유전체학 데이터 수집 및 분석을 시연합니다. 솔루션 CodeCommit 리포지토리에서 변경한 코드는 제공된 CodePipeline 배포 파이프라인을 통해 배포됩니다.

운영 우수성 백서 읽기

이 지침은 IAM과 함께 역할 기반 액세스를 사용하며, 모든 버킷은 암호화가 활성화되어 있고, 비공개이며, 공개 액세스를 차단합니다. AWS Glue의 데이터 카탈로그에는 암호화가 활성화되어 있으며 AWS Glue에서 Amazon S3에 기록한 모든 메타 데이터가 암호화됩니다. 모든 역할은 최소 권한을 사용하여 정의되고 서비스 간의 모든 통신은 고객 계정 안에 유지됩니다. 관리자는 주피터 노트북, Amazon Omics의 베리언트 스토어의 데이터를 제어할 수 있으며, AWS Glue Catalog 데이터 액세스는 레이크 포메이션을 사용하여 완전히 관리되며, 아테나, 세이지메이커 노트북 및 QuickSight 데이터 액세스는 제공된 IAM 역할을 통해 관리됩니다.

보안 백서 읽기

AWS Glue, Amazon S3, Amazon Omics 및 Athena는 모두 서버리스이며 데이터 볼륨이 증가함에 따라 데이터 액세스 성능을 확장할 수 있습니다. AWS Glue는 데이터 통합 작업을 실행하는 데 필요한 리소스를 프로비저닝, 구성 및 확장합니다. Athena는 서버리스이므로 서버나 데이터 웨어하우스를 설정하고 관리할 필요 없이 데이터를 빠르게 쿼리할 수 있습니다. QuickSight SPICE 인메모리 스토리지는 데이터 탐색을 수천 명의 사용자로 확장합니다.

신뢰성 백서 읽기

서버리스 기술을 사용하면 정확히 사용할 리소스만 프로비저닝할 수 있습니다. 각 AWS Glue 작업은 온디맨드 방식으로 Spark 클러스터를 프로비저닝하여 데이터를 변환하고 완료 시 리소스를 디프로비저닝합니다. 새 TCGA 데이터 세트를 추가하기로 선택한 경우, 온디맨드 리소스를 미리 볼 수 있는 새 AWS Glue 작업과 AWS Glue 크롤러를 추가할 수 있습니다. Athena는 쿼리를 자동으로 병렬로 실행하므로 대부분의 결과가 몇 초 내에 반환됩니다. Amazon Omics는 파일을 Apache Parquet으로 변환하여 대규모 변형 쿼리 성능을 최적화합니다.

성능 효율성 백서 읽기

온디맨드로 조정되는 서버리스 기술을 사용하면 사용한 리소스에 대한 요금만 지불하면 됩니다. 비용을 더욱 최적화하려면 사용하지 않을 때 SageMaker에서 노트북 환경을 중지할 수 있습니다. QuickSight 대시보드도 별도의 CloudFormation 템플릿을 통해 배포되므로 시각화 대시보드를 사용하지 않으려는 경우 배포하지 않도록 선택하여 비용을 절감할 수 있습니다. Amazon Omics는 대규모로 변형 데이터 스토리지 비용을 최적화합니다. 쿼리 비용은 Athena가 스캔한 데이터의 양에 따라 결정되며, 이에 따라 쿼리를 작성하여 최적화할 수 있습니다.

비용 최적화 백서 읽기

관리형 서비스와 동적 크기 조정을 광범위하게 사용하면 백엔드 서비스가 환경에 미치는 영향을 최소화할 수 있습니다. 지속 가능성의 중요한 구성 요소는 노트북 서버 인스턴스의 사용을 최대화하는 것입니다. 사용하지 않을 때는 노트북 환경을 중지해야 합니다.

지속 가능성 백서 읽기

추가 고려 사항

데이터 변환

이 아키텍처는 쿼리 및 성능을 위해 솔루션의 데이터 세트를 수집, 준비 및 카탈로그화하는 데 필요한 ETL (추출, 변환 및 로드) 을 위해 AWS Glue를 선택했습니다. 필요에 따라 새 AWS Glue Jobs와 AWS Glue Crawlers를 추가하여 새로운 암 게놈 아틀라스 (TCGA) 및 암 이미지 아틀라스 (TCIA) 데이터 세트를 수집할 수 있습니다. 또한 새 작업과 크롤러를 추가하여 자체 독점 데이터 세트를 수집하고, 준비하고, 카탈로그화할 수 있습니다.

데이터 분석

이 아키텍처는 분석을 위한 Jupyter 노트북 환경을 제공하기 위해 SageMaker 노트북을 선택했습니다. 사용자는 기존 환경에 새 노트북을 추가하거나 새 환경을 생성할 수 있습니다. 주피터 노트북보다 RStudio를 선호하는 경우 아마존 세이지메이커에서 RStudio를 사용할 수 있습니다.

데이터 시각화

이 아키텍처는 데이터 시각화 및 탐색을 위한 대화형 대시보드를 제공하기 위해 QuickSight를 선택했습니다. QuickSight 대시보드 설정은 별도의 CloudFormation 템플릿을 통해 이루어지므로 대시보드를 사용하지 않으려는 경우 대시보드를 프로비전할 필요가 없습니다. QuickSight에서는 자체 분석을 생성하고, 추가 필터 또는 시각화를 탐색하고, 동료와 데이터 세트 및 분석을 공유할 수 있습니다.

자신감 있게 배포

이 리포지토리는 대규모 분석을 위해 게놈, 임상, 돌연변이, 발현 및 이미징 데이터를 준비하고 데이터 레이크에 대해 대화형 쿼리를 수행할 수 있는 확장 가능한 환경을 AWS에 생성합니다. 이 솔루션은 1) HealthOmic의 Variant Store 및 Annotation Store를 사용하여 유전체 변이 데이터 및 주석 데이터를 저장하고, 2) 다중 모드 데이터 준비 및 카탈로그 작성을 위한 서버리스 데이터 수집 파이프라인을 제공하고, 3) 대화형 인터페이스를 통해 임상 데이터를 시각화하고 탐색하고, 4) Amazon Athena와 Amazon SageMaker를 사용하여 다중 모드 데이터 레이크에 대해 대화형 분석 쿼리를 실행하는 방법을 보여줍니다.

실험 및 사용을 위한 자세한 안내는 AWS 계정 내에서 제공됩니다. 배포, 사용, 정리를 포함한 지침 구축의 각 단계는 검토되어 배포를 위해 준비됩니다.

구현 가이드 열기

시작점으로서 샘플 코드를 제공합니다. 이 샘플 코드는 업계에서 검증되었고 규범적이지만 최종적인 것은 아니며, 시작하는 데 도움을 줄 것입니다.

AWS 콘솔에 샘플 코드 배포

GitHub에서 샘플 코드 열기

기고자

BioTeam은 데이터 활용에 대한 과학계의 요구 사항과 실제 가능한 작업 간의 격차를 줄여 과학적 발견을 가속화하는 데 전념하는 생명 과학 IT 컨설팅 회사입니다. 2002년부터 과학, 데이터 및 기술의 교차점에서 업계를 지원해 온 BioTeam은 학제간 기능을 통해 전략, 고급 기술 및 IT 서비스를 적용함으로써 가장 까다로운 연구, 기술 및 운영 문제를 해결합니다. 과학적 니즈를 강력한 과학적 데이터 에코시스템으로 바꾸는 데 능숙하며 생명 공학 스타트업부터 최대 규모의 글로벌 제약 회사와 연방 정부 기관부터 학계 연구 기관에 이르는, 생명 과학 연구 분야의 광범위한 리더와 파트너를 맺을 수 있는 역량을 가지고 있습니다.

자세히 알아보기

고지 사항

샘플 코드, 소프트웨어 라이브러리, 명령줄 도구, 개념 증명, 템플릿 또는 기타 관련 기술(AWS 직원을 통해 제공되는 상기 항목 포함)은 AWS 이용 계약 또는 귀하와 AWS 간의 서면 계약(둘 중 해당되는 것)에 따라 AWS 콘텐츠로 제공됩니다. 이 AWS 콘텐츠를 프로덕션 계정, 프로덕션 또는 기타 중요한 데이터에 사용해서는 안 됩니다. 귀하는 특정 품질 제어 방식 및 표준에 따라 프로덕션급 사용에 적절하게 샘플 코드와 같은 AWS 콘텐츠를 테스트, 보호 및 최적화할 책임이 있습니다. AWS 콘텐츠를 배포하면 Amazon EC2 인스턴스를 실행하거나 Amazon S3 스토리지를 사용할 때와 같이 요금이 부과되는 AWS 리소스를 생성하거나 사용하는 것에 대한 AWS 요금이 발생할 수 있습니다.

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주세요.