- AWS Solutions Library›
- Guidance for Multi-Omics and Multi-Modal Data Integration and Analysis on AWS(AWS에서 다중 오믹스, 다중 모달 데이터 통합 및 분석을 위한 가이드)
개요
작동 방식
Well-Architected 원칙
위의 아키텍처 다이어그램은 Well-Architected 모범 사례를 고려하여 생성된 솔루션의 예시입니다. Well-Architected를 완전히 충족하려면 가능한 많은 Well-Architected 모범 사례를 따라야 합니다.
이 지침에서는 CodeBuild와 CodePipeline을 사용하여 VCF (변이 호출 파일) 를 수집 및 저장하고 TCGA (암 게놈 아틀라스) 및 암 이미징 아틀라스 (TCIA) 에 있는 데이터세트의 멀티모달 및 멀티오믹 데이터를 사용하는 데 필요한 모든 것을 구축, 패키징 및 배포합니다. 완전 관리형 서비스인 Amazon Omics를 사용하여 서버리스 유전체학 데이터 수집 및 분석을 시연합니다. 솔루션 CodeCommit 리포지토리에서 변경한 코드는 제공된 CodePipeline 배포 파이프라인을 통해 배포됩니다.
이 지침은 IAM과 함께 역할 기반 액세스를 사용하며, 모든 버킷은 암호화가 활성화되어 있고, 비공개이며, 공개 액세스를 차단합니다. AWS Glue의 데이터 카탈로그에는 암호화가 활성화되어 있으며 AWS Glue에서 Amazon S3에 기록한 모든 메타 데이터가 암호화됩니다. 모든 역할은 최소 권한을 사용하여 정의되고 서비스 간의 모든 통신은 고객 계정 안에 유지됩니다. 관리자는 주피터 노트북, Amazon Omics의 베리언트 스토어의 데이터를 제어할 수 있으며, AWS Glue Catalog 데이터 액세스는 레이크 포메이션을 사용하여 완전히 관리되며, 아테나, 세이지메이커 노트북 및 QuickSight 데이터 액세스는 제공된 IAM 역할을 통해 관리됩니다.
AWS Glue, Amazon S3, Amazon Omics 및 Athena는 모두 서버리스이며 데이터 볼륨이 증가함에 따라 데이터 액세스 성능을 확장할 수 있습니다. AWS Glue는 데이터 통합 작업을 실행하는 데 필요한 리소스를 프로비저닝, 구성 및 확장합니다. Athena는 서버리스이므로 서버나 데이터 웨어하우스를 설정하고 관리할 필요 없이 데이터를 빠르게 쿼리할 수 있습니다. QuickSight SPICE 인메모리 스토리지는 데이터 탐색을 수천 명의 사용자로 확장합니다.
서버리스 기술을 사용하면 정확히 사용할 리소스만 프로비저닝할 수 있습니다. 각 AWS Glue 작업은 온디맨드 방식으로 Spark 클러스터를 프로비저닝하여 데이터를 변환하고 완료 시 리소스를 디프로비저닝합니다. 새 TCGA 데이터 세트를 추가하기로 선택한 경우, 온디맨드 리소스를 미리 볼 수 있는 새 AWS Glue 작업과 AWS Glue 크롤러를 추가할 수 있습니다. Athena는 쿼리를 자동으로 병렬로 실행하므로 대부분의 결과가 몇 초 내에 반환됩니다. Amazon Omics는 파일을 Apache Parquet으로 변환하여 대규모 변형 쿼리 성능을 최적화합니다.
온디맨드로 조정되는 서버리스 기술을 사용하면 사용한 리소스에 대한 요금만 지불하면 됩니다. 비용을 더욱 최적화하려면 사용하지 않을 때 SageMaker에서 노트북 환경을 중지할 수 있습니다. QuickSight 대시보드도 별도의 CloudFormation 템플릿을 통해 배포되므로 시각화 대시보드를 사용하지 않으려는 경우 배포하지 않도록 선택하여 비용을 절감할 수 있습니다. Amazon Omics는 대규모로 변형 데이터 스토리지 비용을 최적화합니다. 쿼리 비용은 Athena가 스캔한 데이터의 양에 따라 결정되며, 이에 따라 쿼리를 작성하여 최적화할 수 있습니다.
관리형 서비스와 동적 크기 조정을 광범위하게 사용하면 백엔드 서비스가 환경에 미치는 영향을 최소화할 수 있습니다. 지속 가능성의 중요한 구성 요소는 노트북 서버 인스턴스의 사용을 최대화하는 것입니다. 사용하지 않을 때는 노트북 환경을 중지해야 합니다.
추가 고려 사항
데이터 변환
이 아키텍처는 쿼리 및 성능을 위해 솔루션의 데이터 세트를 수집, 준비 및 카탈로그화하는 데 필요한 ETL (추출, 변환 및 로드) 을 위해 AWS Glue를 선택했습니다. 필요에 따라 새 AWS Glue Jobs와 AWS Glue Crawlers를 추가하여 새로운 암 게놈 아틀라스 (TCGA) 및 암 이미지 아틀라스 (TCIA) 데이터 세트를 수집할 수 있습니다. 또한 새 작업과 크롤러를 추가하여 자체 독점 데이터 세트를 수집하고, 준비하고, 카탈로그화할 수 있습니다.
데이터 분석
이 아키텍처는 분석을 위한 Jupyter 노트북 환경을 제공하기 위해 SageMaker 노트북을 선택했습니다. 사용자는 기존 환경에 새 노트북을 추가하거나 새 환경을 생성할 수 있습니다. 주피터 노트북보다 RStudio를 선호하는 경우 아마존 세이지메이커에서 RStudio를 사용할 수 있습니다.
데이터 시각화
이 아키텍처는 데이터 시각화 및 탐색을 위한 대화형 대시보드를 제공하기 위해 QuickSight를 선택했습니다. QuickSight 대시보드 설정은 별도의 CloudFormation 템플릿을 통해 이루어지므로 대시보드를 사용하지 않으려는 경우 대시보드를 프로비전할 필요가 없습니다. QuickSight에서는 자체 분석을 생성하고, 추가 필터 또는 시각화를 탐색하고, 동료와 데이터 세트 및 분석을 공유할 수 있습니다.
자신감 있게 배포
이 리포지토리는 대규모 분석을 위해 게놈, 임상, 돌연변이, 발현 및 이미징 데이터를 준비하고 데이터 레이크에 대해 대화형 쿼리를 수행할 수 있는 확장 가능한 환경을 AWS에 생성합니다. 이 솔루션은 1) HealthOmic의 Variant Store 및 Annotation Store를 사용하여 유전체 변이 데이터 및 주석 데이터를 저장하고, 2) 다중 모드 데이터 준비 및 카탈로그 작성을 위한 서버리스 데이터 수집 파이프라인을 제공하고, 3) 대화형 인터페이스를 통해 임상 데이터를 시각화하고 탐색하고, 4) Amazon Athena와 Amazon SageMaker를 사용하여 다중 모드 데이터 레이크에 대해 대화형 분석 쿼리를 실행하는 방법을 보여줍니다.
실험 및 사용을 위한 자세한 안내는 AWS 계정 내에서 제공됩니다. 배포, 사용, 정리를 포함한 지침 구축의 각 단계는 검토되어 배포를 위해 준비됩니다.
시작점으로서 샘플 코드를 제공합니다. 이 샘플 코드는 업계에서 검증되었고 규범적이지만 최종적인 것은 아니며, 시작하는 데 도움을 줄 것입니다.
관련 콘텐츠
가이드
Guidance for Multi-Modal Data Analysis with Health AI and ML Services on AWS(AWS에서 Health AI와 기계 학습 서비스를 통해 다중 모달 데이터 분석을 위한 지침)
이 지침은 복합 의료 및 생명 과학(HCLS) 데이터를 분석하기 위한 종합적인 프레임워크를 설정하는 방법을 보여줍니다.
기고자
고지 사항
오늘 원하는 내용을 찾으셨나요?
페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주세요.