Amazon Web Services 한국 블로그
Amazon SageMaker 향상된 카탈로그 기능을 통해 데이터 인사이트 도출 프로세스 간소화
현대적 조직들은 구조화된 데이터베이스, 비정형 파일, 서로 단절된 시각화 도구 등 서로 연결되지 않은 여러 시스템에서 데이터를 관리하며, 이는 분석 워크플로의 지연을 유발하고 인사이트 생성을 제한하는 장애물이 됩니다. 서로 단절된 여러 시각화 플랫폼은 팀이 포괄적인 비즈니스 인사이트를 추출하는 데 방해가 되는 장벽이 되는 경우가 많습니다.
이러한 단절된 워크플로는 조직이 데이터 투자를 극대화하지 못하게 하여, 의사 결정의 지연을 유발하고 여러 데이터 유형을 결합하는 포괄적인 분석 기회를 놓치게 만듭니다.
오늘부터 Amazon SageMaker의 세 가지 새로운 기능을 사용하여 원시 데이터에서 유용한 인사이트를 도출하는 프로세스를 가속화할 수 있습니다.
- Amazon QuickSight 통합 – Amazon SageMaker Unified Studio에서 직접 Amazon QuickSight를 실행하여 프로젝트 데이터를 사용한 대시보드를 구축한 다음, 이를 Amazon SageMaker Catalog에 게시하여 조직 전반에서 보다 광범위하게 검색하고 공유합니다.
- Amazon SageMaker의 SageMaker Catalog에 Amazon S3 범용 버킷 및 Amazon S3 Access Grants에 대한 지원 추가 – 팀이 Amazon S3 Access Grants를 사용하여 액세스를 세부적으로 제어할 수 있도록 하면서, 비정형 데이터를 비롯하여 Amazon S3 범용 버킷에 저장된 모든 유형의 데이터를 보다 쉽게 찾고 액세스하고 협업에 사용할 수 있도록 합니다.
- 수동 설정 없이, 레이크하우스에서 데이터를 자동으로 온보딩 – 레이크하우스 아키텍처의 기존 AWS Glue Data Catalog(GDC) 데이터세트를 SageMaker Catalog에 자동으로 온보딩합니다.
이 새로운 SageMaker 기능은 통합되고 통제되는 환경 내에서 전체 데이터 수명 주기를 지원합니다. 레이크하우스의 기존 정형 데이터를 자동으로 온보딩하고, Amazon S3의 비정형 데이터 콘텐츠를 원활하게 카탈로그화하고, QuickSight를 통해 간소화된 시각화 기능을 이용할 수 있으며, 일관된 거버넌스와 액세스 제어가 유지됩니다.
각 기능을 자세히 살펴보겠습니다.
Amazon SageMaker와 Amazon QuickSight의 통합
이 통합 기능은 Amazon QuickSight에서 Amazon SageMaker 프로젝트의 데이터를 사용하여 대시보드를 구축할 수 있게 합니다. Amazon SageMaker Unified Studio에서 QuickSight를 실행하면 Amazon SageMaker가 자동으로 QuickSight 데이터세트를 생성하여 프로젝트 팀원만 액세스할 수 있는 보안 폴더에 구성합니다.
또한 구축한 대시보드가 이 폴더 내에 유지되고 SageMaker 프로젝트의 자산으로 자동으로 표시되므로, 여기서 대시보드를 SageMaker Catalog에 게시하고 기업 디렉터리의 사용자 또는 그룹과 공유할 수 있습니다. 따라서, SageMaker Unified Studio 내에서 대시보드를 체계적으로 구성하고 검색하고 관리할 수 있습니다.
이 통합 기능을 사용하려면 동일한 IAM ID Center 인스턴스를 사용하여 Amazon SageMaker Unified Studio 도메인과 QuickSight 계정을 모두 AWS IAM Identity Center와 통합해야 합니다. 아울러, QuickSight 계정이 QuickSight 블루프린트를 활성화하려는 계정과 동일한 AWS 계정에 있어야 합니다. 설명서 페이지에서 사전 요구 사항에 대해 자세히 알아볼 수 있습니다.
이러한 사전 요구 사항이 충족되면 Amazon SageMaker 콘솔로 이동하고 블루프린트 탭을 선택하여 Amazon QuickSight에 대해 블루프린트를 활성화할 수 있습니다. 그런 다음 Amazon QuickSight를 찾고 지침을 따릅니다.
또한 블루프린트 배포 설정 추가에서 Amazon QuickSight를 포함하도록 SQL 분석 프로젝트 프로필을 구성해야 합니다.
온보딩 설정에 대해 자세히 알아보려면 설명서 페이지를 참조하세요.
그런 다음 새 프로젝트를 생성할 때 SQL 분석 프로필을 사용해야 합니다.
프로젝트가 생성되면 QuickSight로 시각화 구축을 시작할 수 있습니다. 데이터 탭으로 이동하여 시각화할 테이블 또는 보기를 선택하고 작업에서 QuickSight에서 열기를 선택할 수 있습니다.
그러면 Amazon QuickSight 트랜잭션 데이터세트 페이지로 리디렉션되고, 분석에 사용을 선택하여 데이터 탐색을 시작할 수 있습니다.
QuickSight 블루프린트로 프로젝트를 생성하면, SageMaker Unified Studio가 프로젝트별로 제한된 QuickSight 폴더를 자동으로 프로비저닝합니다. SageMaker는 이 폴더로 분석, 데이터세트 및 대시보드와 같은 모든 새로운 자산의 범위를 한정합니다. 이 통합 기능은 QuickSight 폴더 액세스 권한을 프로젝트 멤버십과 연계하여 실시간 폴더 권한 동기화를 유지합니다.
Amazon Simple Storage Service(Amazon S3) 범용 버킷 통합
오늘부터 SageMaker는 SageMaker Catalog에 S3 범용 버킷에 대한 지원 기능을 추가하여, 검색 기능을 개선하고 S3 Access Grants를 통해 세분화된 권한을 허용함으로써 사용자가 권한의 공유와 관리를 비롯한 데이터 관리 작업을 수행할 수 있도록 합니다. 이제 데이터 사이언티스트, 엔지니어, 비즈니스 분석가 등의 데이터 소비자가 SageMaker Catalog를 통해 S3 자산을 검색하고 액세스할 수 있습니다. 또한 이 확장 기능은 데이터 생산자가 단일 인터페이스를 통해 모든 S3 데이터 자산에 대한 보안 통제를 관리할 수 있게 해줍니다.
이 통합 기능을 사용하려면 적절한 S3 범용 버킷 권한이 필요하며, 데이터가 포함된 S3 버킷에 SageMaker Unified Studio 프로젝트가 액세스할 수 있어야 합니다. Amazon SageMaker Unified Studio의 Amazon S3 데이터 설명서 페이지에서 사전 요구 사항에 대해 자세히 알아보세요.
기존 S3 버킷에 연결을 추가할 수 있습니다.
버킷이 연결되면 버킷 또는 폴더를 선택하고 Catalog에 게시를 선택하여, 액세스 가능한 폴더를 탐색하고 검색 가능한 자산을 생성할 수 있습니다.
이 작업을 실행하면 ‘S3 객체 컬렉션’ 유형의 SageMaker Catalog 자산이 생성되고, 사용자가 비즈니스 컨텍스트를 보강하여 검색 및 검색 가능성을 개선할 수 있는 자산 세부 정보 페이지가 열립니다. 게시되고 나면 데이터 소비자가 해당 카탈로그 자산을 검색하고 구독할 수 있습니다. 데이터 소비자가 ‘S3 객체 컬렉션’ 자산을 구독하면, 승인 시에 SageMaker Catalog가 S3 Access Grants를 사용하여 액세스 권한을 자동으로 부여하므로, 적절한 사용자에게만 적절한 액세스 권한이 부여되도록 하면서 팀 간 협업이 가능해집니다.
이제 액세스 권한이 있으면 Amazon SageMaker Jupyter 노트북에서 비정형 데이터를 처리할 수 있습니다. 다음 스크린샷은 의료 사용 사례에서 영상을 처리하는 예입니다.
정형 데이터가 있는 경우 Amazon Athena를 사용하여 데이터를 쿼리하거나 노트북에서 Spark를 사용하여 데이터를 처리할 수 있습니다.
S3 Access Grants를 통해 이러한 액세스 권한이 부여되면 S3 데이터를 내 워크플로에 원활하게 통합하여, 노트북에서 분석하고 레이크하우스 및 Amazon Redshift의 정형 데이터와 결합하여 포괄적인 분석을 수행하는 등의 작업을 수행할 수 있습니다. JupyterLab 노트북의 문서, 이미지와 같은 비정형 데이터에 액세스하여 ML 모델을 훈련하거나 쿼리 가능한 인사이트를 생성할 수 있습니다.
레이크하우스에서 자동으로 데이터를 온보딩
이 통합 기능은 모든 레이크하우스 데이터세트를 SageMaker Catalog에 자동으로 온보딩합니다. AWS Glue Data Catalog(GDC) 데이터세트를 SageMaker Catalog로 가져와 수동 설정 없이 중앙 집중식으로 카탈로깅, 공유 및 관리할 수 있다는 것이 큰 이점입니다.
이 통합 기능을 사용하려면 정형 데이터세트가 포함된 Data Catalog가 설치되어 있는 기존 레이크하우스 환경이 필요합니다.
SageMaker 도메인을 설정할 때 SageMaker Catalog가 모든 레이크하우스 데이터베이스 및 테이블에서 메타데이터를 자동으로 수집합니다. 따라서 별도의 구성 없이도 SageMaker Unified Studio 내에서 이러한 데이터세트를 즉시 탐색하고 사용할 수 있습니다.
이 통합 기능은 SageMaker Unified Studio 내에서 이러한 자산을 관리, 통제, 사용하고 다른 데이터 유형에 사용 가능한 것과 동일한 거버넌스 정책 및 액세스 제어를 적용하면서 기술 및 비즈니스 메타데이터를 통합할 수 있도록 지원합니다.
추가 정보
몇 가지 주요 사항을 알려드립니다.
- 가용성 – 이러한 통합 기능은 Amazon SageMaker를 지원하는 모든 상용 AWS 리전에서 사용할 수 있습니다.
- 요금 – 표준 SageMaker Unified Studio, QuickSight 및 Amazon S3 요금이 적용됩니다. 통합 기능 자체에는 추가 요금이 부과되지 않습니다.
- 설명서 – SageMaker Unified Studio 설명서에서 모든 설정 가이드를 참조할 수 있습니다.
Amazon SageMaker Unified Studio 콘솔을 통해 이 새로운 통합 기능을 사용해 보세요.
즐겁게 빌드해 보세요!
– Donnie