데이터 통합 플랫폼이란 무엇인가요?

현대의 조직은 수십 개에서 수천 개에 이르는 시스템과 형식에 걸쳐 데이터를 생성하고 활용합니다. 데이터 통합이란 각기 다른 시스템과 형식의 데이터를 결합하고 이를 정규화하여 데이터의 활용 가치를 높이는 과정을 의미합니다. 통합된 데이터를 사용하면 의사결정 지원과 보고를 위해 모든 데이터가 통합된 단일 보기에 액세스할 수 있고, 나아가 데이터를 분석함으로써 더 정확하고 충분한 정보에 기반한 의사결정을 내릴 수 있습니다.

기업은 비즈니스 분석을 지원하고, 기계 학습 모델을 맞춤화하며, 기타 엔터프라이즈 애플리케이션과 비즈니스 프로세스를 운영하기 위해 통합된 데이터가 필요합니다. 데이터 통합은 원시 데이터를 수집, 변환 및 통합하는 과정을 포함하며, 이를 통해 비즈니스는 결합된 데이터가 제공하는 이점을 누릴 수 있습니다. 예를 들어, 은행의 경우 거래 내역, 계좌의 수와 유형, 고객 서비스 기록과 관련된 데이터는 고객 데이터에 대한 통합된 보기를 생성하는 데 도움이 됩니다.

데이터 통합 프로세스란 무엇인가요?

조직은 데이터 통합이 워크플로의 생산성을 높인다는 이점을 인식하고 있습니다. 데이터 통합 프로세스를 정의하면 조직이 보다 신뢰할 수 있고 반복 가능한 결과를 도출하는 데 도움이 됩니다.

1. 다양한 데이터 소스 식별

자동 또는 수동으로 통합해야 할 여러 데이터 소스를 식별하세요. 조직은 다양한 유형의 시스템과 데이터 형식에 걸쳐 데이터를 생성하고 저장합니다. 예를 들어, 조직은 여러 종류의 SQL 데이터베이스, 메모리 캐시, 문서 저장소를 사용할 수 있습니다. 또한 조직 내 애플리케이션은 외부에서 데이터에 쉽게 액세스할 수 없는 독점 형식으로 데이터를 저장할 수도 있습니다.

2. 통합 전략 결정

관련 데이터 스토리지와 형식을 조직의 요구 사항과 함께 검토하여, 데이터를 추출하고 정규화된 형식으로 변환하는 최적의 방법을 결정하세요. 다음은 일반적으로 사용되는 데이터 통합 전략입니다.

추출, 변환, 로드(ETL) 패턴은 현재 시스템에서 데이터를 추출한 뒤 변환하고, 이를 대상 시스템에 로드하는 방식입니다. ETL은 데이터 웨어하우스 스토리지에서 일반적으로 사용되는 패턴입니다.
추출, 로드, 변환(ELT) 패턴은 현재 시스템에서 데이터를 추출하고 대상 시스템에 로드한 뒤 변환하는 방식입니다. ELT는 분석이 필요해질 때까지 데이터를 비정형 형태로 유지할 수 있도록 해주며, 데이터 레이크 스토리지에서 일반적으로 사용되는 패턴입니다.
실시간 스트리밍 수집은 스트림으로부터 데이터를 캡처하고, 준실시간 데이터 통합을 위해 데이터 수집을 수행하는 방식입니다.
변경 데이터 캡처(CDC)는 데이터의 변경 사항을 감지하고, 이러한 변경 사항을 이벤트 스트림으로 게시하여 데이터 수집에 활용하는 프로세스입니다.

이 단계에서는 또한 데이터 웨어하우스나 데이터 레이크와 같은 대상 스토리지 시스템 또는 데이터 리포지토리를 결정해야 합니다.

3. 스키마 설계

데이터의 최종 상태에 대한 데이터 스키마 또는 스키마 없는 스토리지 유형의 개요를 정의하세요. 스키마는 확장 가능하고 버전 관리가 가능해야 하며, 엔터프라이즈 데이터 스토리지의 요구 사항에 부합해야 합니다. 또한 새로운 스키마는 데이터 품질과 데이터 정확성을 유지해야 하며, 이에 상응하는 데이터 거버넌스 규칙을 향후 통합을 위해 포함해야 합니다.

4. 데이터 추출

비즈니스 운영에 대한 영향을 최소화할 수 있도록 데이터 추출에 가장 적합한 방법을 결정하세요. 예를 들어, 많은 조직은 실시간이 아닌 데이터를 통합하기 위해 매일 업무 종료 후 배치를 추출합니다. 또한 조직은 독점 애플리케이션 통합을 위해 API를 사용해 데이터를 추출해야 할 수도 있으며, Amazon AppFlow와 같은 서비스를 활용해 서비스형 소프트웨어(SaaS) 애플리케이션과 클라우드 간에 데이터를 전송할 수도 있습니다.

5. 데이터를 중앙 저장소로 이동

데이터를 중앙 저장소로 전송하세요. 경우에 따라 데이터 소스와 대상이 서로 다른 위치에 있을 수 있습니다. 예를 들어 온프레미스 환경에서 클라우드로 데이터를 이동하는 상황이 이에 해당합니다. 데이터 이동 시 추가적인 보안 조치, 추가 대역폭 또는 데이터 레지던시를 고려해야 할 수 있습니다.

6. 데이터 변환

데이터를 중앙 저장소에서 최종 형태로 변환해야 할 수도 있습니다. 변환된 데이터는 단순한 형식 변경에 그치지 않을 수 있으며, 예를 들어 여러 데이터 포인트로부터 평균을 계산하는 경우가 이에 해당합니다.

서버리스 데이터 통합이란 무엇인가요?

비즈니스는 데이터 워크플로를 온프레미스 인프라에서 현대적인 클라우드 데이터 플랫폼으로 전환하고 있습니다. 클라우드 아키텍처는 물리적 하드웨어 제약을 극복하는 데 도움이 되고, 비즈니스 인텔리전스와 AI와 같은 통합 가능한 고급 클라우드 데이터 분석 서비스를 제공합니다.

서버리스는 완전한 탄력성과 내결함성을 갖춘 클라우드 서비스를 제공하면서 서버 프로비저닝의 복잡성을 제거하는 클라우드 컴퓨팅 개념입니다. 기존에는 데이터 파이프라인을 구축할 때 데이터 수집, 변환 및 조작을 위해 서버를 프로비저닝하고 유지 관리하며 서비스를 코딩해야 했습니다. 서버리스 데이터 통합 제품을 사용하면 관리 부담 없이 완전한 확장성을 확보할 수 있습니다. 작업은 완료될 때까지 실행되며, 이후에는 다음에 필요해질 때까지 서비스가 다시 비활성 상태로 전환됩니다.

서버리스는 온디맨드 데이터 통합 작업에 유용하며, 기업은 사용량 기반 요금 모델을 통해 인프라 비용을 절감할 수 있습니다.

예를 들어, AWS Glue는 서버리스 데이터 통합 솔루션입니다. AWS Glue를 사용하면 100개가 넘는 다양한 데이터 소스를 탐색하고 연결할 수 있으며, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하고, 데이터 레이크, 데이터 웨어하우스 및 레이크하우스로 데이터를 로드하기 위한 데이터 파이프라인을 시각적으로 생성, 실행 및 모니터링할 수 있습니다.

또한 AWS Glue에서는 워크로드의 특성과 개발자 및 분석가의 선호도에 따라 워크로드에 적합한 데이터 통합 엔진을 사용할 수 있습니다. AWS Glue 작업은 일정에 따라, 온디맨드로 또는 이벤트를 기반으로 간접적으로 호출할 수 있습니다.

AWS Glue를 사용한 서버리스 ETL 데이터 통합

AWS Glue를 사용하려면 먼저 AWS Glue Studio 콘솔을 시작하세요. AWS Glue를 사용하기 전에 콘솔에서 필요한 IAM 정책과 역할을 설정해야 합니다.

1단계 - AWS Glue Data Catalog에 테이블 정의 추가

Data Catalog로 이동합니다. 크롤러를 사용하여 테이블 추가를 선택하고, 스키마와 메타데이터에 대한 데이터 매핑을 제공하기 위해 크롤링할 원본 데이터 저장소를 선택하여 Data Catalog에 데이터 정의와 테이블을 생성합니다.

2단계 - 변환 작업 정의

탐색 창에서 ETL 작업을 선택한 다음 Visual ETL을 사용하여 작업 생성을 선택합니다. 시각적 편집기에서 데이터 소스 노드와 데이터 대상 노드를 추가하고 데이터를 구성합니다. Glue Studio는 스크립트 탭에서 소스 테이블의 데이터를 대상 테이블의 스키마로 변환하는 코드를 생성합니다.

3단계 - AWS Glue 작업 실행

작업 세부 정보 탭에서 데이터 거버넌스 도구를 사용하여 작업을 실행하는 데 필요한 파라미터를 설정할 수 있습니다. 파라미터를 구성한 후 저장을 선택한 다음, 실행을 선택하여 변환 및 통합을 위한 데이터 프로세스를 시작합니다.

4단계 - 결과 확인

비주얼 탭에서 대상 노드를 선택하여 데이터 미리보기를 살펴보고, 노드에 정확한 데이터가 포함되어 있는지 확인합니다.

자세한 내용은 AWS Glue: 사용 설명서를 참조하세요.

제로 ETL 통합이란 무엇인가요?

제로 ETL은 ETL 데이터 파이프라인을 구축할 필요성을 최소화하는 통합의 집합입니다. 일반적으로 데이터 소스에서 대상으로 데이터를 전송할 때는 ETL 파이프라인을 생성하고, 구성하고, 실행해야 합니다. 하지만 제로 ETL 데이터 통합 방식에서는 ETL 프로세스가 소프트웨어 프로세스 내부에 자동화되어 있으며, 사용자에게 보이지 않게 처리됩니다.

소스에서 대상으로 데이터를 최초 한 번 로드한 이후에는 소스 데이터가 업데이트될 때마다 추가적인 데이터 복제가 자동으로 수행됩니다. 이러한 제로 ETL 프로세스를 통해 준실시간 분석 파이프라인을 구현할 수 있습니다.

AWS는 제로 ETL을 지원하는 여러 서비스를 제공하고 있으며, 여기에는 Amazon Redshift, Amazon RDS for MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake, Amazon Aurora가 포함됩니다.

Amazon Redshift 및 Amazon Aurora를 활용한 제로 ETL 통합

Amazon Redshift는 비즈니스가 분석 워크로드를 비용 효율적으로 확장할 수 있도록 지원하는 클라우드 데이터 웨어하우스입니다. 한편, Amazon Aurora는 MySQL 및 PostgreSQL과 호환되는 고성능 관계형 데이터베이스입니다.

1단계 - 통합 소스 구성

Amazon Aurora 데이터베이스가 Amazon Redshift와의 제로 ETL 통합을 지원하는지 확인합니다. 본 문서 작성 시점을 기준으로 Amazon Redshift는 다음과 같은 Amazon Aurora와의 제로 ETL 통합을 지원합니다.

Amazon Aurora MySQL
Amazon Aurora PostgreSQL

Aurora에서 바이너리 로깅을 구성하여 복제를 위한 데이터 변경 사항이 캡처되도록 합니다. 저장된 데이터 및 전송 중인 데이터에 대한 암호화 옵션을 선택하여 보안 요구 사항을 충족합니다. 마지막으로, Amazon Redshift와의 통합을 위한 권한을 부여하기 위해 필요한 IAM 정책과 역할을 설정합니다.

Amazon Redshift는 또한 Amazon RDS for MySQL, Amazon DynamoDB, 그리고 Salesforce, SAP, ServiceNow, Zendesk와 같은 애플리케이션과의 제로 ETL 통합도 지원합니다.

2단계 - 대상 구성

아직 Redshift 클러스터가 없다면, 적절한 스토리지 및 컴퓨팅 구성을 갖춘 새 Redshift 클러스터를 실행합니다. Amazon Redshift 클러스터에 필요한 네트워크 액세스 권한과 암호화 설정이 구성되어 있는지 확인합니다. Aurora와 Redshift 간의 연결이 가능하도록 보안 그룹과 VPC 설정을 수정합니다.

3단계 - 통합 검증

Amazon Redshift는 Amazon Aurora의 데이터를 전부 한 번에 로드합니다. 이후에는 소스를 자동으로 모니터링하여 업데이트된 데이터를 실시간으로 복제합니다. Amazon Redshift에서 쿼리를 실행하여 데이터가 소스와 일치하는지 확인할 수 있습니다.

AWS가 데이터 통합 요구 사항을 어떻게 지원할 수 있나요?

데이터 통합은 여러 데이터 소스로부터 데이터를 결합하여 시각화와 고급 분석에 활용할 수 있도록 함으로써, 비즈니스가 데이터에 대한 전체적인 관점을 확보하는 데 핵심적인 역할을 합니다. 하지만 비정형, 반정형 및 정형 데이터 소스가 계속 증가함에 따라 복잡한 통합 파이프라인을 관리하는 일은 쉽지 않습니다. 클라우드 데이터 통합은 서버리스 및 제로 ETL과 같은 혁신적인 데이터 통합 도구와 서비스를 통해 데이터 관리 워크플로를 간소화하는 데 도움이 됩니다. 여기에서 현대적인 데이터 통합 요구 사항을 충족하는 AWS 서비스를 살펴보세요.

데이터 통합 플랫폼이란 무엇인가요?

페이지 주제