- Amazon Kinesis›
- Data Streams›
- 시작하기
Amazon Kinesis Data Streams 시작하기
시작하기
Amazon Kinesis Data Streams는 스트리밍 데이터에 최적화된, 고도의 확장성과 내구성을 갖춘 데이터 수집 및 처리 서비스입니다. 수십만 개의 데이터 생산자를 구성하여 Kinesis 데이터 스트림으로 계속 데이터를 보낼 수 있습니다. Amazon Kinesis 애플리케이션에서 몇 밀리초 이내에 데이터를 사용할 수 있으며, 해당 애플리케이션은 생성된 순서대로 데이터 레코드를 수신합니다.
Amazon Kinesis Data Streams는 스트리밍 데이터를 거의 실시간으로 변환하여 Amazon S3 같은 AWS 데이터 레이크로 전송하기 위한 Amazon Kinesis Data Firehose, 관리형 스트림 처리를 위한 Amazon Managed Service for Apache Flink, 이벤트 또는 레코드 처리를 위한 AWS Lambda, 프라이빗 연결을 위한 AWS PrivateLink, 지표 및 로그 처리를 위한 Amazon CloudWatch, 서버 측 암호화를 위한 AWS KMS 등 다양한 AWS 서비스와 통합됩니다.
Amazon Kinesis Data Streams는 빅 데이터 솔루션의 게이트웨이로 사용됩니다. 다양한 소스에서 데이터가 Amazon Kinesis 스트림에 추가되고, 이러한 스트림의 데이터가 다양한 Amazon Kinesis 애플리케이션에서 사용됩니다. 이 예에서는 한 애플리케이션(노란색)이 스트리밍 데이터에 대해 실시간 대시보드를 실행하고 있습니다. 또 다른 애플리케이션(빨간색)은 간단한 집계를 수행하고 처리한 데이터를 Amazon S3로 내보냅니다. S3의 데이터는 추가적인 처리 과정을 거친 후 복잡한 분석을 위해 Amazon Redshift에 저장됩니다. 세 번째 애플리케이션(녹색)은 Amazon S3로 원시 데이터를 내보내고, 이 데이터는 좀 더 저렴한 장기 저장을 위해 Amazon Glacier에 아카이빙됩니다. 이러한 세 가지 유형의 데이터 처리 파이프라인은 모두 동시에 병렬로 진행됩니다.
Amazon Kinesis Data Streams 시작하기
동영상
Kinesis Data Streams 사용
Amazon Web Services에 가입하고 다음을 수행하면 Amazon Kinesis Data Streams를 사용할 수 있습니다.
- 아마존 키네시스 관리 콘솔 또는 아마존 키네시스 CreateStream API를 통해 아마존 키네시스 데이터 스트림을 생성합니다.
- Amazon Kinesis 데이터 스트림에 지속적으로 데이터를 추가하도록 데이터 생산자를 구성합니다.
- Amazon Kinesis 데이터 스트림에서 데이터를 읽고 처리하도록 Amazon Kinesis 애플리케이션을 구축합니다.
주요 개념
모두 열기샤드는 Amazon Kinesis 데이터 스트림의 기본 처리 단위입니다.
- 샤드는 추가 전용 로그이며, 스트리밍 용량의 단위입니다. 샤드는 도착 시간으로 정렬된 레코드 시퀀스를 포함합니다.
- 1개의 샤드는 데이터 레코드를 초당 1,000개 또는 초당 1MB까지 수집할 수 있습니다. 수집 용량을 늘리려면 샤드를 더 추가합니다.
- AWS 콘솔, UpdateShardCount API를 사용하거나, AWS Lambda를 통해 자동 조정을 트리거하거나, Auto Scaling 유틸리티를 사용하여 데이터 처리량이 변함에 따라 스트림에 샤드를 동적으로 추가 또는 제거할 수 있습니다.
- 소비자가 향상된 팬아웃을 사용하는 경우, 1개 샤드가 향상된 팬아웃을 사용하도록 등록된 각 데이터 소비자에게 1MB/초 데이터 입력 및 2MB/초 데이터 출력을 제공합니다.
- 소비자가 향상된 팬아웃을 사용하지 않는 경우, 1개 샤드가 1MB/초 데이터 입력 및 2MB/초 데이터 출력을 제공하고, 이 출력은 향상된 팬아웃을 사용하지 않는 모든 소비자와 공유됩니다.
- 스트림을 생성할 때 필요한 샤드 수를 지정하며, 언제라도 샤드 수를 변경할 수 있습니다. 예를 들어, 샤드가 2개 있는 스트림을 생성할 수 있습니다. 향상된 팬아웃을 사용하는 데이터 소비자가 5개 있을 경우, 이 스트림은 최대 20MB/초의 총 데이터 출력을 제공할 수 있습니다(2개 샤드 x 2MB/초 x 5개 데이터 소비자). 데이터 소비자가 향상된 팬아웃을 사용하지 않을 경우, 이 스트림의 처리량은 2MB/초 데이터 입력 및 4MB/초 데이터 출력입니다. 모든 경우, 이 스트림은 초당 최대 2,000개의 PUT 레코드 또는 초당 2MB까지 수집을 허용합니다(먼저 한도에 도달하는 항목 적용).
- Amazon Kinesis Data Streams에서 샤드 수준 지표를 모니터링할 수 있습니다.
데이터를 스트림에 추가
모두 열기애플리케이션 실행 또는 직접 구축
모두 열기스트림 관리
모두 열기자습서
모두 열기이 자습서는 Amazon Kinesis 데이터 스트림을 생성하고, 시뮬레이션된 주식 거래 데이터를 스트림으로 전송하고, 데이터 스트림의 데이터를 처리하도록 애플리케이션을 작성하는 과정을 안내합니다.
주요 프레젠테이션
모두 열기Amazon Kinesis를 사용하면 실시간 스트리밍 데이터를 손쉽게 수집, 처리 및 분석할 수 있으므로 적시에 인사이트를 확보하고 새로운 정보에 신속하게 대응할 수 있습니다. 이 세션에서는 데이터 수집에 Kinesis Streams, 실시간 처리에 Kinesis Analytics, 그리고 지속성에 Kinesis Firehose를 사용하는 엔드 투 엔드 스트리밍 데이터 솔루션을 소개합니다. 스트리밍 데이터를 사용하는 SQL 쿼리를 작성하는 방법을 상세히 검토하고 Kinesis Analytics 애플리케이션을 최적화하고 모니터링하는 모범 사례를 살펴봅니다. 마지막으로 전체 시스템 비용을 추정하는 방법을 살펴봅니다.
AWS 빅 데이터 웹 서비스에 대한 지식을 강화하고 클라우드에서 첫 번째 빅 데이터 애플리케이션을 시작하려고 하십니까? 빅 데이터 처리를 수집, 저장, 처리 및 시각화로 구성된 데이터 버스로 간소화하는 방법을 설명합니다. Amazon Athena, Amazon Kinesis, Amazon DynamoDB 및 Amazon S3와 같은 AWS 관리형 서비스를 사용해 빅 데이터 애플리케이션을 구축합니다. 그 과정에서 빅 데이터 애플리케이션을 위한 아키텍처 설계 패턴을 검토하고 애플리케이션을 직접 다시 구축하고 사용자 지정할 수 있도록 재택 실습에 대한 액세스를 제공합니다. 이 세션을 충분히 활용하려면 노트북을 가져와야 하고 AWS 서비스에 대한 지식이 어느 정도 있어야 합니다.
최근 몇 년간 커넥티드 디바이스와 실시간 데이터 소스의 수가 폭발적으로 증가했습니다. 따라서 데이터가 끊임없이 생산되고 프로덕션 속도가 가속화되고 있습니다. 기업에서는 이러한 데이터를 사용하기 위해 몇 시간 또는 며칠을 기다릴 여유가 없습니다. 가장 가치 있는 통찰력을 확보하기 위해서는 새로운 정보에 신속하게 대응할 수 있도록 이러한 데이터를 즉시 사용할 수 있어야 합니다. 이 워크숍에서는 스트리밍 데이터 소스를 활용하여 거의 실시간으로 분석 및 대응하는 방법을 배웁니다. 실제 스트리밍 데이터 시나리오에 맞춰 몇 가지 요구 사항이 제시되고 Amazon Kinesis, AWS Lambda 및 Amazon SNS와 같은 서비스를 사용해 이러한 요구 사항을 성공적으로 충족하는 솔루션을 생성하는 과제가 부여됩니다.
데이터에서 실행 가능한 통찰력을 확보하는 시간을 단축하는 것은 배치 데이터 분석 도구를 사용하며 스트리밍 분석의 이점을 살펴보고 있는 모든 비즈니스와 고객에게 중요합니다. 데이터 웨어하우스 및 데이터베이스에서 실시간 솔루션으로 아키텍처를 확장하는 모범 사례를 배웁니다. Amazon Kinesis를 사용하여 실시간 데이터 통찰력을 확보하고 Amazon Aurora, Amazon RDS, Amazon Redshift 및 Amazon S3와 통합하는 방법을 배웁니다. Amazon Flex 팀이 Amazon 배송 기사가 매달 수백만 개의 택배를 적시에 배달하기 위해 사용하는 Amazon Flex 모바일 앱에서 스트리밍 분석을 어떻게 사용했는지 설명합니다. 기존 배치 데이터를 스트리밍 데이터로 마이그레이션하는 문제를 해결하고 배치 처리 시스템에서 실시간 시스템으로 이전할 수 있게 해준 아키텍처를 설명하고 실시간 분석의 이점을 활용하는 방법을 설명합니다.
기업이 경쟁 우위를 확보하고 고객에게 차별화된 경험을 제공하려면 실시간으로 라이브 데이터를 사용하여 빠른 의사 결정을 지원할 수 있어야 합니다. 이 세션에서는 일반적인 스트리밍 데이터 처리 사용 사례와 아키텍처를 배웁니다. 먼저, 스트리밍 데이터와 AWS 스트리밍 데이터 기능에 대한 개요를 제공합니다. 그리고 몇 가지 고객 예제와 고객의 실시간 스트리밍 애플리케이션을 살펴봅니다. 마지막으로 주요 스트리밍 데이터 사용 사례의 일반 아키텍처와 설계 패턴을 살펴봅니다.