AWS 기술 블로그
Category: Networking & Content Delivery
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU 간 고속 통신 기술
대규모 분산 훈련에서 GPU 간 통신 성능은 전체 훈련 효율을 좌우하는 핵심 요소입니다. 수백 대의 GPU가 그래디언트(gradient, 모델이 실수를 고치는 방향 지시서)를 주고받아야 하는 환경에서, 데이터가 GPU 메모리에서 네트워크를 거쳐 원격 노드의 GPU 메모리에 도달하기까지의 경로를 얼마나 효율적으로 설계하느냐가 곧 성능의 차이로 이어집니다. 이번 블로그는 이 시리즈의 마지막 편으로, AWS 인스턴스에서 활용되는 GPU 간 고속 […]
씨미가 4K · 4초 저지연 라이브를 만든 방법 — Amazon IVS와 자체 구축의 하이브리드 설계
본 글은 씨미(ci-me) 라이브 스트리밍 플랫폼이 4K 저지연 라이브 시청 경험을 제공하기 위해 Amazon IVS의 매니지드 환경과 자체 구축 영역을 어떻게 결합했는지에 대한 사례입니다. 또한 1만 명 동시 시청자를 가정한 부하 테스트 과정에서 마주친 기술적 의사결정과 시행착오가 함께 공유됩니다. 1. 배경 씨미(CIME)는 버추얼 스트리머와 게임 스트리머를 위한 라이브 스트리밍 플랫폼입니다. 4K 초고화질, 초저지연 방송 환경, […]
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS 환경에서 NCCL을 이용한 GPU 간 통신
지난 블로그에서는 ENI(Elastic Network Interface)의 구조와 역할, 그리고 p5.48xlarge와 p6-b300 인스턴스에서 EFA(Elastic Fabric Adapter)를 실제로 어떻게 구성하는지 살펴보았습니다. 이번 블로그에서는 이렇게 구성된 EFA 네트워크 위에서 실제 GPU 간 통신이 어떻게 이루어지는지, 그 핵심에 있는 NCCL(NVIDIA Collective Communications Library) 통신에 대해 소개하고자 합니다. EFA가 고속도로를 깔아주는 인프라라면, NCCL은 그 위에서 수백 대의 GPU가 효율적으로 데이터를 주고받을 […]
하네스 엔지니어링으로 본 Deep Insight – 로컬 개발에서 프로덕션 운영까지의 설계 여정
AI에게 단순히 “잘 해봐”라고 시키는 것과, AI가 스스로 만들고 평가하고 개선하는 Agentic 시스템을 설계하는 건 완전히 다른 결과물을 만들어냅니다. AWS Korea SA Team은 Agentic AI 시스템을 개발할 때 마주하는 다양한 기술적 챌린지들을 직접 풀기 위해 ‘Deep Insight’, 사용자가 업로드한 CSV 데이터와 분석 질문을 받아 최종 DOCX 리포트를 생성하는 프로덕션 Multi-Agent 시스템을 개발했고, 세 편의 블로그 […]
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS의 인터커넥트 기반 기술, ENI 소개
지난 블로그에서는 AWS가 인피니밴드 대신 EFA를 선택한 이유와 두 기술의 철학적 차이에 대해 살펴보았습니다. 이번 블로그에서는 한 단계 더 들어가, EFA가 EC2 인스턴스에 연결되는 기반 구조인 ENI(Elastic Network Interface)에 대해 소개하고자 합니다. EFA의 성능을 제대로 활용하려면 ENI가 무엇인지, 그리고 네트워크 카드와 ENI가 어떤 관계를 가지는지를 이해하는 것이 선행되어야 합니다. 특히 p5.48xlarge, p6-b300.48xlarge과 같은 고성능 GPU […]
메리츠증권의 AWS 클라우드 여정: 클라우드 기반 차세대 증권 플랫폼 설계
메리츠증권 소개 메리츠증권은 리테일 비즈니스 경쟁력 강화를 목표로, 기존 트레이딩 시스템의 고도화가 아닌 차세대 증권 플랫폼을 새롭게 설계하고 구축했습니다. 차세대 플랫폼은 단순한 증권 트레이딩 시스템을 넘어, 투자자 간의 상호작용과 정보 교류가 이루어지는 커뮤니티 중심 서비스를 함께 제공하는 것을 목표로 했습니다. 이러한 서비스 특성상, 사용자 참여가 확대될수록 트래픽 패턴이 예측하기 어려워지고, 시세 데이터와 커뮤니티 이벤트가 동시에 […]
AWS Gateway API 컨트롤러 소개: Amazon VPC Lattice 기반의 Kubernetes Gateway API 구현
이 글은 AWS for Containers 블로그에 게시된 글(Introducing AWS Gateway API controller for Amazon VPC Lattice, an implementation of Kubernetes Gateway API)를 한국어로 번역 및 편집하였습니다. 원문 블로그 게시 이후 변경된 사항을 반영해 수정했으며, 추가로 제공한 링크도 참고해 주시기 바랍니다. 영어 원문 블로그는 Sheetal Joshi와 Liwen Wu가 작성하였습니다. 소개 2023년 4월 3일 AWS는 Amazon Virtual […]
AWS Fault Injection Service와Amazon ARC Region Switch로 복원력 향상하기
“이 게시글은 AWS Cloud Operations Blog의 ‘Improve the resiliency with AWS Fault Injection service and Amazon ARC Region switch by Rajakumar Sampathkumar‘를 번역 및 편집하였습니다” 분산 클라우드 환경에서는 시스템 장애가 자주 발생하기 때문에 애플리케이션 복원력이 고객에게 매우 중요합니다. 기존의 재해 복구 테스트 방식은 대부분 수동적이고 시간이 많이 소요되지만, 현대적인 카오스 엔지니어링 방식은 애플리케이션이 자동으로 장애를 […]
BMW는 어떻게 AWS를 활용해 가상 ECU를 기반으로 소프트웨어 정의 차량(SDV)을 확장하고 자동화했을까?
이 글은 AWS for Industries 블로그에 게시된 글 How BMW uses AWS to scale and automate SDV with virtual ECUs을 한국어로 번역 및 편집하였습니다. “BMW의 운영체제 9(BMW Operating System 9) — AWS 상에서 구동되는, 안드로이드 오픈소스 프로젝트(AOSP)를 기반으로 한 BMW의 완전 가상화된 인포테인먼트 시스템 — 은 우리가 차량용 소프트웨어의 새로운 기능을 개발할 때 실제 대상 […]
중복된 CIDR 환경에서 효과적인 Egress 트래픽 제어를 위한 아키텍처 설계
1. 개요 본 블로그는 AWS Organizations 환경에서 중복된 VPC CIDR로 인해, 다수의 Transit Gateway 및 인터넷 경로를 구성한 기업들이 직면하는 인터넷 트래픽(Egress) 관리 문제를 해결 하는데 도움을 주고자 작성되었습니다. 기업 인수합병, 레거시 네트워크 통합, 또는 대규모 조직 구조 등으로 인해 불가피 하게 중복 IP 주소 공간을 사용하는 환경에서, 효과적으로 Egress 트래픽을 제어하기 위한 아키텍처 설계 […]








