이 콘텐츠는 어떠셨나요?
- 학습
- 스타트업을 위한 AWS 기반 GenAIOps 가이드 3부: 프로덕션 우수성을 향하여
스타트업을 위한 AWS 기반 GenAIOps 가이드 3부: 프로덕션 우수성을 향하여
1부와와 2부에서는 초기 프로덕션 배포에 이르는 MVP를 위한 GenAIOps 기반을 구축했습니다. 이러한 작업을 마쳤다면 채택률 증가, 고객 구매, 제품 시장 적합성 신호 등 모든 창업자가 꿈꾸는 결과를 얻을 수 있을 것입니다. 하지만 성공에는 새로운 과제가 따릅니다.
단순성은 초기 단계에서는 유용했으나, 이제는 급증하는 요청량에도 안전성을 유지하고, 다양한 사용자 워크로드에서 일관된 성능을 보장하고, 성장에 따른 복잡성을 관리해야 하는 등 확장성 측면의 압박과 마주하게 됩니다. 3부에서는 혁신 속도에 대한 타협 없이 수요 증가를 처리하는 방법을 소개합니다.
파이프라인 발전
프로덕션 우수성을 달성하는 것은 단순히 더 많은 트래픽을 관리하는 것 이상의 일입니다. 대규모로 안정적이고 효율적이며 예측 가능한 방식으로 작동하는 파이프라인을 구축하는 것이 관건입니다. 즉, 수동 프로세스를 자동화하고, 체계적인 실험 및 배포를 진행하고, 관찰성을 구현하여 단순히 무슨 일이 일어나고 있는지 뿐만 아니라 그 이유도 이해할 수 있어야 합니다. 아래에서 볼 수 있듯이, 이러한 발전은 MVP에서 제품 시장 적합성, 지속 가능한 성장을 가능하게 하는 자동화 시스템에 이르기까지 여섯 가지 파이프라인 단계에 걸친 운영 변화를 통해 이루어집니다. 각 단계를 발전시키는 방법을 살펴보겠습니다.
.jpg)

데이터 엔지니어링 및 관리: 지속적으로 진화하는 데이터 자산으로 전환
이제 프로덕션 트래픽이 흐르고 있다면, 정적 데이터 세트를 실제 사용자 상호 작용을 통해 지속적으로 강화되는 리소스로 변환할 때입니다.
체계적인 프로덕션 로그 마이닝: 선별된 수백 개의 예제에서 수천 개의 실제 테스트 사례로 모델 선택 및 신속한 평가 데이터세트를 확장합니다. 인적 개입이 필요한 대화나 희망하는 행동을 보여주는 쿼리 등 가치가 높은 미세 조정 사례를 수집합니다. Amazon SageMaker Ground Truth Plus를 사용하여 지도 학습을 통한 미세 조정을 위한 프로덕션 예제를 큐레이팅할 수 있습니다.
자동화된 RAG 데이터 파이프라인: Amazon EventBridge를 사용하여 지식 기반의 수동 데이터 소스 업데이트를 이벤트 기반 워크플로로 대체합니다. Amazon Bedrock Data Automation을 사용하면 문서, 이미지, 오디오 및 비디오와 관련된 워크플로를 대규모로 자동화할 수 있습니다. 쿼리가 관련 컨텍스트를 검색하지 못하거나 신뢰도 점수가 낮은 경우 오류를 RAG 평가 테스트 사례로 자동 캡처합니다.
유용한 리소스:
- Amazon SageMaker Ground Truth Plus의 생성형 AI 애플리케이션을 위한 고품질 인적 피드백
- 아마존 Bedrock Data Automation 및 Amazon Bedrock Knowledge Bases를 사용하여 멀티모달 RAG 기반 애플리케이션을 구축합니다

개발 및 실험: 훌륭한 체계적 반복
운영 규모가 커지면 수동 프로토타이핑에서 체계적인 실험으로 넘어가야 하며, 이는 AI 스택 전반에 걸쳐 병렬 테스트를 실행하여 지속적으로 개선 사항을 찾아내는 작업을 포함합니다.
지속적인 모델 및 신속한 최적화: 새로운 모델이 등장하거나 요구 사항이 변경되면 선택 사항을 재평가하여 모델의 적정 규모를 지속적으로 조정하기 위해 작업 복잡성을 모델 기능에 자동으로 맞추는 다중 모델 시스템을 선택합니다. 쿼리 분류, 사용자 컨텍스트 및 성능 기록을 기반으로 하는 특수 템플릿에 기반한 동적 라우팅을 통해 이러한 효율성을 프롬프트로 확장할 수 있습니다. 이렇게 하면 정확도, 지연 시간, 비용 등 다차원적인 성능 지표를 추적하여 모델 규모 조정 또는 프롬프트 변형 전환에 대해 데이터에 기반한 결정을 내릴 수 있습니다.
컨텍스트 개선 워크플로: 외부 지식을 검색하고 모델을 사용자 지정하기 위한 반복 가능한 최적화 프로세스를 설정합니다. RAG 최적화의 경우 고급 청킹 전략 및 검색 접근 방식(하이브리드 검색, 메타데이터 필터링, 쿼리 재구성, 순위 재구성)을 진행한 후 검색 정확도와 지연 시간을 기준으로 반복합니다. 예를 들어, 768 또는 512 차원과 1536 차원을 비교하여 테스트하고 임베딩 크기 최적화를 통해 정확도를 유지하면서 스토리지 비용과 검색 지연 시간을 줄일 수 있습니다. 모델을 사용자 지정하려면 Amazon Bedrock을 활용하여 워크플로를 간소화하십시오. 지속적인 사전 훈련을 통해 도메인별 어휘에 맞게 모델을 조정하거나 지도 학습을 통한 미세 조정으로 개별 작업의 성능을 개선할 수 있습니다. Amazon SageMaker AI를 사용하면 증가하는 요구 사항에 대응해 훈련을 보다 효과적으로 제어할 수 있습니다.
월별 RAG 성능 리뷰부터 분기별 모델 사용자 지정 평가에 이르기까지 정기적인 최적화 주기를 설정하여 애플리케이션과 함께 컨텍스트 시스템을 발전시키세요.
복잡한 워크플로를 위한 에이전트 오케스트레이션: 에이전트가 다양한 프로덕션 워크로드를 처리함에 따라 단일 에이전트 아키텍처로는 복잡성 한계를 마주할 수 있습니다. 에이전트는 청구 문의와 기술 문제 해결을 동시에 시도하며 충돌하는 컨텍스트와 도구 세트로 인해 어려움을 겪습니다. 작업 복잡도별 완료율 모니터링: 2-3회의 도구 호출이 필요한 작업에서는 에이전트의 성공률이 85%이나 5회 이상의 호출에서는 성공률이 45%로 떨어진다면, 이는 분해 임계값을 찾았다는 의미입니다. 라우팅 에이전트가 결제 에이전트에게 청구 질문을 위임하고 기술 문제 흐름을 지원 에이전트에게 위임하는 전문 멀티 에이전트 시스템을 배포하세요.
Amazon Bedrock AgentCore는 동시 사용자를 위한 세션 격리, 복잡한 추론을 위한 확장된 런타임, 에이전트 전반의 통합 관찰 기능을 제공하여 프로덕션 확장 문제를 해결합니다. 타임아웃 메커니즘을 구현해 비용 폭주를 방지하고 에이전트 워크플로 및 실행에서 차단 실패 가능성을 줄이십시오.
프로덕션 혼란이 없는 체계적인 실험: 여러 실험을 동시에 실행하기 위해서는 테스트를 분리하고 프로덕션 트래픽을 보호해야 합니다. AI 구성 요소 출시를 제어하려면 AWS AppConfig를 통해 기능 플래그를 배포하십시오. 이 기능 플래그를 사용하면 사용자 세그먼트 전체에서 새로운 RAG 검색 전략을 테스트하거나 프롬프트 변형을 동시에 평가할 수 있습니다.
신뢰할 수 있는 실험 결과를 위해서는 먼저 생산 데이터와 트래픽 패턴을 반영하는 격리된 테스트 환경이 만들어져야 합니다. 그런 다음 정확도 및 지연 시간과 같은 기술적 측면과 만족도 및 참여도와 같은 전체 사용자 행동 지표에 대한 표준화된 지표를 설정합니다. 실험을 비교할 때는 총체적인 평가 접근 방식을 취합니다. 예를 들어, 두 가지 RAG 검색 전략을 비교할 때는 더 짧은 지연 시간으로 약간의 정확도를 향상시키는 편이 긴 지연 시간으로 정확도를 크게 향상시키는 것보다 전반적으로 더 높은 사용자 만족도를 이끌어낸다는 점을 고려합니다. 이렇게 하면 실험 결과가 단지 격리된 지표가 아닌 실제 영향을 반영할 수 있습니다.
유용한 리소스:
- Amazon Bedrock Knowledge Base를 사용하여 확장 가능하고 안전하며 안정적인 RAG 애플리케이션 구축
- Amazon Bedrock Knowledge Bases는 이제 고급 구문 분석, 청킹 및 쿼리 재구성을 지원하는 기능을 탑재하여 RAG 기반 애플리케이션의 정확도를 더욱 효과적으로 제어할 수 있습니다
- Strands를 이용한 멀티 에이전트 협업

테스트 및 평가: 지속적인 품질 루프 생성
수동 테스트를 매주 여러 번 배포하는 경우 관리가 어려워질 수 있습니다. 사전 출시 게이트에서 지속적인 피드백 루프로 전환하면 반복 속도가 빨라지고 잘못된 배포로 인해 고객의 신뢰가 손상되는 것을 방지할 수 있습니다.
자동 평가 파이프라인: 2부의 평가 접근 방식을 CI/CD 파이프라인에 통합된 자동화된 테스트 제품군으로 전환합니다. 코드를 배포할 때마다 구성 요소 및 엔드투엔드 평가(정확도, 작업 완료, 응답 품질 측정)가 자동으로 트리거되며, 야간 회귀 테스트를 예약하여 배포 주기 외의 지식 기반 업데이트 또는 데이터 새로 고침으로 인한 문제를 파악할 수 있습니다. 지연 시간을 늘리거나 정확도를 떨어뜨리는 배포를 차단하려면 품질 임계값을 설정하는 것을 잊지 마세요. 테스트 장애를 데이터 파이프라인에 재반영하면 평가 범위 또한 넓힐 수 있습니다.
책임감 있는 AI 평가 전략: 생산 시스템은 기능적 정확성 뿐만 아니라 안전성과 신뢰성 또한 확보해야 합니다. 사실적 근거 검사를 통한 할루시네이션 감지, 적대적 테스트 사례를 통한 프롬프트 인젝션 저항, 유해 콘텐츠 평가 등을 포함하도록 자동화 테스트를 확장하십시오. 대규모 성능 및 안전을 지원하기 위한 다른 전략으로는 위험한 행동을 식별하기 위한 정기적인 레드 팀 연습과 책임 있는 AI 지표에 대한 생산 결과의 현장 점검이 포함됩니다.
유용한 리소스:

배포 및 서비스: 복원성을 통한 확장
프로덕션 트래픽이 확장됨에 따라, 배포 과정은 단순히 애플리케이션을 온라인 상태로 만드는 것에서 안정성과 성능을 유지하는 전략의 구현으로 확장되어야 합니다.
확장 가능한 배포 전략: 먼저 목표 처리량, 지연 백분위수, 성능 저하 임계값을 비롯한 성능 요구 사항을 정의합니다. 다음으로 지속 트래픽, 버스트 패턴, 멀티스텝 워크플로를 시뮬레이션하는 부하 테스트를 수행합니다. 이를 통해 성능 격차를 식별하고, 아키텍처 결정을 내리고, 인프라 요구 사항을 검증할 수 있습니다.
지능형 캐싱 및 제공 패턴을 통해 추론 효율성을 최적화합니다. Bedrock 프롬프트 캐싱을 활용하면 대규모 컨텍스트 블록의 재사용이 가능해 지연 시간과 비용이 절감됩니다. 예를 들어, 대화형 애플리케이션에 실시간 추론을 사용하거나 오프라인 분석을 위한 배치 추론을 사용하는 등 요구 사항에 맞게 추론 패턴을 일치시키면 비용도 크게 절감됩니다.
스택 전반의 확장을 위해 Amazon Bedrock 교차 리전 추론은 요청을 최적의 AWS 리전으로 자동 라우팅하여 처리량과 가용성을 높입니다. 한편, SageMaker AI 엔드포인트 자동 크기 조정은 용량을 동적으로 조정하고, Bedrock AgentCore Runtime은 대규모로 안전한 에이전트 배포를 제공하며, OpenSearch Serverless는 벡터 데이터베이스의 컴퓨팅 용량을 자동으로 확장합니다.
배포 패턴은 또한 릴리스의 위험성을 경감시킬 수 있는데, 이에 대한 예시로는 전체 출시 전에 메트릭을 모니터링하면서 트래픽의 5~10%를 새 모델에 노출시키는 카나리아 배포와 회귀로부터 즉각적인 롤백을 가능하게 하는 블루-그린 배포가 있습니다.
복원력 있는 서비스 전략: 프로덕션 시스템은 확장성 외에도 사용자 경험을 저하시키지 않으면서 할당량 제한, 일시적인 장애 및 예상치 못한 부하 등을 처리해야 합니다. Amazon Bedrock 할당량을 사전에 검토하여 한도에 도달하기 전에 증가를 요청하고 Amazon API Gateway를 사용하여 요금 제한을 구현하여 들어오는 요청을 제어하고 공정한 사용을 보장할 수 있습니다. 또한 애플리케이션과 모델 간에 Amazon SQS를 사용하여 수요 변동성을 흡수하고 요청 거부를 방지할 수 있습니다.
정상적으로 성능이 저하된 응답에 대해 캐시된 응답을 백업하는 기본 모델인 모델 캐스케이드 계층 구조를 구성하면 최적의 서비스 경로가 실패하더라도 사용자가 언제나 응답을 받을 수 있도록 할 수 있습니다. 이 외에도 서킷 브레이커를 구현하여 장애가 발생한 종속성에 대한 요청을 중단시킬 수 있습니다.
유용한 리소스:

관찰성 및 개선: 지속적인 개선
인사이트가 자동으로 개선을 트리거하여 자체 개선 애플리케이션을 만드는 폐쇄 루프 시스템을 통해 관찰성을 주요 경쟁력으로 삼을 수 있습니다.
기술 및 비즈니스 지표 전반의 통합적 관찰: 상관 관계 분석은 시스템 동작 전체를 이해하는 데 중요합니다. 이를 위해서는 ‘모델 A 대 모델 B’뿐만 아니라 ‘모델 A(92% 의 정확도)와 요청 당 0.08 달러의 모델 B(정확도 94%)’ 를 결합하여 기술 및 비즈니스 메트릭을 결합한 통합 대시보드를 구축한 다음 각 지표가 30일 사용자 유지에 어떤 영향을 미치는지 추적해야 합니다. 공유 원격 분석을 통한 역할별 뷰 설계: 엔지니어링은 오류율 알림과 지연 추세를 확인하고, 제품 팀은 완료율과 사용자 상호 작용 패턴을 확인하고, 경영진은 상호 작용당 비용 및 ROI 상관 관계를 확인합니다. 따라서 기능을 출시하는 동안 고객 서비스 봇이 쿼리가 40% 더 길어지거나 시즌성 패턴으로 인해 비용 구조가 60%씩 바뀌면 교차 지표 상관 관계 분석을 통해 근본적인 원인을 찾아낼 수 있습니다.
폐쇄형 루프 개선 주기: 진정한 생산 우수성을 성취하기 위해서는 아래 그림처럼 관찰성을 통해 전체 GenAIOps 파이프라인의 개선을 촉발하는 폐쇄형 루프 시스템을 만들어야 합니다.

예를 들어, 고객 서비스 봇의 관찰성은 다음과 같은 개선을 가져올 수 있습니다.
- 데이터 엔지니어링 및 관리: 제품 출시 쿼리의 응답 실패율이 15% 증가할 시, EventBridge는 지식 기반 동기화를 작동시켜 소스 시스템에서 최신 문서를 수집합니다.
- 개발 및 실험: 결제 쿼리의 봇 해결률이 20% 감소하면 시스템은 결제에 특화된 프롬프트 변형에 대한 A/B 테스트를 대기열에 넣습니다.
- 테스트 및 평가: 주문 추적 대화 실패가 25% 증가하면 실패한 상호 작용에서 테스트 사례가 자동으로 생성되어 회귀 도구 모음에 추가됩니다.
- 배포 및 지원: 추적 분석 결과 에이전트 워크플로의 8%가 30초에 제한 시간을 초과했다가 45초에 성공적으로 완료되는 것으로 확인되면 제한 시간 구성이 조정됩니다.
- 거버넌스 및 유지 관리: 배포 로그에서 누락된 IAM 권한 또는 인프라 사전 요구 사항으로 인해 릴리스의 40%가 실패했다고 표시되면, 배포 파이프라인에 사전 검증 검사가 추가되어 릴리스가 차단되기 전에 구성 문제를 파악할 수 있도록 합니다.
유용한 리소스:
- 포괄적인 맞춤형 가시성 솔루션으로 생성형 AI 애플리케이션을 강화합니다
- Amazon Bedrock AgentCore Observability를 사용하여 신뢰할 수 있는 AI 에이전트를 구축합니다

거버넌스 및 유지 관리: 안전한 혁신
거버넌스 프레임워크는 스마트한 위험 감수를 가속화하는 동시에 고비용 실수를 방지하는 신뢰할 수 있는 조언자여야 합니다. 고객 신뢰를 구축하는 책임감 있는 AI 사용을 통해 2부 가드레일을 귀사의 경쟁력으로 만드십시오.
자동화된 거버넌스 워크플로: 수동 리뷰를 지능형 자동화로 대체합니다. AWS Step Functions를 사용하여 프롬프트 템플릿 개선과 같은 위험도가 낮은 업데이트는 자동으로 배포되고 모델 변경과 같은 고위험 업데이트는 사람의 검토를 트리거하는 승인 워크플로를 구축합니다. 또한 승인 체인 캡처부터 감사 추적 유지에 이르기까지 규정 준수 문서화를 자동화할 수 있습니다. 배포가 정책을 위반하는 경우 워크플로우는 자동으로 릴리스를 차단하고 이해 관계자에게 에스컬레이션합니다.
코드 및 계보 추적으로서의 인프라: 전체 AI 인프라를 코드화하여 버전 제어 코드에 배포 지식을 캡처합니다. Amazon SageMaker Model Registry를 사용하여 모델의 리니지를 추적하고 Amazon SageMaker Catalog 기능을 사용하여 데이터 리니지를 추적합니다. 소스 문서에서 처리 단계를 거쳐 모델 출력에 이르는 데이터 흐름을 문서화하면 디버깅 및 규정 준수를 지원하는 감사 추적이 생성되므로 훈련 데이터에서 추론 결과에 이르기까지 전 과정을 추적할 수 있습니다.
운영 가시성 및 책임: Amazon QuickSight에서 거버넌스 지표를 나타내는 역할별 대시보드를 생성합니다. 제품 소유 성과 목표, 엔지니어링 소유 안정성, 규정 준수 소유 안전, 거버넌스 조정을 통해 팀 전체에 걸쳐 명확한 소유권을 확립하십시오.
유용한 리소스:
- Amazon SageMaker Model Registry를 사용하여 생성형 AI 애플리케이션을 위한 기반 모델을 효과적으로 관리합니다
- 새로운 Amazon SageMaker Catalog 기능을 사용하여 데이터에서 인사이트로의 경로를 간소화합니다

결론
프로덕션 우수성을 달성하기 위해서는 일회성 노력이 아닌 모든 배포, 장애 및 사용자 상호 작용으로부터 학습하는 파이프라인을 지속적으로 구축하는 과정이 필요합니다. 이러한 체계적인 개선은 시간이 지남에 따라 복합적으로 작용하여 기능의 더 빠른 출시로는 이룩할 수 없는 경쟁 우위를 점할 수 있도록 합니다.
다음 단계로 나아가기 위해서는 검증에 오랜 시간이 걸리는 실험, 어려운 배포 또는 예측할 수 없는 비용 등 가장 어려운 파이프라인 단계의 우선 순위를 설정해야 합니다. 해당 영역을 자동화한 후에는 다음 영역에서 진행을 계속합니다. 궁극적으로, 선도적인 AI 스타트업을 차별화하는 것은 더 나은 모델에 대한 접근성이 아니라 사용자 경험을 지속적으로 개선하는 강력한 GenAIOps 파이프라인입니다.

Nima Seifi
Nima Seifi는 남부 캘리포니아에 본사를 둔 AWS의 Senior Solutions Architect로, SaaS 및 GenAIOps를 전문으로 합니다. Nima는 AWS를 기반으로 하는 스타트업의 기술 고문으로 활동하고 있습니다. AWS에 입사하기 전에는 모바일 인터넷 기술 분야에서 10년간 R&D 업무를 맡아 수행했고, 그 이후에는 전자 상거래 업계에서 DevOps 아키텍트로 5년 이상 근무했습니다. Nima는 저명한 기술 저널과 컨퍼런스에 20개 이상의 간행물을 출판했으며 7개의 미국 특허를 보유하고 있습니다. 업무 외 시간에는 독서, 다큐멘터리 감상, 해변 산책을 즐깁니다.
.jpg)
Pat Santora
Pat Santora는 GenAI Labs Cloud Architect이자 Technologist로, 25년 이상 기업과 스타트업을 위해 클라우드 전반에서 솔루션을 구현한 경험이 있습니다. Pat는 처음부터 수많은 제품을 성공적으로 출시했으며, 분석 재구성 프로젝트를 주도했으며, 투명성과 신뢰에 중점을 둔 철학을 바탕으로 원격 팀을 관리했습니다. 기술 전문 분야로는 전략 계획, 시스템 관리 및 아키텍처 재설계 분야가 있으며, GenAI, 분석 및 빅 데이터에 대한 관심도 더해졌습니다.
.jpg)
Clement Perrot
Clement Perrot은 모델 선택, 책임 있는 AI 구현, 최적화된 기계 학습 운영에 대한 전략적 지침을 제공하여 최상위 스타트업이 AI 이니셔티브를 가속화할 수 있도록 지원합니다. 연쇄 창업가이자 Inc 30 Under 30 수상자인 Clement는 소비자 기술 및 엔터프라이즈 AI 분야에서 AI 기업 설립 및 확장에 깊이 있는 전문 지식을 갖추고 여러 벤처를 설립하고 성공적으로 사업을 마무리한 경험이 있습니다.
이 콘텐츠는 어떠셨나요?