¿Qué le pareció este contenido?
- Aprender
- Guía para startups sobre GenAIOps en AWS, parte 3: Camino hacia la excelencia en la producción
Guía para startups sobre GenAIOps en AWS, parte 3: Camino hacia la excelencia en la producción
En la parte 1 y parte 2, establecimos las bases de GenAIOps desde el MVP hasta la implementación inicial en producción. Si ya ha implementado estas prácticas, es posible esté viendo resultados: una adopción cada vez mayor, clientes que pagan y señales de adecuación de los productos al mercado con las que sueña todo fundador. Sin embargo, el éxito trae consigo nuevos desafíos.
La simplicidad que sirvió en las primeras etapas ahora se enfrenta a presiones de escalamiento, como mantener la fiabilidad a medida que aumentan los volúmenes de solicitudes, garantizar un rendimiento uniforme en las diversas cargas de trabajo de los usuarios y administrar la complejidad que acompaña al crecimiento. Esta parte 3 muestra cómo gestionar las demandas de escalamiento sin perder la velocidad de la innovación.
La evolución de la canalización
Alcanzar la excelencia en la producción no solo consiste en administrar más tráfico,sino también de crear una canalización que funcione de forma fiable, eficiente y predecible a gran escala. Esto significa automatizar los procesos manuales, establecer experimentación y despliegue sistemáticos e implementar la observabilidad para comprender no solo lo que está sucediendo, sino también el por qué. Como se muestra a continuación, esta evolución se produce mediante cambios operativos en seis etapas del proceso: desde los aspectos esenciales que lo llevaron de MVP a la adaptación del producto al mercado, hasta los sistemas automatizados que permiten un crecimiento sostenible. Analicemos cómo hacer evolucionar cada etapa.
.jpg)

Ingeniería y administración de datos: Transición hacia activos de datos en continua evolución
Ya que el tráfico de producción está fluyendo, es hora de transformar los conjuntos de datos estáticos en recursos continuamente enriquecidos impulsados por la interacción real del usuario.
Minería sistemática de registros de producción: Amplíe la selección de modelos y los conjuntos de datos de evaluación de peticiones, pasando de cientos de ejemplos seleccionados a miles de casos de prueba reales. Recopile ejemplos de refinamiento, por ejemplo, conversaciones que requieren la intervención humana y consultas que demuestren los comportamientos deseados. Utilice Amazon SageMaker Ground Truth Plus para seleccionar ejemplos de producción con el fin de realizar un refinamiento supervisado.
Canalización de datos RAG automatizada: Sustituya las actualizaciones manuales del origen de datos para las bases de conocimiento por flujos de trabajo basados en eventos con Amazon EventBridge. Los flujos de trabajo relacionados con documentos, imágenes, audio y videos se pueden automatizar a gran escala con la automatización de datos de Amazon Bedrock. Cuando las consultas no recuperan el contexto relevante o muestran puntuaciones de confianza bajas, estas capturan de forma automática los errores como casos de prueba de evaluación RAG.
Recursos útiles:
- Interacción humana de alta calidad para las aplicaciones de IA generativa de Amazon SageMaker Ground Truth Plus
- Cree una aplicación multimodal basada en RAG con los datos automatizados de Amazon Bedrock y las bases de conocimiento de Amazon Bedrock

Desarrollo y experimentación: Promoción de la iteración sistemática
A medida que su operación se amplía, debe pasar de la creación manual de prototipos a la experimentación sistemática. Esto implica realizar pruebas paralelas en toda su pila de IA para descubrir mejoras de forma continua.
Modelo continuo y optimización de peticiones: Convierta el ajuste de modelo en una práctica continua, reevaluando las opciones a medida que surjan nuevos modelos o cambien los requisitos. Elija los sistemas de varios modelos que adapten de forma automática la complejidad de las tareas a la capacidad del modelo. Amplíe esta eficacia a las peticiones mediante un enrutamiento dinámico con plantillas especializadas basadas en la clasificación de las consultas, el contexto del usuario y el historial de rendimiento. Realice un seguimiento de las métricas de rendimiento de varias dimensiones (precisión, latencia y costo) para tomar decisiones basadas en datos sobre el tamaño correcto de los modelos o el cambio rápido de variantes.
Flujos de trabajo de refinamiento del contexto: Establezca procesos de optimización repetibles para recuperar conocimiento externo y personalizar modelos. Para la optimización de RAG, implemente una experimentación estructurada al probar las estrategias avanzadas de fragmentación y enfoques de recuperación (búsqueda híbrida, filtrado de metadatos, reformulación de consultas y reclasificación) y, luego, al iterar según la precisión y latencia de recuperación. Optimice el tamaño de la incrustación probando, por ejemplo, 768 o 512 dimensiones frente a 1536 para reducir los costos de almacenamiento y la latencia de recuperación, sin dejar de mantener la precisión. Si desea personalizar los modelos, aproveche Amazon Bedrock para optimizar los flujos de trabajo. Utilice la formación previa continua para adaptar los modelos al vocabulario específico del dominio o el refinamiento supervisado para mejorar el rendimiento de las tareas específicas. Amazon SageMaker AI proporciona un mayor control sobre la formación a medida que aumentan las necesidades.
Establezca ciclos de optimización regulares para hacer evolucionar los sistemas de contexto con la aplicación: desde revisiones mensuales del rendimiento de RAG hasta evaluaciones trimestrales de personalización de modelos.
Orquestación de agentes para flujos de trabajo complejos: A medida que sus agentes gestionan diversas cargas de trabajo de producción, las arquitecturas de un solo agente alcanzan los límites de complejidad. Los agentes que intentan realizar consultas sobre facturación y solucionar problemas técnicos tienen dificultades con contextos y conjuntos de herramientas contradictorios. Supervise las tasas de finalización según la complejidad de las tareas: si su agente realiza correctamente el 85 % de las tareas que requieren entre 2 y 3 llamadas, pero se reduce al 45 % con más de 5 llamadas, ha encontrado el umbral de descomposición. Implemente sistemas especializados con varios agentes en los que un agente de enrutamiento delegue las preguntas de facturación en los agentes de pago y los problemas técnicos pasen a manos de los agentes de soporte.
Amazon Bedrock AgentCore aborda los desafíos de escalado de la producción al proporcionar aislamiento de sesiones para usuarios simultáneos, tiempos de ejecución prolongados para razonamientos complejos y observabilidad unificada en todos sus agentes. La protección contra los costos desmesurados, se lleva a cabo a través de la implementación de tiempos de espera para reducir la probabilidad de que se bloqueen los fallos en los flujos de trabajo y las ejecuciones de las agencias.
Experimentación sistemática sin caos en la producción: La ejecución simultánea de varios experimentos depende de aislar las pruebas y proteger el tráfico de producción. Para controlar la implementación de componentes de IA, implemente los indicadores de características mediante de AWS AppConfig, donde podrá probar nuevas estrategias de recuperación de RAG o evaluar las variantes de petición de forma simultánea en todos los segmentos de usuarios.
Para garantizar resultados de experimentos de confianza, comience, en primer lugar, por crear entornos de prueba aislados que reflejen los datos de producción y los patrones de tráfico. En segundo lugar, establezca métricas estandarizadas para ambos aspectos técnicos (como la precisión y la latencia), así como para métricas del comportamiento de los usuarios (como la satisfacción y el compromiso). En tercer lugar, adopte un enfoque holístico de la evaluación al comparar experimentos. Por ejemplo, al comparar dos estrategias de recuperación de RAG, tenga en cuenta que una pequeña mejora de la precisión con una mejor latencia podría generar una mayor satisfacción general del usuario que una mayor ganancia de precisión con un aumento de la latencia. Esto garantiza que los resultados experimentales reflejen el impacto actual y no solo métricas aisladas.
Recursos útiles:
- Creación de aplicaciones RAG escalables, seguras y de confianza con las bases de conocimiento de Amazon Bedrock
- Las bases de conocimiento de Amazon Bedrock ahora son compatibles con el análisis avanzado, la fragmentación y la reformulación de consultas, lo que brinda un mayor control de la precisión en las aplicaciones basadas en RAG
- Colaboración entre varios agentes con Strands

Pruebas y evaluación: Creación de bucles de calidad continuos
Las pruebas manuales pueden volverse inmanejables rápidamente, sobre todo cuando se envían varias veces por semana. Pasar de una fase previa al lanzamiento a un ciclo de retroalimentación continua acelerará la iteración y evitará que los malos despliegues perjudiquen la confianza de los clientes.
Proceso de evaluación automatizado: Transforme los enfoques de evaluación de la parte 2 en conjuntos de pruebas automatizados integrados con su proceso de CI/CD. Cada implementación de código desencadena automáticamente evaluaciones integrales y de componentes, que miden la precisión, la finalización de las tareas y la calidad de la respuesta. Deberá programar pruebas de regresión nocturnas para detectar los problemas que surgen de las actualizaciones de la base de conocimientos o de las actualizaciones de datos fuera de los ciclos de implementación. No olvide establecer umbrales de calidad para bloquear las implementaciones que aumentan la latencia o reducen la precisión. La introducción de errores de las pruebas en la canalización de datos también enriquecerá la cobertura de la evaluación.
Estrategias de evaluación de la IA responsable: La corrección funcional no es suficiente. Los sistemas de producción deben ser seguros y de confianza. Amplíe las pruebas automatizadas para incluir la detección de alucinaciones con comprobaciones de los hechos, la resistencia de inyección de peticiones mediante casos de pruebas contradictorias y la evaluación del contenido nocivo. Otras estrategias para fomentar el rendimiento y la seguridad a gran escala son la realización de ejercicios periódicos del equipo rojo para identificar los comportamientos de riesgo y la comprobación puntual de los resultados de la producción para obtener métricas de la IA responsable.
Recursos útiles:
- Creación de un proceso automatizado de evaluación de soluciones de IA generativa con Amazon Nova
- Consideraciones para abordar las dimensiones fundamentales de la IA responsable para las aplicaciones de Amazon Bedrock

Despliegue y servicio: Escalado con resiliencia
Conforme aumenta el tráfico de producción, la implementación debe pasar de la simple puesta en línea de las aplicaciones a la implementación de estrategias que mantengan la fiabilidad y el rendimiento.
Estrategias de implementación escalables: Comience por definir los requisitos de rendimiento, como el rendimiento objetivo, los percentiles de latencia y los umbrales de degradación. A continuación, realice pruebas de carga simulando tráfico sostenido, patrones de ráfagas y flujos de trabajo de varios pasos. Esto identificará las brechas de rendimiento, fundamentará las decisiones arquitectónicas y validará los requisitos de infraestructura.
Optimice la eficiencia de la inferencia mediante patrones inteligentes de almacenamiento en caché y servicio. Aprovechar el almacenamiento en caché de peticiones de Bedrock ayudará a reutilizar grandes bloques de contexto y, a su vez, reducir la latencia y los costos. Así como también hacer coincidir los patrones de inferencia con los requisitos, por ejemplo, mediante la inferencia en tiempo real para aplicaciones interactivas o la inferencia por lotes para el análisis sin conexión, lo que también reducirá significativamente los costos.
Para diseñar una arquitectura que se adapte a todo su conjunto, la inferencia entre regiones de Amazon Bedrock dirige de forma automática las solicitudes entre las regiones de AWS para aumentar el rendimiento y la disponibilidad. Por otro lado, el escalado automático de los puntos de enlace mediante SageMaker AI ajusta la capacidad de forma dinámica, Bedrock AgentCore Runtime ofrece una implementación segura de los agentes a gran escala y OpenSearch sin servidor escala automáticamente la capacidad de procesamiento de las bases de datos vectoriales.
Los patrones de implementación también pueden reducir el riesgo de las versiones, como los despliegues de valores controlados, que exponen del 5 al 10 % del tráfico a nuevos modelos, al tiempo que supervisan las métricas antes de la implementación completa, y las implementaciones azul/verde que permiten revertir instantáneamente las regresiones.
Estrategias de servicio resilientes: Más allá de la escalabilidad, los sistemas de producción deben gestionar los límites de cuota, los errores transitorios y las cargas inesperadas sin degradar la experiencia del usuario. Revise las cuotas de Amazon Bedrock de forma proactiva y solicite aumentos antes de alcanzar los límites. Implemente la limitación de velocidad mediante Amazon API Gateway para controlar las solicitudes entrantes y garantizar un uso justo. Utilice Amazon SQS entre su aplicación y sus modelos para absorber la variabilidad de la demanda y evitar el rechazo de las solicitudes.
Al configurar las jerarquías de modelos en cascada (desde el modelo principal hasta el modelo de respaldo, las respuestas almacenadas en caché y las respuestas degradadas correctamente), puede garantizar que los usuarios siempre reciban una respuesta incluso cuando las rutas de servicio óptimas fallen. Además, implemente disyuntores para detener las solicitudes de dependencias fallidas.
Recursos útiles:
- Optimización de la capacidad de respuesta de la IA: Guía práctica sobre la inferencia optimizada para la latencia de Amazon Bedrock
- Diseño de las cargas de trabajo de la IA generativa para la resiliencia

Observabilidad y refinamiento: Impulso de la mejora continua
Haga de la observabilidad su principal ventaja competitiva con un sistema de ciclo cerrado donde los conocimientos activan de forma automática las mejoras, creando una aplicación que se mejora a sí misma.
Observabilidad unificada en todas las métricas técnicas y empresariales: El análisis de correlación es fundamental para comprender el comportamiento del sistema en su conjunto. Para ello, cree paneles unificados que combinen métricas técnicas y empresariales (no solo “el modelo A frente al modelo B”, sino más bien “el modelo A a 0,02 USD por solicitud con una precisión del 92 % frente al modelo B a 0,08 USD por solicitud con una precisión del 94 %”) y, a continuación, haga un seguimiento del impacto de cada uno de ellos en la retención de usuarios durante 30 días. Diseñe vistas específicas para cada función a partir de la telemetría compartida. Los ingenieros ven las alertas de tasas de error y las tendencias de latencia; los equipos de productos ven las tasas de finalización y los patrones de interacción de los usuarios; los ejecutivos ven las correlaciones entre el costo por interacción y el ROI. Por lo tanto, si su bot de servicio de atención al cliente muestra un 40 % más de consultas durante el lanzamiento de una función, o si los patrones estacionales modifican la estructura de costos en un 60 %, el análisis de correlación entre métricas revela la causa raíz.
Ciclos de mejora de ciclo cerrado: La verdadera excelencia en la producción proviene de la creación de sistemas de ciclo cerrado en los que la observabilidad activa el refinamiento en todo el proceso de GenAIOps, como se muestra en la siguiente figura.

Por ejemplo, la capacidad de observación del bot de servicio al cliente puede activar las siguientes mejoras:
- Ingeniería y administración de datos: Cuando la tasa de respuestas fallidas aumenta un 15 % en las consultas de lanzamiento de productos, EventBridge activa la sincronización de la base de conocimientos para incorporar la documentación más reciente de los sistemas de origen.
- Desarrollo y experimentación: Si las tasas de resolución de los bots disminuyen un 20 % en las consultas de facturación, el sistema pone en cola las pruebas A y B para detectar variantes de petición especializadas en la facturación.
- Pruebas y evaluación: Cuando los errores en las conversaciones de seguimiento de pedidos aumentan un 25 %, los casos de prueba se generan automáticamente desde las interacciones fallidas y se agregan a los conjuntos de regresión.
- Despliegue y servicio: Cuando el análisis de seguimiento muestra que el 8 % de los flujos de trabajo de los agentes se agotan a los 30 segundos pero se completan correctamente a los 45 segundos, las configuraciones de tiempo de espera se ajustan.
- Gobernanza y mantenimiento: Cuando los registros de despliegue muestran que el 40 % de las versiones fallan debido a la falta de permisos de IAM o requisitos previos de infraestructura, se agregan comprobaciones de validación previas al proceso de implementación para detectar los problemas de configuración antes de que bloqueen las versiones.
Recursos útiles:
- Fortalecimiento de su aplicación de IA generativa con una solución integral de observabilidad personalizada
- Creación de agentes de IA de confianza con Amazon Bedrock AgentCore Observability

Gobernanza y mantenimiento: Hacer posible la innovación segura
Su marco de gobierno debe parecerse al de un asesor de confianza que acelera la toma inteligente de riesgos y, al mismo tiempo, evita errores costosos. Transforme esas barreras de protección de la parte 2 en su ventaja competitiva mediante prácticas de la IA responsable que generen la confianza de los clientes.
Flujos de trabajo de gobernanza automatizados: Sustituya las revisiones manuales por una automatización inteligente y utilice AWS Step Functions para crear flujos de trabajo de aprobación en los que las actualizaciones de bajo riesgo, como los ajustes de peticiones de las plantillas , se implementen automáticamente, y las actualizaciones de alto riesgo, como los cambios de modelo, generen revisiones humanas. También puede automatizar la documentación de cumplimiento, desde la captura de las cadenas de aprobación hasta el mantenimiento de los registros de auditoría. Cuando los despliegues infringen las políticas, los flujos de trabajo bloquean automáticamente la publicación y llegan a las partes interesadas.
Infraestructura como seguimiento de código y linaje: Codifique toda su infraestructura de IA y capture los conocimientos de despliegue en código controlado por versiones. Realice un seguimiento del linaje de modelos con el Registro de modelos de Amazon SageMaker y del linaje de datos con las capacidades del catálogo de Amazon SageMaker. Al documentar cómo fluyen los datos desde los documentos de origen, pasando por las etapas de procesamiento hasta los resultados del modelo, también se crean registros de auditoría para facilitar la depuración y el cumplimiento, lo que permite rastrear todo, desde los datos de entrenamiento hasta los resultados de la inferencia.
Visibilidad operativa y responsabilidad: Cree paneles específicos para cada rol en Amazon QuickSight que muestren las métricas de gobernanza. Establezca una propiedad clara entre los equipos: los objetivos de rendimiento enfocados en el producto, la ingeniería en la fiabilidad, el cumplimiento en la seguridad y la coordinación de la gobernanza entre los equipos.
Recursos útiles:
- Administración de forma eficaz los modelos básicos para las aplicaciones de IA generativa con el Registro de modelos de Amazon SageMaker
- Simplificación del paso de los datos a la información con las nuevas funciones del catálogo de Amazon SageMaker

Conclusión
Lograr la excelencia en la producción no es un esfuerzo único, sino un proceso continuo de creación de una canalización que aprende de cada despliegue, cada error y cada interacción con el usuario. Estas mejoras sistemáticas se agravan con el tiempo y crean ventajas competitivas que van más allá de lo que sería posible con la entrega más rápida de las funciones.
Para dar el siguiente paso, priorice la fase de tramitación más difícil, ya sea que se trate de experimentos que tardan demasiado en validarse, implementaciones difíciles o costos impredecibles. Una vez que haya automatizado esa área, pase a la siguiente y continúe. Por último, lo que diferencia a las principales startups de IA no es el acceso a mejores modelos, sino una sólida canalización de GenAIOps que mejora continuamente la experiencia del usuario.

Nima Seifi
Nima Seifi es arquitecto de soluciones sénior en AWS, vive en el sur de California y está especializado en SaaS y GenAIOps. Trabaja como asesor técnico para startups que utilizan AWS. Antes de incorporarse a AWS, trabajó como arquitecto de DevOps en el sector del comercio electrónico durante más de 5 años, tras una década de trabajo de I+D en tecnologías de Internet móvil. Nima tiene más de 20 publicaciones en importantes revistas técnicas y conferencias y posee 7 patentes registradas en EE. UU. En su tiempo libre, le gusta leer, ver documentales y pasear por la playa.
.jpg)
Pat Santora
Pat Santora es un arquitecto de nube de laboratorios de IA generativa y tecnólogo, y cuenta con más de 25 años de experiencia en la implementación de soluciones en la nube, tanto para empresas como para startups. Ha lanzado con éxito numerosos productos en los que ha participado desde su creación, ha dirigido proyectos de rearquitectura analítica y ha administrado equipos remotos con una filosofía centrada en la transparencia y la confianza. Su experiencia y conocimientos técnicos abarcan la planificación estratégica, la administración de sistemas y el rediseño arquitectónico, y se complementan con su interés en IA generativa, análisis y macrodatos.
.jpg)
Clement Perrot
Clement Perrot ayuda a startups de primer nivel a acelerar sus iniciativas de IA mediante orientación estratégica sobre la selección de modelos, la implementación de la IA responsable y la optimización de las operaciones de machine learning. Emprendedor en serie y parte de la lista Inc 30 Under 30, aporta una amplia experiencia en la creación y el crecimiento de empresas de IA, y ha fundado y vendido con éxito múltiples empresas en el campo de la tecnología de consumo y la IA empresarial.
¿Qué le pareció este contenido?