Lernen
Leitfaden für Startups zu GenAIOps auf AWS, Teil 3: Auf dem Weg zu exzellenter Produktion

Leitfaden für Startups zu GenAIOps auf AWS, Teil 3: Auf dem Weg zu exzellenter Produktion

Wie war dieser Inhalt?

Startup’s guide to GenAIOps on AWS part 3

In Teil 1 und Teil 2 haben wir die Grundlagen von GenAIOps für die MVP bis zur ersten Bereitstellung geschaffen. Wenn Sie diese Vorgehensweisen umgesetzt haben, sehen Sie wahrscheinlich bereits Ergebnisse: wachsende Akzeptanz, zahlende Kunden und Anzeichen für eine Produkt-Markt-Passung, von denen jeder Gründer träumt. Doch Erfolg bringt auch neue Herausforderungen mit sich.

Die Einfachheit, die Ihnen in der frühen Stufe geholfen hat, steht nun unter Skalierndem Druck: Aufrechterhaltung der Zuverlässigkeit bei steigendem Anforderungs-Volume, Gewährleistung einer konsistenten Leistung bei unterschiedlichen Benutzer-Workloads und Bewältigung der mit dem Wachstum einhergehenden Komplexität. In Teil 3 erfahren Sie, wie Sie Skalierndem Druck begegnen können, ohne die Innovationsgeschwindigkeit zu beeinträchtigen.

Weiterentwicklung Ihrer Pipeline

Um Produktionsqualität zu erreichen, reicht es nicht aus, nur mehr Traffic zu verwalten. Es geht darum, eine Pipeline aufzubauen, die zuverlässig, effizient und vorhersehbar skaliert. Das bedeutet, manuelle Prozesse zu automatisieren, systematische Experimente und Bereitstellung einzurichten und Beobachtbarkeit zu implementieren, um nicht nur zu verstehen, was passiert, sondern auch warum. Wie unten dargestellt, erfolgt diese Weiterentwicklung durch operative Veränderungen in sechs Pipeline-Stufen – von den Grundlagen, die Sie vom MVP zur Produkt-Markt-Passung geführt haben, bis hin zu automatisierten Systemen, die ein nachhaltiges Wachstum ermöglichen. Lassen Sie uns untersuchen, wie jede Stufe weiterentwickelt werden kann.

Datenengineering und -management: Umstellung auf sich kontinuierlich weiterentwickelnde Datenbestände

Da der Produktionsverkehr nun fließt, ist es an der Zeit, statische Datensätze in kontinuierlich angereicherte Ressourcen umzuwandeln, die durch echte Benutzerinteraktionen gespeist werden.

Systematisches Mining von Produktionsprotokollen: Erweitern Sie die Modellauswahl und die Datensätze für die Prompt-Bewertung von Hunderten kuratierter Beispiele auf Tausende realer Testfälle. Sammeln Sie hochwertige Beispiele für die Feinabstimmung, z. B. Konversationen, die menschliches Eingreifen erfordern, und Abfragen, die das gewünschte Verhalten demonstrieren. Verwenden Sie Amazon SageMaker Ground Truth Plus, um Produktionsbeispiele für die überwachte Feinabstimmung zu kuratieren.

Automatisierte RAG-Datenpipeline: Ersetzen Sie manuelle Aktualisierungen von Datenquellen für Wissensdatenbanken durch ereignisgesteuerte Workflows mit Amazon EventBridge . Workflows mit Dokumenten, Bildern, Audio- und Videodateien können mit Amazon Bedrock Data Automation skalieren. Wenn Abfragen keinen relevanten Kontext abrufen oder niedrige Wertungen aufweisen, erfassen Sie Fehler automatisch als RAG-Bewertungstestfälle.

Hilfreiche Ressourcen:

Entwicklung und Experimentieren: Fördern Sie systematische Iteration

Wenn Ihr Betrieb skaliert, müssen Sie vom manuellen Prototyping zum systematischen Experimentieren übergehen. Dazu müssen Sie parallele Tests in Ihrem gesamten KI-Stack durchführen, um kontinuierlich Verbesserungen zu entdecken.

Kontinuierliche Modell- und Prompt Optimization: Machen Sie die richtige Dimensionierung von Modellen zu einer fortlaufenden Praxis und bewerten Sie Ihre Entscheidungen neu, wenn neue Modelle auf den Markt kommen oder sich Anforderungen ändern. Wählen Sie Multimodellsysteme, die die Komplexität der Aufgabe automatisch an die Modellkapazität anpassen. Erweitern Sie diese Effizienz auf Prompts durch dynamisches Routing mit speziellen Vorlagen, die auf der Klassifizierung von Abfragen, dem Benutzerkontext und der Leistungshistorie basieren. Verfolgen Sie mehrdimensionale Leistungskennzahlen – Genauigkeit, Latenz und Kosten – für datengestützte Entscheidungen über die richtige Dimensionierung von Modellen oder den Wechsel von Prompt-Varianten.

Workflow zur Kontextverfeinerung: Richten Sie wiederholbare Optimierungsprozesse für das Abrufen externen Wissens und das Anpassen von Modellen ein. Implementieren Sie für die RAG-Optimierung strukturierte Experimente, indem Sie fortschrittliche Chunking-Strategien und Abrufansätze (hybride Suche, Metadatenfilterung, Neuformulierung von Abfragen, Neubewertung) und führen Sie dann Iterationen auf der Grundlage der Genauigkeit und Latenz der Abrufe durch. Optimieren Sie die Größe der Einbettung, indem Sie beispielsweise 768 oder 512 gegenüber 1536 Dimensionen testen, um Speicher und Abruflatenz zu reduzieren und gleichzeitig die Genauigkeit beizubehalten. Nutzen Sie für die Modellanpassung Amazon Bedrock, um Workflows zu optimieren – verwenden Sie kontinuierliches Vortraining, um Modelle an domänenspezifisches Vokabular anzupassen, oder überwachte Feinabstimmung, um die aufgabenspezifische Leistung zu verbessern. Amazon SageMaker AI bietet mehr Kontrolle über das Training, wenn der Bedarf wächst.

Richten Sie regelmäßige Optimierungszyklen ein, um Kontextsysteme mit Ihrer Anwendung weiterzuentwickeln, von monatlichen RAG-Leistungsüberprüfungen bis hin zu vierteljährlichen Beurteilungen der Modellanpassung.

Agentenorchestrierung für komplexe Workflows: Da Ihre Agenten vielfältige Produktions-Workloads bewältigen, stoßen Single-Agent-Architekturen an ihre Grenzen. Agenten, die sowohl Fakturierung-Anfragen als auch technische Fehlerbehebungen bearbeiten, haben mit widersprüchlichen Kontexten und Toolsätzen zu kämpfen. Überwachen Sie die Abschlussraten nach Aufgabenkomplexität: Wenn Ihr Agent 85 Prozent der Aufgaben, die zwei bis drei Tool-Aufrufe erfordern, erfolgreich erledigt, aber bei mehr als fünf Aufrufen auf 45 Prozent fällt, haben Sie die Schwelle für die Aufteilung gefunden. Setzen Sie spezialisierte Multi-Agent-Systeme ein, bei denen ein Routing-Agent Fakturierungfragen an Zahlungsagenten delegiert und technische Probleme an Support-Agenten weitergeleitet werden.

Amazon Bedrock AgentCore bewältigt Herausforderungen beim Skalieren der Produktion, indem es Sitzungsisolierung für gleichzeitige Benutzer, erweiterte Laufzeiten für komplexe Schlussfolgerungen und einheitliche Beobachtbarkeit für alle Ihre Agenten bietet. Um sich vor ausufernden Kosten zu schützen, implementieren Sie Zeitüberschreitungsmechanismen, um die Wahrscheinlichkeit von Blockierungsfehlern bei agentenbasierten Workflows und Ausführungen zu verringern.

Systematisches Experimentieren ohne Chaos in der Produktion: Die gleichzeitige Durchführung mehrerer Experimente erfordert die Isolierung von Tests und den Schutz des Produktionsdatenverkehrs. Um die Einführung von KI-Komponenten zu steuern, setzen Sie Funktionsstichwörter über AWS AppConfig ein, wo Sie neue RAG-Abrufstrategien testen oder Prompt-Varianten gleichzeitig über Benutzer hinweg bewerten können.

Um zuverlässige Versuchsergebnisse zu gewährleisten, erstellen Sie zunächst isolierte Testumgebungen, die die Produktionsdaten und Datenverkehrsmuster widerspiegeln. Legen Sie dann standardisierte Metriken fest, sowohl für technische Aspekte wie Genauigkeit und Latenz als auch für Metriken zum Benutzerverhalten wie Zufriedenheit und Engagement. Verwenden Sie beim Vergleich von Experimenten einen ganzheitlichen Bewertungsansatz. Wenn Sie beispielsweise zwei RAG-Abrufstrategien vergleichen, sollten Sie berücksichtigen, dass eine geringfügige Verbesserung der Genauigkeit bei besserer Latenz zu einer höheren Gesamtzufriedenheit der Benutzer führen kann als eine größere Genauigkeitssteigerung bei erhöhter Latenz. Dadurch wird sichergestellt, dass Ihre Versuchsergebnisse die tatsächlichen Auswirkungen widerspiegeln und nicht nur isolierte Metriken.

Nützliche Ressourcen:

Testen und Bewerten: Kontinuierliche Qualitätsschleifen erstellen

Manuelle Tests können schnell unüberschaubar werden, insbesondere wenn mehrmals pro Woche ausgeliefert wird. Der Übergang von einer Vorab-Freigabekontrolle zu einer kontinuierlichen Feedback-Schleife beschleunigt die Iteration und verhindert, dass fehlerhafte Bereitstellungen das Vertrauen der Kunden beeinträchtigen.

Automatisierte Bewertungs-Pipeline: Wandeln Sie die Bewertungsansätze aus Teil 2 in automatisierte Testsuiten um, die in Ihre CI/CD-Pipeline integriert sind. Jede Bereitstellung löst automatisch Komponenten- und End-to-End-Bewertungen aus, bei denen Genauigkeit, Aufgabenabschluss und Antwortqualität gemessen werden. Erkennen Sie Probleme aus Wissensdatenbank-Updates oder Datenaktualisierungen außerhalb der Bereitstellungszyklen, indem Sie nächtliche Regressionstests planen. Vergessen Sie nicht, Qualitätsschwellenwerte festzulegen, um Bereitstellungen zu blockieren, die die Latenz erhöhen oder die Genauigkeit verringern. Die Rückführung von Testfehlern in Ihre Datenpipeline bereichert ebenfalls Ihre Bewertungsabdeckung.

Verantwortungsbewusste KI-Bewertungsstrategien: Funktionale Korrektheit reicht nicht aus – Produktionssysteme müssen sicher und vertrauenswürdig sein. Erweitern Sie automatisierte Tests um Halluzination-Erkennung mit faktischen Grundprüfungen, Promptinjektion-Resistenz durch gegnerische Testfälle und die Beurteilung schädlicher Inhalte. Weitere Strategien zum Skalieren der Leistung und Sicherheit sind die regelmäßige Durchführung von Red-Teaming-Übungen zur Identifizierung unsicherer Verhaltensweisen und Stichprobenkontrollen der Produktionsergebnisse auf verantwortungsvolle KI-Metriken.

Nützliche Ressourcen:

Bereitstellung und Bereitstellung: Skalieren mit Ausfallsicherheit

Mit dem Skalieren des Produktionsdatenverkehrs sollte die Bereitstellung von der einfachen Online-Bereitstellung der Anwendungen zur Umsetzung von Strategien zur Aufrechterhaltung der Zuverlässigkeit und Leistung übergehen.

Skalierbare Bereitstellungsstrategien: Beginnen Sie mit der Definition der Leistungsanforderungen, einschließlich Zieldurchsatz, Latenzperzentilen und Verschlechterungsschwellenwerten. Führen Sie anschließend Lasttests durch, die anhaltenden Datenverkehr, Burst-Muster und mehrstufige Workflows simulieren. Dadurch werden Leistungslücken identifiziert, Architekturentscheidungen getroffen und Infrastrukturanforderungen validiert.

Optimieren Sie die Inferenz-Effizienz durch intelligente Caching- und Serving-Muster. Durch die Nutzung von Bedrock Prompt-Caching können Sie große Kontextblöcke wiederverwenden und so Latenzzeiten und Kosten reduzieren. Die Anpassung der Inferenzmuster an die Anforderungen, etwa durch Verwendung von Echtzeit-Inferenz für interaktive Anwendungen oder Batch-Inferenz für Offline-Analysen, senkt ebenfalls die Kosten erheblich.

Um eine skalierbare Architektur für Ihren gesamten Stack zu schaffen, leitet Amazon Bedrock Cross-Region Inference Anforderungen automatisch über optimale AWS-Regionen weiter, um den Durchsatz und die Verfügbarkeit zu erhöhen. Gleichzeitig passt SageMaker AI Endpoint Auto Scaling die Kapazität dynamisch an, Bedrock AgentCore Runtime bietet eine sichere Agent-Bereitstellung, die skaliert, und OpenSearch Serverless skaliert automatisch die Rechenkapazität für Vektordatenbanken.

Bereitstellungsmuster können auch das Risiko von Releases verringern, z. B. Canary-Bereitstellungen, bei denen 5 bis 10 Prozent des Datenverkehrs neuen Modellen ausgesetzt werden, während die Metriken vor der vollständigen Einführung überwacht werden, und Blau/Grün-Bereitstellungen ermöglichen, die ein sofortiges Rollback bei Regressionen ermöglichen.

Resiliente Serving-Strategien: Über die Skalierbarkeit hinaus müssen Produktionssysteme Kontingentbeschränkungen, vorübergehende Ausfälle und unerwartete Lasten bewältigen, ohne das Erlebnis der Benutzer zu beeinträchtigen. Überprüfen Sie die Amazon Bedrock-Kontingente proaktiv und beantragen Sie Erhöhungen, bevor Sie die Grenzen erreichen. Implementieren Sie eine Ratenbegrenzung mit Amazon API Gateway, um eingehende Anforderunge zu kontrollieren und eine faire Verwendung sicherzustellen. Verwenden Sie Amazon SQS zwischen Ihrer Anwendung und Ihren Modellen, um Nachfrageschwankungen auszugleichen und die Ablehnung von Anforderung zu verhindern.

Durch die Konfiguration von Modellkaskadenhierarchien – vom Primärmodell über das Backup-Modell bis hin zu zwischengespeicherten Antworten und elegant degradierten Antworten – können Sie sicherstellen, dass Benutzer auch dann immer eine Antwort erhalten, wenn die optimalen Bereitstellungspfade ausfallen. Implementieren Sie darüber hinaus Circuit Breaker, um Anfragen an fehlerhafte Abhängigkeiten zu stoppen.

Nützliche Ressourcen:

Beobachtbarkeit und Verfeinerung: kontinuierliche Verbesserung vorantreiben

Machen Sie Beobachtbarkeit zu Ihrem wichtigsten Wettbewerbsvorteil mit einem geschlossenen System, in dem Insights automatisch zu Verfeinerungen führen und so eine sich selbst verbessernde Anwendung schaffen.

Einheitliche Beobachtbarkeit über technische und geschäftliche Metriken hinweg: Korrelationsanalysen sind der Schlüssel zum Verständnis des Systemverhaltens als Ganzes. Erstellen Sie dazu einheitliche Dashboards, die technische und geschäftliche Metriken kombinieren – nicht nur „Modell A vs. Modell B“ , sondern vielmehr „Modell A mit 0,02 US-Dollar/Anforderung und 92 % Genauigkeit vs. Modell B mit 0,08 US-Dollar/Anforderung und 94 % Genauigkeit“ – und verfolgen Sie dann, wie sich jedes Modell auf die 30-Tage-Benutzerbindung auswirkt. Entwerfen Sie rollenspezifische Ansichten aus gemeinsamen Telemetriedaten: Das Engineering sieht Fehlerratenwarnungen und Latenztrends, Produktteams sehen Abschlussraten und Benutzerinteraktionsmuster, Führungskräfte sehen die Kosten pro Interaktion und ROI-Korrelationen. Wenn Ihr Service-Bot während der Einführung von Feature um 40 Prozent längere Anfragen anzeigt oder saisonale Muster die Kostenstruktur um 60 Prozent verändern, deckt die metrikübergreifende Korrelationsanalyse die Ursache auf.

Geschlossene Verbesserungszyklen: Echte Produktionsqualität entsteht durch die Schaffung geschlossener Systeme, in denen die Beobachtbarkeit eine Verfeinerung der gesamten GenAIOps-Pipeline auslöst, wie in der Abbildung unten dargestellt.

Beispielsweise kann die Beobachtbarkeit Ihres Kundenservice-Bots die folgenden Verbesserungen auslösen:

Datenverarbeitung und -verwaltung: Wenn die Fehlerquote bei Anfragen zu Produkteinführungen um 15 Prozent steigt, löst EventBridge eine Synchronisierung der Wissensdatenbank aus, um die neuesten Dokumentationen aus den Quellsystemen in die Erfassung zu übernehmen.
Entwicklung und Experimentieren: Wenn die Lösungsrate des Bots bei Anfragen zur Fakturierung um 20 Prozent sinkt, stellt das System A/B-Tests für auf die Fakturierung spezialisierte Prompt-Varianten in die Warteschlange.
Testen und Bewertung: Wenn die Fehlerquote bei Bestellverfolgungs-Konversationen um 25 Prozent steigt, werden automatisch Testfälle aus fehlgeschlagenen Interaktionen generiert und zu Regressionssuiten hinzugefügt.
Bereitstellung und Bereitstellung: Wenn die Trace-Analyse zeigt, dass 8 Prozent der Agenten-Workflows nach 30 Sekunden eine Zeitüberschreitung aufweisen, aber nach 45 Sekunden erfolgreich abgeschlossen werden, werden die Zeitüberschreitungs-Konfigurationen angepasst.
Governance und Wartung: Wenn die Bereitstellungsprotokolle zeigen, dass 40 Prozent der Releases aufgrund fehlender IAM-Berechtigungen oder Infrastrukturvoraussetzungen fehlschlagen, werden Vorab-Validierungsprüfungen zur Bereitstellungspipeline hinzugefügt, um Konfigurationsprobleme zu erkennen, bevor sie Releases blockieren.

Hilfreiche Ressourcen:

Governance und Wartung: Ermöglichen Sie sichere Innovationen

Ihr Governance-Framework sollte wie ein vertrauenswürdiger Berater wirken, der kluge Risikobereitschaft fördert und gleichzeitig kostspielige Fehler verhindert. Verwandeln Sie den in Teil 2 beschriebenen Integritätsschutz in einen Wettbewerbsvorteil, indem Sie Praktiken der verantwortungsvollen KI anwenden, die das Vertrauen Ihrer Kunden stärken.

Automatisierte Governance-Workflows: Ersetzen Sie manuelle Überprüfungen durch intelligente Automatisierung, indem Sie AWS Step Functions verwenden, um Genehmigungsworkflows zu erstellen, bei denen risikoarme Aktualisierungen wie die Verfeinerung von Prompt-Vorlagen automatisch bereitgestellt werden und risikoreiche Aktualisierungen wie Modelländerungen eine manuelle Überprüfung auslösen. Sie können auch die Compliance-Dokumentation automatisieren, von der Erfassung von Genehmigungsketten bis zur Pflege von Audit Trail. Wenn Bereitstellungen gegen Richtlinien verstoßen, blockieren Workflows automatisch die Freigabe und eskalieren den Vorgang an die Verantwortlichen.

Infrastruktur als Code und Herkunftsverfolgung: Verfolgen Sie die Modellherkunft mit Amazon SageMaker Model Registry und die Datenherkunft mit Amazon SageMaker Catalog-Funktionen. Durch die Dokumentation des Datenflusses von den Quelldokumenten über die Verarbeitungsschritte bis hin zu den Modellausgaben werden auch Audit Trails erstellt, die die Fehlerbehebung und Compliance unterstützen und alles von den Trainingsdaten bis zu den Inferenzresultaten nachvollziehbar machen.

Operative Transparenz und Verantwortlichkeit: Erstellen Sie rollenspezifische Dashboards in Amazon QuickSight, die Governance-Kennzahlen anzeigen. Legen Sie klare Zuständigkeiten für alle Teams fest, wobei das Produktteam für die Leistungsziele, das Engineering-Team für die Zuverlässigkeit, das Compliance-Team für die Sicherheit und das Governance-Team für die teamübergreifende Koordination verantwortlich ist.

Nützliche Ressourcen:

Fazit

Die Erreichung von Produktionsqualität ist keine einmalige Angelegenheit, sondern ein fortlaufender Prozess, bei dem eine Pipeline aufgebaut wird, die aus jeder Bereitstellung, jedem Fehler und jedem Benutzer lernt. Diese systematischen Verbesserungen summieren sich im Laufe der Zeit und schaffen Wettbewerbsvorteile, die über das hinausgehen, was durch eine schnellere Bereitstellung von Features allein möglich wäre.

Um den nächsten Schritt zu tun, priorisieren Sie die anspruchsvollste Stufe Ihrer Pipeline – seien es Experimente, deren Validierung zu lange dauert, schwierige Bereitstellungen oder unvorhersehbare Kosten. Sobald Sie diesen Bereich automatisiert haben, gehen Sie zur nächsten über und machen Sie weiter. Letztendlich ist es nicht, auf bessere Modelle zuzugreifen, was führende KI-Startups auszeichnet, sondern eine robuste GenAIOps-Pipeline, die das Erlebnis kontinuierlich verbessert.

Nima Seifi

Nima Seifi ist Senior Solutions Architect bei AWS mit Sitz in Südkalifornien, wo er sich auf SaaS und GenAIOps spezialisiert hat. Er ist als technischer Berater für Startups tätig, die auf AWS aufbauen. Vor seiner Tätigkeit bei AWS arbeitete er über 5 Jahre lang als DevOps-Architekt in der E-Commerce-Branche, nachdem er zuvor ein Jahrzehnt lang in der Forschung und Entwicklung im Bereich mobile Internet-Technologien tätig war. Nima hat über 20 Veröffentlichungen in renommierten Fachzeitschriften und auf Konferenzen verfasst und hält 7 US-Patente. In seiner Freizeit liest er gerne, schaut Dokumentarfilme und unternimmt Spaziergänge am Strand.

Pat Santora

Pat Santora ist Cloud-Architekt und Technologe bei GenAI Labs und verfügt über mehr als 25 Jahre Erfahrung in der Implementierung von Cloud-Lösungen für Unternehmen und Startups. Er hat zahlreiche Produkte von der Konzeption bis zur Markteinführung erfolgreich eingeführt, analytische Umstrukturierungsprojekte geleitet und Remote-Teams mit einer Philosophie geführt, die auf Transparenz und Vertrauen basiert. Seine technische Expertise umfasst strategische Planung, Systemmanagement und architektonische Neugestaltung, ergänzt durch sein Interesse an generativer KI, Analytik und Big Data.

Clement Perrot

Clement Perrot unterstützt führende Startups bei der Beschleunigung ihrer KI-Initiativen durch strategische Beratung bei der Modellauswahl, der verantwortungsvollen KI-Implementierung und der Optimierung von Machine-Learning-Prozessen. Als Serienunternehmer und Inc-30-Under-30-Preisträger verfügt er über fundierte Fachkenntnisse im Aufbau und in der Skalierung von KI-Unternehmen und hat mehrere Unternehmen in den Bereichen Verbrauchertechnologie und Unternehmens-KI gegründet und erfolgreich verkauft.

Wie war dieser Inhalt?