Zum Hauptinhalt springenAWS Startups

Leitfaden für Startups zu GenAIOps in AWS, Teil 2: Grundlagen

Wie war dieser Inhalt?

In Teil 1 haben wir die Vorteile der Einführung von GenAIOps vom ersten Tag an untersucht und unsere anwendungsorientierte Pipeline vorgestellt, die speziell für Startups entwickelt wurde, die KI-gestützte Produkte entwickeln. In Teil 2 bieten wir nun praktische Anleitungen für die Implementierung der wesentlichen Komponenten, die Sie vom Prototyp zu produktionsreifen Lösungen führen.

GenAIOps-Pipeline: die Grundlagen

Der Schlüssel zur erfolgreichen Implementierung von GenAIOps liegt darin, frühzeitig eine solide Grundlage mit robusten Bewertungsfunktionen zu schaffen – und so einen kontinuierlichen Verbesserungsprozess in Gang zu setzen, bei dem jede Iteration auf den Erkenntnissen der vorherigen aufbaut. Dies verhindert erhebliche technische Schulden und ermöglicht gleichzeitig schnelle Experimente.

Lassen Sie uns untersuchen, wie Sie wichtige Komponenten für jede Stufe Ihrer GenAIOps-Pipeline mit schlanken, aber effektiven Techniken implementieren können. Weitere Erkenntnisse darüber, welche AWS-Services oder Drittanbieterdienste für die einzelnen Schritte am besten geeignet sind, finden Sie in den begleitenden Kurzübersichtskarten.

Datentechnik und -verwaltung

Richten Sie eine schlanke Datenpipeline ein, um wichtige Datenartefakte zu verwalten, die Ihre KI-Anwendung direkt unterstützen. Konzentrieren Sie sich auf die folgenden wichtigen Datensätze, basierend auf Ihrem Anwendungsfall. 

Datensätze für die Modellauswahl: Standardisierte Bewertungsdatensätze sind für einen fairen Modellvergleich von entscheidender Bedeutung. Beginnen Sie mit branchenüblichen Benchmarking-Datensätzen (MMLU, GPQA, DROP usw.),den in Amazon Bedrock integrierten Bewertungsdatensätzen oder erstellen Sie Ihre eigenen domainspezifischen Datensätze. Diese dienen als Leitfaden für die Modellbewertung – greifen Sie darauf zurück, wenn neue Modelle veröffentlicht werden oder wenn Sie Ihre Modellauswahl überdenken möchten.

Prompt-Engineering-Datensätze: Diese Datensätze umfassen Ihre Prompt-Vorlagen und Ground-Truth-Datensätze. Verwenden Sie Amazon Bedrock Prompt Management oder eine Open-Source-Alternative wie Langfuse , um einen zentralisierten Prompt-Katalog zur Versionsverwaltung, zum Testen und zur Verwaltung von Prompts zu implementieren. Erstellen Sie zusätzlich mehr als 100 von Menschen kuratierte Abfrage-Antwort-Paare, die Ihren Goldstandard für das Testen und Optimieren von Prompts darstellen.

Retrieval-Augmented-Generation-(RAG)-Datensätze: Beginnen Sie mit der Vorbereitung Ihrer externen Wissensquellen: Für unstrukturierte Daten wie Dokumentationen umfasst der Prozess die Datenerfassung, Aufteilung und Generierung von Vektor-Einbettungen unter Verwendung von Modellen von Amazon Titan oder Cohere auf Bedrock. Speichern Sie Einbettungen in verwalteten Vektordatenbanken wie Amazon OpenSearch Serverless oder Amazon S3 Vectors; für strukturierte Daten wie tabellarische Daten umfasst der Prozess die Vorverarbeitung, Schemaanalyse, Metadatenanreicherung und das Laden in unterstützte strukturierte Datenspeicher. Implementieren Sie für beide Datentypen einfache, aber effektive Mechanismen zur Datenaktualisierung, um Ihre Wissensquellen auf dem neuesten Stand zu halten. Erstellen Sie zusätzlich RAG-Bewertungsdatensätze mit Abfrage-Kontext-Antwort-Tripletts, um die Genauigkeit der Abfrage und die Qualität der Antworten zu testen.

Datensätze zur Modellanpassung: Beginnen Sie mit der Erfassung Ihrer wertvollsten geschützten Daten. Generieren Sie synthetische Trainingsbeispiele, wenn die geschützten Daten nicht ausreichen.

Kurzübersichtskarten: Datentechnik und -management auf einen Blick

Nützliche Ressourcen:

Entwicklung und Experimentieren

In der frühen Entwicklungsphase sollten Startups Geschwindigkeit und Einfachheit priorisieren und sich auf schnelle Experimente mit Low-Code-Services konzentrieren, um die Markteinführungszeit zu verkürzen.

Modellauswahl: Beginnen Sie mit öffentlichen Benchmarks wie LMArena oder Artificial Analysis, um eine erste Auswahlliste zu erstellen, und grenzen Sie die Auswahl dann durch eine anwendungsspezifische Bewertung ein. Amazon Bedrock bietet Ihnen die Möglichkeit, auf führende Basismodell-Familien (FM-Familien) zuzugreifen. Nutzen Sie Amazon-Bedrock-Bewertungen oder Amazon SageMaker Clarify, um die Modelle auf Ihrer Auswahlliste zu bewerten.

Prompt-Engineering: Definieren Sie klare Erfolgskriterien, die mit Ihren Geschäftszielen übereinstimmen, und erstellen Sie für jedes Kriterium messbare Metriken. Entwerfen Sie erste Prompts gemäß den Designrichtlinien für die von Ihnen ausgewählten Modelle und bewerten Sie diese anschließend systematisch anhand Ihres Ground-Truth-Datensatzes. Nutzen Sie die Prompt-Optimierung von Amazon Bedrock während der Erstellung und Verfeinerung für modellspezifische Verbesserungen. Wiederholen Sie diesen Vorgang, bis Sie konsistente Ergebnisse erzielen, und veröffentlichen Sie dann erfolgreiche Prompts mit der richtigen Versionsverwaltung in Ihrem Prompt-Katalog.

RAG: Nutzen Sie vollständig verwaltete RAG-Optionen in AWS, um die Implementierung von Datenspeichern, Retrievern, FMs und Orchestratoren zu optimieren und so die Entwicklungszeit und den Betriebsaufwand erheblich zu reduzieren. Beginnen Sie damit, Ihr RAG-System mit unterstützten Datenquellen zu verbinden, und integrieren Sie es anschließend in ein FM, um den vollständigen Workflow für die erweiterte Generierung zu erstellen. Beginnen Sie mit einer fokussierten Domain, um die Wirksamkeit zu validieren, bevor Sie auf zusätzliche Datenquellen erweitern. Nutzen Sie fortschrittliche RAG-Techniken wie Abfrageänderung und Neuanordnung, um die Relevanz der Antworten zu verbessern.

Modellanpassung: Verwenden Sie Trainingsdatensätze, um vorab trainierte FMs anzupassen für eine verbesserte Leistung in bestimmten Anwendungsfällen. Beginnen Sie stets mit Prompt-Engineering und wechseln Sie dann zu RAG, wenn zusätzlicher Kontext erforderlich ist. Führen Sie eine Modellanpassung nur durch, wenn die vorherigen Ansätze Ihren Anforderungen nicht entsprechen, und beginnen Sie mit einem fokussierten Datensatz aus einer Domain, um die Verbesserungen zu validieren, bevor Sie expandieren.

KI-Agenten: Erstellen Sie KI-gestützte Assistenten, die komplexe Aufgaben ausführen und mit verschiedenen APIs und Diensten interagieren können. Amazon Bedrock Agents übernehmen automatisch die komplexe Orchestrierung des Verstehens der Benutzerabsicht, der Festlegung von Aktionen, des API-Aufrufs und der Darstellung der Ergebnisse in natürlicher Sprache. Für eine maßgeschneiderte Implementierung sollten Sie die Verwendung von Open-Source-Frameworks wie Strands oder LangGraph in Betracht ziehen.

Anwendungsentwicklung und -experimentierung: Wählen Sie Ihren Entwicklungsansatz basierend auf der Expertise Ihres Teams und den Anforderungen an den Lieferzeitplan. AWS bietet mehrere Services, die sich gut für Startups eignen (siehe unten), und Amazon Q Developer dient als KI-gestützter Assistent, der Ihnen hilft, AWS-Anwendungen zu verstehen, zu erstellen, zu erweitern und zu betreiben. Etablieren Sie strukturierte Experimentieransätze, die eine systematische Verbesserung ermöglichen und gleichzeitig eine schnelle Iteration gewährleisten. Führen Sie ein Experimentprotokoll mit Hypothesen, Implementierungsdetails und Ergebniskennzahlen, um sicherzustellen, dass Experimente klare Erfolgskriterien haben, die an Geschäftskennzahlen und nicht nur an technischen Kennzahlen gebunden sind.

Kurzübersichtskarten: Entwicklung und Experimentieren auf einen Blick

Nützliche Ressourcen:

Testen und Bewerten

Richten Sie schlanke, aber strenge Prozesse ein, um zu überprüfen, ob Ihre Anwendung zuverlässig funktioniert und eine gute Leistung erbringt, wobei Sie die in Stufe 1 erstellten Bewertungsdatensätze verwenden. Schaffen Sie ein Gleichgewicht zwischen Gründlichkeit und Startup-Geschwindigkeit, indem Sie sich zunächst auf Ihre kritischsten Benutzer-Workflows konzentrieren.

Bewertung auf Komponentenebene: Messen Sie, wie gut Ihre KI- und Nicht-KI-Komponenten ihre vorgesehenen Aufgaben erfüllen. Verwenden Sie beispielsweise für RAG-Systeme Amazon Bedrock Evaluations oder Frameworks wie RAGAS, um die Genauigkeit der Abfrage und die Qualität der Antwortgenerierung zu bewerten . Für Agenten sollten Frameworks wie Agent Evaluation oder LLM-as-a-judge approach zur Bewertung von Metriken wie Aufgabenabschlussraten und Genauigkeit von Entscheidungen/Tool-Nutzung basierend auf Ihren Anwendungsfallanforderungen genutzt werden.

Ende-zu-Ende-Systemtests: Testen Sie vollständige Benutzer-Workflows mit aufgabenspezifischen Bewertungsdatensätzen. Definieren Sie geschäftsorientierte Erfolgskennzahlen für jede Kernaufgabe und überprüfen Sie anschließend, ob die Komponenten nahtlos über die gesamte Benutzerreise hinweg funktionieren. Ergänzen Sie automatisierte Tests durch eine manuelle Beurteilung der Antwortqualität, Relevanz und Markenausrichtung – Aspekte, die automatisierte Metriken häufig außer Acht lassen. Verwenden Sie diese Bewertungsergebnisse, um Basiswerte festzulegen, und verbessern Sie diese dann iterativ auf der Grundlage von Benutzerfeedback und geschäftlichen Auswirkungen. Erwägen Sie die Verwendung von verwaltetem MLFlow auf SageMaker AI, um Experimente über verschiedene Systemversionen hinweg zu verfolgen.

Kurzübersichtskarten: Testen und Bewerten auf einen Blick

Nützliche Ressourcen:

Bereitstellung und Betrieb

Beginnen Sie mit der einfachsten Bereitstellung, basierend auf Ihren technischen Anforderungen und den Fähigkeiten Ihres Teams, und entwickeln Sie Ihre Architektur dann im Zuge Ihres Wachstums weiter. Das AWS-Ökosystem bietet natürliche Upgrade-Pfade zwischen diesen Bereitstellungsmustern, ohne dass eine vollständige Neuprogrammierung der Architektur erforderlich ist.

Modellbereitstellung: Beginnen Sie mit Amazon Bedrock, um über eine einheitliche API sofortigen Zugriff zu FMs zu erhalten. Wenn Sie spezielle Modelle benötigen, die in Bedrock nicht verfügbar sind, erkunden Sie Amazon Bedrock Marketplace oder Amazon SageMaker JumpStart um Ihr Modell direkt auf SageMaker AI zu entdecken und bereitzustellen.

Anwendungshosting und -betrieb: Bereitstellung moderner Webanwendungen mit AWS Amplify Hosting. Erstellen Sie leichtgewichtige Microservices, indem Sie AWS-Lambda-Funktionen in Amazon API Gateway integrieren. Nutzen Sie AWS App Runner als Einstiegspunkt für die Bereitstellung containerisierter Anwendungen. Implementieren Sie zur Gewährleistung der Zuverlässigkeit einfache Fallback-Mechanismen: Fallen Sie auf Basismodellantworten zurück, wenn die RAG-Abrufung fehlschlägt, wechseln Sie zu Backup-Modellen, wenn die Primärmodelle nicht verfügbar sind, und speichern Sie häufige Abfragen mit Amazon MemoryDB im Cache. Richten Sie Circuit Breaker für abhängige Services ein, um Kettenausfälle zu verhindern. Diese Muster bilden die Grundlage für ausgefeiltere Resilienzstrategien, wenn die Anzahl der Benutzer wächst.

Workflow-Orchestrierung: Für komplexe KI-Vorgänge, die eine Entkopplung von Anfrage und Antwort erfordern, kombinieren Sie Amazon SQS für die Aufgabenwarteschlange mit AWS Step Functions zur Orchestrierung mehrstufiger Workflows. Dieses Muster ist besonders wertvoll für zeitaufwändige Vorgänge wie die Stapelverarbeitung oder Workflows mit mehreren Modellaufrufen.

Kurzübersichtskarten: Bereitstellung und Betrieb auf einen Blick

Nützliche Ressourcen:

Beobachtbarkeit und Feinabstimmung

Konzentrieren Sie sich auf die wesentliche Beobachtbarkeit, die unmittelbare Auswirkungen auf das Geschäft hat und gleichzeitig die Komplexität minimiert.

Überwachung wichtiger Kennzahlen: Konzentrieren Sie sich auf technische Leistungskennzahlen, die für Ihren Anwendungsfall relevant sind, und richten Sie CloudWatch-Alarme für kritische Schwellenwerte ein. Verfolgen Sie das Erlebnis des Benutzers durch einfache Feedback-Mechanismen (Daumen hoch/runter), Abschlussraten von Konversationen und Muster der Verwendung von Features. Diese decken häufig Probleme auf, die technische Kennzahlen übersehen, und wirken sich direkt auf den Geschäftserfolg aus.

Wichtige Einrichtung der Beobachtbarkeit: Verwenden Sie die native Integration von Amazon CloudWatch mit Diensten wie Bedrock und SageMaker AI für die grundlegende Überwachung. Für komplexe RAG-Muster sollten Sie die Erstellung von benutzerdefinierten CloudWatch-Dashboards zu erstellen. Um die Interaktion zwischen verschiedenen Anwendungskomponenten zu erfassen, implementieren Sie verteiltes Tracing mit Amazon X-Ray oder spezialisierten LLM-Beobachtbarkeit-Plattformen wie Langfuse oder LangSmith implementieren.

Kostenverfolgung: Verwenden Sie AWS-Kostenverteilungstags, um die Ausgaben nach Feature, Umgebung oder Kundensegment zu verfolgen. Richten Sie AWS Budgets mit tagbasierten Filtern ein, um Benachrichtigungen bei Anomalien oder Schwellenwertüberschreitungen zu erhalten.

Verfeinerungs-Workflow: Führen Sie wöchentliche Überprüfungen der Betriebs-Dashboards und Kostenaufschlüsselungen durch, um Optimierungschancen zu identifizieren. Nutzen Sie die gewonnenen Erkenntnisse, um sofortige Verbesserungen vorzunehmen, so etwa die Anpassung der Prompt-Längen, den Wechsel von Modellen für kosten- oder latenzempfindliche Workloads oder die Optimierung von Abrufstrategien auf der Grundlage der Verwendung. Implementieren Sie ein Problemverfolgungssystem, das Produktionsbeobachtungen mit bestimmten Pipeline-Stufen verknüpft, die angepasst werden müssen. Automatisieren Sie die Erfassung problematischer Abfragen und Antworten, um zukünftige Testszenarien zu informieren.

Kurzübersichtskarten: Beobachtbarkeit und Feinabstimmung auf einen Blick

Nützliche Ressourcen:

Verwaltung und Wartung

Etablieren Sie schlanke Governance-Praktiken, die Ihr Startup schützen und gleichzeitig schnelle Iterationen ermöglichen. Dies trägt dazu bei, das Vertrauen der Stakeholder zu stärken, ohne die Entwicklungsgeschwindigkeit zu beeinträchtigen.

Verantwortungsvolle KI und Sicherheit: Implementieren Sie Amazon-Bedrock-Integritätsschutz als Ihre erste Verteidigungslinie. Konfigurieren Sie Inhaltsfilter für Volksverhetzung, Hassreden, Gewalt und Themen, die mit Ihrem Anwendungsfall in Zusammenhang stehen. Dieser Integritätsschutz funktioniert sowohl für Bedrock-Modelle als auch für externe Modelle und bietet Echtzeitschutz, ohne die Entwicklungsgeschwindigkeit zu beeinträchtigen.

Versionskontrolle und Dokumentation: Verfolgen Sie KI-Artefakte systematisch mit Amazon S3 mit aktivierter Versionsverwaltung und implementieren Sie klare Namenskonventionen für Modelle, Prompts und Datensätze. Erstellen Sie kompakte Modellkarten, die den Zweck, die Datenquellen, die Einschränkungen und die Leistungskennzahlen jedes KI-Modells dokumentieren – unerlässlich für Transparenz und zukünftige Compliance-Anforderungen.

Sicherheit und Compliance: Konfigurieren Sie AWS-IAM-Rollen nach dem Prinzip der geringsten Berechtigung mit separaten Rollen für Entwicklung, Test und Produktion. Verwenden Sie AWS Secrets Manager für API-Schlüssel und sensible Konfigurationen. Aktivieren Sie AWS CloudTrail für die automatische Audit-Protokollierung, um wichtige Grundlagen für die Compliance zu schaffen.

Reaktion auf Vorfälle: Entwickeln Sie einfache Runbooks für häufige Fehler: Modellfehler, Leistungsabfall oder Kostenanstiege. Legen Sie klare Eskalationspfade fest und implementieren Sie grundlegende Backup-Strategien für kritische Artefakte.

Kurzübersichtskarten: Verwaltung und Wartung auf einen Blick

Fazit

Die Implementierung von GenAIOps in frühen Startphasen erfordert keine massiven Investitionen oder komplexe Infrastruktur. Indem Sie sich auf die wesentlichen Elemente jeder Pipeline-Stufe konzentrieren und die von AWS verwalteten Dienste nutzen, können Sie eine Grundlage schaffen, die schnelle Iterationen unterstützt und gleichzeitig die betrieblichen Praktiken etabliert, die zukünftiges Wachstum ermöglichen.

Denken Sie daran, dass das Ziel in dieser Stufe nicht Perfektion, sondern Intentionalität ist – die Schaffung von Systemen, die die besonderen Herausforderungen von KI-Anwendungen berücksichtigen und gleichzeitig für Ihre aktuelle Größe geeignet sind. Beginnen Sie mit diesen Grundlagen, messen Sie, was für Ihre Benutzer wichtig ist, und dokumentieren Sie Ihre Erkenntnisse.

In Teil 3 zeigen wir Ihnen, wie Sie diese Praktiken weiterentwickeln können, wenn Sie mit dem Skalieren Ihrer Abläufe beginnen, um der wachsenden Kundennachfrage gerecht zu werden.

Nima Seifi

Nima Seifi

Nima Seifi ist Senior Solutions Architect bei AWS mit Sitz in Südkalifornien, wo er sich auf SaaS und GenAIOps spezialisiert hat. Er ist als technischer Berater für Startups tätig, die auf AWS aufbauen. Vor seiner Tätigkeit bei AWS arbeitete er über 5 Jahre lang als DevOps-Architekt in der E-Commerce-Branche, nachdem er zuvor ein Jahrzehnt lang in der Forschung und Entwicklung im Bereich mobile Internet-Technologien tätig war. Nima hat über 20 Veröffentlichungen in renommierten Fachzeitschriften und auf Konferenzen verfasst und hält 7 US-Patente. In seiner Freizeit liest er gerne, schaut Dokumentarfilme und unternimmt Spaziergänge am Strand.

Anu Jayanthi

Anu Jayanthi

Anu Jayanthi arbeitet mit Startup-Kunden zusammen und bietet ihnen Unterstützung und strategische technische Beratung bei der Planung und Entwicklung von Lösungen unter Verwendung der bewährten Verfahren von AWS.

Pat Santora

Pat Santora

Pat Santora ist Cloud-Architekt und Technologe bei GenAI Labs und verfügt über mehr als 25 Jahre Erfahrung in der Implementierung von Cloud-Lösungen für Unternehmen und Startups. Er hat zahlreiche Produkte von der Konzeption bis zur Markteinführung erfolgreich eingeführt, analytische Umstrukturierungsprojekte geleitet und Remote-Teams mit einer Philosophie geführt, die auf Transparenz und Vertrauen basiert. Seine technische Expertise umfasst strategische Planung, Systemmanagement und architektonische Neugestaltung, ergänzt durch sein Interesse an generativer KI, Analytik und Big Data.

Clement Perrot

Clement Perrot

Clement Perrot unterstützt führende Startups bei der Beschleunigung ihrer KI-Initiativen durch strategische Beratung bei der Modellauswahl, der verantwortungsvollen KI-Implementierung und der Optimierung von Machine-Learning-Prozessen. Als Serienunternehmer und Inc-30-Under-30-Preisträger verfügt er über fundierte Fachkenntnisse im Aufbau und in der Skalierung von KI-Unternehmen und hat mehrere Unternehmen in den Bereichen Verbrauchertechnologie und Unternehmens-KI gegründet und erfolgreich verkauft.

Wie war dieser Inhalt?