Pelajari
Panduan Startup untuk GenAIOps di AWS Bagian 3: Menuju Keunggulan Produksi

Panduan Startup untuk GenAIOps di AWS Bagian 3: Menuju Keunggulan Produksi

Bagaimana konten ini?

Startup’s guide to GenAIOps on AWS part 3

Di Bagian 1 dan Bagian 2, kami membuat fondasi GenAIOps untuk MVP hingga deployment produksi awal. Jika Anda telah mengimplementasikan praktik ini, Anda mungkin melihat hasilnya: adopsi yang berkembang, pelanggan membayar, dan sinyal kecocokan produk pasar yang diimpikan oleh setiap pendiri. Namun, kesuksesan membawa tantangan baru.

Kesederhanaan yang membantu tahap awal Anda sekarang menghadapi tekanan penskalaan: mempertahankan keandalan saat volume permintaan meningkat, memastikan performa yang konsisten di berbagai beban kerja pengguna, dan mengelola kompleksitas yang menyertai pertumbuhan. Bagian 3 menunjukkan kepada Anda tentang cara menangani tuntutan penskalaan tanpa mengorbankan kecepatan inovasi.

Mengembangkan jalur Anda

Mencapai keunggulan produksi bukan hanya tentang mengelola lebih banyak lalu lintas. Ini tentang membangun jalur yang berfungsi dengan andal, efisien, dan dapat diprediksi dalam skala besar. Hal ini berarti mengotomatiskan proses manual, membangun eksperimen dan deployment sistematis, serta mengimplementasikan observabilitas untuk memahami tidak hanya apa yang terjadi, tetapi mengapa. Seperti yang diilustrasikan di bawah ini, evolusi ini terjadi melalui pergeseran operasional di enam tahap jalur—dari hal-hal penting yang membawa Anda dari MVP ke kecocokan produk pasar hingga sistem otomatis yang memungkinkan pertumbuhan berkelanjutan. Mari kita jelajahi cara mengembangkan setiap tahap.

Rekayasa dan manajemen data: beralih ke aset data yang terus berkembang

Dengan lalu lintas produksi yang sekarang mengalir, inilah saatnya untuk mentransformasikan set data statis menjadi sumber daya yang terus diperkaya yang didukung oleh interaksi pengguna nyata.

Penambangan log produksi sistematis: Perluas pemilihan model dan set data evaluasi prompt dari ratusan contoh yang dikurasi hingga ribuan kasus uji nyata. Kumpulkan contoh penyempurnaan bernilai tinggi, misalnya, percakapan yang memerlukan intervensi manusia dan pertanyaan yang menunjukkan perilaku yang diinginkan. Gunakan Amazon SageMaker Ground Truth Plus untuk mengkurasi contoh produksi untuk penyempurnaan yang diawasi.

Jalur data RAG otomatis: Ganti pembaruan sumber data manual untuk basis pengetahuan dengan alur kerja yang didorong peristiwa menggunakan Amazon EventBridge. Alur kerja yang melibatkan dokumen, gambar, audio, dan video dapat diotomatisasi dalam skala besar menggunakan Otomatisasi Data Amazon Bedrock. Ketika kueri gagal mengambil konteks yang relevan atau menunjukkan skor keyakinan rendah, secara otomatis mengambil kegagalan sebagai kasus uji evaluasi RAG.

Sumber daya yang bermanfaat:

Pengembangan dan eksperimen: iterasi sistematis juara

Seiring berkembangnya operasi Anda, Anda perlu beralih dari pembuatan prototipe manual ke eksperimen sistematis. Hal ini perlu menjalankan uji paralel di seluruh tumpukan AI Anda untuk terus menemukan peningkatan.

Model berkelanjutan dan optimisasi prompt: Jadikan penyesuaian ukuran model sebagai praktik berkelanjutan, mengevaluasi ulang pilihan saat model baru muncul atau persyaratan berubah. Pilih sistem multimodel yang secara otomatis mencocokkan kompleksitas tugas dengan kemampuan model. Perluas efisiensi ini ke prompt melalui perutean dinamis dengan templat khusus berdasarkan klasifikasi kueri, konteks pengguna, dan riwayat performa. Lacak metrik performa multidimensional—akurasi, latensi, serta biaya—untuk keputusan yang didorong data tentang penyesuaian ukuran model atau pengalihan varian prompt.

Alur kerja penyempurnaan konteks: Tetapkan proses optimisasi yang dapat diulang untuk mengambil pengetahuan eksternal dan menyesuaikan model. Untuk optimisasi RAG, implementasikan eksperimen terstruktur dengan menguji strategi pengelompokan advanced dan pendekatan pengambilan (pencarian hibrida, penyaringan metadata, reformulasi kueri, pemeringkatan ulang), lalu mengulangi berdasarkan akurasi pengambilan serta latensi. Optimalkan ukuran sematan dengan menguji misalnya dimensi 768 atau 512 vs. 1536 untuk mengurangi biaya penyimpanan dan latensi pengambilan sambil mempertahankan akurasi. Untuk kustomisasi model, manfaatkan Amazon Bedrock untuk menyederhanakan alur kerja—gunakan prapelatihan lanjutan untuk menyesuaikan model dengan kosakata khusus domain, atau penyempurnaan yang diawasi untuk meningkatkan performa khusus tugas. Amazon SageMaker AI memberikan kontrol yang lebih besar atas pelatihan seiring dengan meningkatnya kebutuhan.

Tetapkan siklus optimisasi reguler untuk mengembangkan sistem konteks dengan aplikasi Anda, mulai dari peninjauan performa RAG bulanan hingga penilaian kustomisasi model triwulanan.

Orkestrasi agen untuk alur kerja yang kompleks: Saat agen Anda menangani beban kerja produksi yang beragam, arsitektur agen tunggal mencapai batas kompleksitas. Agen yang mencoba pertanyaan penagihan dan pemecahan masalah teknis kesulitan dengan konteks dan set alat yang saling bertentangan. Pantau laju penyelesaian berdasarkan kompleksitas tugas: jika agen Anda berhasil pada 85 persen tugas yang membutuhkan 2-3 panggilan alat tetapi turun menjadi 45 persen dengan 5+ panggilan, Anda telah menemukan ambang untuk dekomposisi. Lakukan deployment sistem multiagen khusus tempat agen perutean mendelegasikan pertanyaan penagihan ke agen pembayaran serta masalah teknis mengalir ke agen pendukung.

Amazon Bedrock AgentCore mengatasi tantangan penskalaan produksi dengan menyediakan isolasi sesi untuk pengguna bersamaan, runtime yang diperpanjang untuk penalaran yang kompleks, dan observabilitas terpadu di seluruh agen Anda. Untuk melindungi terhadap biaya tidak terduga, implementasikan mekanisme waktu habis untuk mengurangi kemungkinan pemblokiran kegagalan pada alur kerja agen dan pelaksanaan.

Eksperimen sistematis tanpa kekacauan produksi: Menjalankan beberapa eksperimen secara bersamaan bergantung pada pengujian isolasi dan perlindungan lalu lintas produksi. Untuk mengontrol peluncuran komponen AI, lakukan deployment bendera fitur melalui AWS AppConfig tempat Anda dapat menguji strategi pengambilan RAG baru atau mengevaluasi varian prompt secara bersamaan di seluruh segmen pengguna.

Untuk memastikan hasil eksperimen yang andal, mulai dengan menciptakan lingkungan pengujian terisolasi yang mencerminkan data produksi dan pola lalu lintas. Kemudian buat metrik standar di kedua aspek teknis seperti akurasi dan latensi, serta metrik perilaku pengguna seperti kepuasan serta keterlibatan. Saat membandingkan eksperimen, ambil pendekatan holistik untuk evaluasi. Misalnya, ketika membandingkan dua strategi pengambilan RAG, pertimbangkan bahwa peningkatan akurasi kecil dengan latensi yang lebih baik dapat mendorong kepuasan pengguna secara keseluruhan yang lebih tinggi dibandingkan peningkatan akurasi yang lebih besar dengan peningkatan latensi. Hal ini memastikan bahwa hasil eksperimen Anda mencerminkan dampak dunia nyata dibandingkan hanya metrik yang terisolasi.

Sumber daya yang bermanfaat:

Pengujian dan evaluasi: buat putaran kualitas berkelanjutan

Pengujian manual dapat dengan cepat menjadi tidak terkendali, terutama saat pengiriman beberapa kali seminggu. Beralih dari gerbang sebelum rilis ke putaran umpan balik berkelanjutan akan mendorong iterasi lebih cepat dan mencegah deployment yang buruk merusak kepercayaan pelanggan.

Jalur evaluasi otomatis: Transformasikan pendekatan evaluasi dari Bagian 2 menjadi rangkaian uji otomatis yang terintegrasi dengan jalur CI/CD Anda. Setiap deployment kode secara otomatis memicu evaluasi komponen dan end-to-end—mengukur akurasi, penyelesaian tugas, dan kualitas respons. Ambil masalah dari pembaruan basis pengetahuan atau penyegaran data di luar siklus deployment dengan menjadwalkan uji regresi malam hari. Jangan lupa untuk mengatur ambang kualitas untuk memblokir deployment yang meningkatkan latensi atau mengurangi akurasi. Memasukkan kegagalan uji kembali ke jalur data Anda juga akan memperkaya cakupan evaluasi Anda.

Strategi evaluasi AI yang bertanggung jawab: Kebenaran fungsional tidak cukup—sistem produksi harus aman dan dapat dipercaya. Perluas pengujian otomatis untuk mencakup deteksi halusinasi dengan pemeriksaan landasan faktual, resistansi injeksi prompt melalui kasus uji adversarial, dan penilaian konten berbahaya. Strategi lain untuk mendukung performa serta keamanan dalam skala besar termasuk menjalankan latihan red teaming secara teratur untuk mengidentifikasi perilaku yang tidak aman dan memeriksa output produksi untuk metrik AI yang bertanggung jawab.

Sumber daya yang bermanfaat:

Deployment dan pelayanan: menskalakan dengan ketahanan

Seiring meningkatnya lalu lintas produksi Anda, deployment harus berkembang dari sekadar membuat aplikasi online hingga mengimplementasikan strategi yang menjaga keandalan dan performa.

Strategi deployment yang dapat diskalakan: Mulai dengan menentukan persyaratan performa, termasuk throughput target, persentil latensi, dan ambang degradasi. Berikutnya, lakukan uji beban yang menyimulasikan lalu lintas berkelanjutan, pola lonjakan, dan alur kerja multilangkah. Hal ini akan mengidentifikasi kesenjangan performa, menginformasikan keputusan arsitektur, serta memvalidasi persyaratan infrastruktur.

Optimalkan efisiensi inferensi melalui caching cerdas dan pola pelayanan. Memanfaatkan caching prompt Bedrock akan membantu Anda menggunakan ulang blok konteks besar, pada gilirannya mengurangi latensi dan biaya. Mencocokkan pola inferensi dengan persyaratan, misalnya, menggunakan inferensi waktu nyata untuk aplikasi interaktif atau inferensi batch untuk analisis offline, juga akan menurunkan biaya secara signifikan.

Untuk merancang skala di seluruh tumpukan Anda, inferensi lintas wilayah Amazon Bedrock secara otomatis merutekan permintaan di seluruh AWS Region yang optimal untuk meningkatkan throughput dan ketersediaan. Sementara itu, penskalaan otomatis titik akhir SageMaker AI secara dinamis menyesuaikan kapasitas, Runtime AgentCore Bedrock menawarkan deployment agen yang aman dalam skala besar, dan OpenSearch Nirserver secara otomatis menskalakan kapasitas komputasi untuk basis data vektor.

Pola deployment juga dapat mengurangi risiko rilis, seperti deployment canary untuk mengekspos 5-10 persen lalu lintas ke model baru sambil memantau metrik sebelum peluncuran penuh dan deployment blue-green yang memungkinkan rollback instan dari regresi.

Strategi pelayanan tangguh: Di luar skalabilitas, sistem produksi harus menangani batas kuota, kegagalan sementara, dan beban tidak terduga tanpa menurunkan pengalaman pengguna. Tinjau kuota Amazon Bedrock secara proaktif, minta kenaikan sebelum mencapai batas. Implementasikan pembatasan laju menggunakan Amazon API Gateway untuk mengontrol permintaan masuk dan memastikan penggunaan yang wajar. Gunakan Amazon SQS antara aplikasi serta model Anda untuk menyerap variabilitas permintaan dan mencegah penolakan permintaan.

Dengan mengonfigurasi hierarki kaskade model—model utama ke model cadangan ke respons yang di-cache ke respons yang terdegradasi dengan baik—Anda dapat memastikan pengguna selalu menerima respons bahkan ketika jalur pelayanan optimal gagal. Di luar hal ini, implementasikan pemutus sirkuit untuk menghentikan permintaan terhadap dependensi yang gagal.

Sumber daya yang bermanfaat:

Observabilitas dan penyempurnaan: mendukung peningkatan berkelanjutan

Jadikan observabilitas keunggulan kompetitif utama Anda dengan sistem putaran tertutup serta wawasan secara otomatis memicu penyempurnaan, menciptakan aplikasi yang meningkatkan dengan sendirinya.

Observabilitas terpadu di seluruh metrik teknis dan bisnis: Analisis korelasi merupakan kunci untuk memahami perilaku sistem secara keseluruhan. Untuk melakukannya, buat dasbor terpadu yang menggabungkan metrik teknis dan bisnis—bukan hanya “Model A vs. Model B” tetapi “Model A biaya 0,02 USD/permintaan dengan akurasi 92 persen vs. Model B biaya 0,08 USD/permintaan dengan akurasi 94 persen”—lalu lacak bagaimana masing-masing memengaruhi retensi pengguna selama 30 hari. Rancang tampilan khusus peran dari telemetri bersama: rekayasa melihat pemberitahuan laju kesalahan serta tren latensi; tim produk melihat laju penyelesaian dan pola interaksi pengguna; eksekutif melihat korelasi biaya per interaksi dan ROI. Jadi, ketika bot layanan pelanggan Anda menunjukkan kueri 40 persen lebih lama selama peluncuran fitur atau pola musiman mengubah struktur biaya sebesar 60 persen, analisis korelasi lintas metrik mengungkapkan akar penyebabnya.

Siklus peningkatan putaran tertutup: Keunggulan produksi nyata berasal dari pembuatan sistem putaran tertutup dengan observabilitas memicu penyempurnaan di seluruh jalur GenAIOps seperti yang ditunjukkan pada gambar di bawah ini.

Misalnya, observabilitas bot layanan pelanggan Anda dapat memicu peningkatan berikut:

Rekayasa dan manajemen data: Ketika laju respons gagal naik sebesar 15 persen untuk kueri peluncuran produk, EventBridge memicu sinkronisasi basis pengetahuan untuk menyerap dokumentasi terbaru dari sistem sumber.
Pengembangan dan eksperimen: Jika laju resolusi bot turun sebesar 20 persen untuk kueri penagihan, sistem mengantre pengujian A/B untuk varian prompt yang dikhususkan penagihan.
Pengujian dan evaluasi: Ketika kegagalan percakapan pelacakan pesanan naik sebesar 25 persen, kasus uji secara otomatis dihasilkan dari interaksi yang gagal dan ditambahkan ke rangkaian regresi.
Deployment dan pelayanan: Ketika analisis jejak menunjukkan 8 persen alur kerja agen berakhir pada 30 detik tetapi berhasil diselesaikan pada 45 detik, konfigurasi waktu habis disesuaikan.
Tata kelola dan pemeliharaan: Ketika log deployment menunjukkan 40 persen rilis gagal karena izin IAM atau prasyarat infrastruktur yang tidak ada, pemeriksaan validasi sebelum rilis ditambahkan ke jalur deployment—yang mengambil masalah konfigurasi sebelum mereka memblokir rilis.

Sumber daya yang bermanfaat:

Tata kelola dan pemeliharaan: memungkinkan inovasi yang aman

Kerangka kerja tata kelola Anda harus terasa seperti penasihat tepercaya yang mempercepat pengambilan risiko cerdas sambil menghentikan kesalahan mahal. Transformasikan batasan pengaman Bagian 2 tersebut menjadi keunggulan kompetitif Anda melalui praktik AI yang bertanggung jawab yang membangun kepercayaan pelanggan.

Alur kerja tata kelola otomatis: Ganti peninjauan manual dengan otomatisasi cerdas, menggunakan AWS Step Functions untuk membangun alur kerja persetujuan tempat pembaruan berisiko rendah seperti penyempurnaan templat prompt yang secara otomatis melakukan deployment dan pembaruan berisiko tinggi seperti perubahan model memicu tinjauan manusia. Anda juga dapat mengotomatiskan dokumentasi kepatuhan, mulai dari mengambil rantai persetujuan hingga memelihara jejak audit. Ketika deployment melanggar kebijakan, alur kerja secara otomatis memblokir rilis dan mengeskalasi ke pemangku kepentingan.

Infrastruktur sebagai kode dan pelacakan silsilah: Mengodifikasikan seluruh infrastruktur AI Anda—mengambil pengetahuan deployment dalam kode yang dikontrol versi. Lacak silsilah model menggunakan Registri Model Amazon SageMaker dan silsilah data menggunakan kemampuan Katalog Amazon SageMaker. Mendokumentasikan cara data mengalir dari dokumen sumber melalui langkah-langkah pemrosesan hingga output model juga menciptakan jejak audit untuk mendukung debugging serta kepatuhan, membuat semuanya mulai dari data pelatihan hingga hasil inferensi dapat dilacak.

Visibilitas dan akuntabilitas operasional: Buat dasbor khusus peran di Amazon QuickSight yang menampilkan metrik tata kelola. Tetapkan kepemilikan yang jelas di seluruh tim, dengan target performa kepemilikan produk, keandalan kepemilikan rekayasa, keamanan kepemilikan kepatuhan, dan koordinasi tata kelola di seluruh tim.

Sumber daya yang bermanfaat:

Kesimpulan

Mencapai keunggulan produksi bukanlah upaya satu kali, melainkan proses berkelanjutan untuk membangun jalur yang belajar dari setiap deployment, kegagalan, dan interaksi pengguna. Perbaikan sistematis ini makin meningkat dari waktu ke waktu, menciptakan keunggulan kompetitif yang melampaui apa yang mungkin hanya dengan mengirimkan fitur lebih cepat.

Untuk mengambil langkah berikutnya, prioritaskan tahap jalur Anda yang paling menantang—baik itu eksperimen yang terlalu lama untuk divalidasi, deployment yang sulit, maupun biaya yang tidak dapat diprediksi. Setelah Anda mengotomatiskan area tersebut, lanjutkan ke area berikutnya dan teruskan. Pada akhirnya, apa yang membedakan startups AI terkemuka bukanlah akses ke model yang lebih baik, melainkan jalur GenAIOps yang tangguh yang terus meningkatkan pengalaman pengguna.

Nima Seifi

Nima Seifi adalah Senior Solutions Architect di AWS, yang berbasis di California Selatan, tempat beliau mengkhususkan dalam bidang SaaS dan GenAIOps. Beliau menjabat sebagai penasihat teknis untuk perusahaan rintisan yang membangun di AWS. Sebelum bergabung di AWS, beliau bekerja sebagai arsitek DevOps di industri e-commerce selama lebih dari 5 tahun, setelah satu dekade bekerja di bidang R&D dalam teknologi internet seluler. Nima memiliki 20+ publikasi di jurnal dan konferensi teknis terkemuka serta memiliki 7 paten AS. Di luar pekerjaan, beliau gemar membaca, menonton film dokumenter, dan berjalan-jalan di pantai.

Pat Santora

Pat Santora adalah GenAI Labs Cloud Architect and Technologist dengan pengalaman lebih dari 25 tahun dalam mengimplementasikan solusi di cloud untuk korporasi dan perusahaan rintisan. Beliau telah berhasil meluncurkan banyak produk sejak awal, memimpin proyek rancang ulang analitik, serta mengelola tim jarak jauh dengan filosofi yang berpusat pada transparansi dan kepercayaan. Keahlian teknisnya mencakup perencanaan strategis, manajemen sistem, dan desain ulang arsitektural, dilengkapi dengan minat dalam bidang GenAI, Analitik, serta Big Data.

Clement Perrot

Clement Perrot membantu perusahaan rintisan tingkat atas mengakselerasi inisiatif AI mereka dengan memberikan panduan strategis tentang pemilihan model, implementasi AI yang bertanggung jawab, dan operasi machine learning yang dioptimalkan. Seorang pengusaha serial dan penerima penghargaan Inc 30 Under 30, beliau membawa keahlian mendalam dalam membangun serta menskalakan perusahaan AI, setelah mendirikan dan berhasil keluar dari beberapa perusahaan di teknologi konsumen dan AI korporasi.

Bagaimana konten ini?