Amazon Nova Sonic: محادثات صوتية طبيعية لتطبيقات الذكاء الاصطناعي المولّد

تعتبر الواجهات الصوتية ركيزة أساسية في تحسين تجربة العملاء عبر مجالات متنوعة، بدءاً من خدمة العملاء وأتمتة المكالمات، مروراً بالألعاب، ووصولاً إلى التعليم التفاعلي وتعلم اللغات. غير أن تطوير التطبيقات التي تدعم التفاعل الصوتي يواجه تحديات عديدة.

تستلزم الأساليب التقليدية في بناء التطبيقات الصوتية تكاملاً معقداً بين نماذج متعددة، تشمل نماذج التعرف على الكلام لتحويل الصوت إلى نص، ونماذج فهم اللغة لتحليل الاستجابات وتوليدها، ونماذج تحويل النص إلى كلام لإعادة تحويل النص إلى صوت.

لا يقتصر تأثير هذا النهج المجزأ على زيادة تعقيد عملية التطوير فحسب، بل يمتد ليشمل فقدان عناصر السياق اللغوي الحيوية مثل النغمة والنبرة وأسلوب التحدث – وهي عناصر جوهرية للمحادثات الطبيعية. ويظهر هذا القصور جلياً في تطبيقات الذكاء الاصطناعي التحاورية التي تتطلب زمن استجابة منخفضاً وفهماً دقيقاً للإشارات اللفظية وغير اللفظية لضمان حوار سلس وتبادل طبيعي للأدوار.

لتبسيط تطوير التطبيقات الصوتية، نقدم اليوم Amazon Nova Sonic، أحدث إضافة إلى عائلة Amazon Nova من نماذج الأساس المتوفرة في Amazon Bedrock.

يجمع Amazon Nova Sonic بين فهم الكلام وتوليده في نموذج واحد، مما يتيح للمطورين إنشاء تجارب محادثة تفاعلية طبيعية تحاكي المحادثات البشرية، مع تميّزها بزمن استجابة منخفض وأداء اقتصادي رائد في السوق. يساهم هذا النهج المتكامل في تبسيط عملية التطوير وتقليل التعقيدات المرتبطة بإنشاء تطبيقات المحادثة.

تتيح البنية الموحدة للنموذج إمكانية توليد كلام تعبيري ونسخ نصي في الوقت الفعلي دون الحاجة إلى نماذج منفصلة. والنتيجة هي استجابة صوتية ذكية تتكيف تلقائياً مع نمط المحادثة، حيث تضبط طريقة التواصل بناءً على إيقاع وسرعة ونبرة الكلام المُدخل.

يمكن للمطورين، عند استخدام Amazon Nova Sonic، الاستفادة من ميزة استدعاء الوظائف (المعروفة أيضاً باسم استخدام الأدوات) وتدفق عمل الوكيل للتفاعل مع الخدمات الخارجية وواجهات برمجة التطبيقات (APIs)، وتنفيذ المهام في بيئة العميل. كما يمكنهم إثراء المعرفة باستخدام بيانات المؤسسة من خلال تقنية Retrieval-Augmented Generation (RAG).

يوفر Amazon Nova Sonic، عند إطلاقه، فهماً متقدماً للكلام باللغتين الإنجليزية الأمريكية والبريطانية عبر مختلف أنماط التحدث والظروف الصوتية، مع خطط لدعم لغات إضافية في المستقبل القريب.

تم تطوير Amazon Nova Sonic وفقاً لمبادئ الذكاء الاصطناعي المسؤول، مع التركيز على الابتكار المتقدم، ويتميز بآليات حماية مدمجة للإشراف على المحتوى ووضع العلامات المائية.

Amazon Nova Sonic في العمل

يستعرض هذا العرض التوضيحي سيناريو لمركز اتصال في قطاع الاتصالات، حيث يتواصل العميل لتحسين باقته، ويتولى Amazon Nova Sonic إدارة المحادثة.

من خلال ميّزة استخدام الأدوات، يمكن للنموذج التفاعل مع الأنظمة الأخرى واستخدام تقنية RAG الذكية مع قواعد معرفة Amazon Bedrock للوصول إلى معلومات العميل المحدّثة، مثل تفاصيل الحساب والباقات المتاحة ومعلومات التسعير.

يقدم العرض التوضيحي النسخ المباشر لمدخلات الكلام ويعرض الاستجابات الصوتية في شكل نصي. ويتم عرض المشاعر في المحادثة بطريقتين: مخطط زمني يوضح تطورها، ومخطط دائري يمثل توزيعها الإجمالي. كما يتضمن العرض قسماً خاصاً برؤى الذكاء الاصطناعي يقدم توجيهات سياقية لوكيل مركز الاتصال. وتشمل المقاييس الأخرى المعروضة في واجهة الويب التوزيع العام لوقت التحدث بين العميل والوكيل، ومتوسط زمن الاستجابة.

خلال المحادثة مع وكيل الدعم، يمكنكم متابعة المقاييس والاستماع إلى التحسّن التدريجي في مشاعر العميل.

يوضح الفيديو كيفية تعامل Amazon Nova Sonic بسلاسة مع المقاطعات، حيث يتوقف للاستماع ثم يستأنف المحادثة بشكل طبيعي.

والآن، دعونا نستكشف كيفية دمج هذه القدرات الصوتية في تطبيقاتكم.

استخدام Amazon Nova Sonic

للبدء في استخدام Amazon Nova Sonic، عليكم أولاً تفعيل الوصول إلى النموذج في وحدة تحكم Amazon Bedrock، بطريقة مماثلة لتفعيل نماذج الأساس الأخرى. توجهوا إلى قسم Model access في لوحة التنقل، وابحثوا عن Amazon Nova Sonic ضمن نماذج Amazon، ثم قوموا بتفعيله لحسابكم.

يوفر Amazon Bedrock واجهة برمجية جديدة للبث ثنائي الاتجاه (InvokeModelWithBidirectionalStream) لتمكين تجارب محادثة في الوقت الفعلي مع زمن استجابة منخفض باستخدام بروتوكول HTTP/2. تتيح هذه الواجهة البرمجية تدفق المدخلات الصوتية إلى النموذج واستقبال المخرجات الصوتية في الوقت الفعلي، مما يضمن تدفقاً طبيعياً للمحادثة.

يمكنكم استخدام Amazon Nova Sonic مع الواجهة البرمجية الجديدة عبر معرّف النموذج التالي: amazon.nova-sonic-v1:0

بعد تهيئة الجلسة وتكوين معاملات الاستدلال، يعمل النموذج من خلال بنية قائمة على الأحداث في كل من تدفقات المدخلات والمخرجات.

تتضمن تدفقات المدخلات ثلاثة أنواع رئيسية من الأحداث:

موجّه النظام – لتحديد الموجّه العام للمحادثة

مدخلات الصوت – لمعالجة المدخلات الصوتية المستمرة في الوقت الفعلي

معالجة نتائج الأدوات – لإرجاع نتائج استدعاءات الأدوات إلى النموذج (بعد طلب استخدام الأداة في أحداث المخرجات)

وبالمثل، تتضمن تدفقات المخرجات ثلاث مجموعات من الأحداث:

التعرف التلقائي على الكلام (ASR) – إنتاج نسخة فورية نصية للكلام.

معالجة استخدام الأدوات – معالجة أحداث استخدام الأدوات وإرجاع النتائج كأحداث مدخلات.

مخرجات الصوت – لتشغيل الصوت الناتج في الوقت الفعلي، مع ضرورة وجود مخزن مؤقت نظراً لأن نموذج Amazon Nova Sonic يولّد الصوت بسرعة أكبر من التشغيل في الوقت الفعلي.

يمكنكم الاطلاع على أمثلة لاستخدام Amazon Nova Sonic في مستودع نماذج Amazon Nova.

هندسة الموجّهات الصوتية

عند صياغة الموجّهات لـ Amazon Nova Sonic، ينبغي تحسين المحتوى للفهم السمعي وليس للقراءة البصرية، مع التركيز على انسيابية المحادثة ووضوحها عند سماعها.

عند تحديد أدوار المساعد، ركزوا على السمات الحوارية (مثل الدفء والصبر والإيجاز) بدلاً من السمات النصية (كالتفصيل والشمولية والمنهجية). قد يكون موجّه النظام الأساسي المناسب كالتالي:

You are a friend. The user and you will engage in a spoken dialog exchanging the transcripts of a natural real-time conversation. Keep your responses short, generally two or three sentences for chatty scenarios.

أنت صديق محاور. ستشارك في حوار تفاعلي مع المستخدم، حيث تتبادلان نصوص محادثة طبيعية في الوقت الفعلي. حافظ على إيجاز ردودك، بحيث لا تتجاوز جملتين أو ثلاث في المحادثات العفوية.

بشكل عام، عند إنشاء موجّهات للنماذج الصوتية، تجنبوا طلب التنسيقات المرئية (مثل النقاط والجداول والشيفرات البرمجية) أو تعديلات الخصائص الصوتية (كاللهجة أو العمر أو الغناء) أو المؤثرات الصوتية.

معلومات مهمة

يتوفر Amazon Nova Sonic حالياً في منطقة AWS شرق الولايات المتحدة (شمال فيرجينيا). للاطلاع على نماذج التسعير، يرجى زيارة صفحة تسعير Amazon Bedrock.

يمتلك Amazon Nova Sonic القدرة على فهم الكلام بمختلف أنماط التحدث وتوليد كلام تعبيري بأصوات ذكورية وأنثوية، بلهجات إنجليزية متنوعة تشمل الأمريكية والبريطانية. ومن المقرر إضافة دعم للغات أخرى قريباً.

يتميز النموذج بقدرته على التعامل بكفاءة مع مقاطعات المستخدم دون فقدان سياق المحادثة، كما أنه يتسم بالمتانة في مواجهة الضوضاء في الخلفية. يدعم النموذج نافذة سياق تصل إلى 32 ألف رمز مميز للصوت مع نافذة متحركة للتعامل مع المحادثات الطويلة، ويأتي مع حد زمني افتراضي للجلسة يبلغ 8 دقائق.

تدعم حزم AWS SDK التالية واجهة برمجة التطبيقات للبث ثنائي الاتجاه الجديدة:

يمكن لمطوري Python استخدام SDK التجريبي الجديد الذي يسهل الاستفادة من قدرات البث ثنائي الاتجاه في Amazon Nova Sonic. ونعمل حالياً على إضافة الدعم لحزم AWS SDK الأخرى.

يمكنكم الاطلاع على المزيد من الأمثلة بلغات Java وNode.js وPython في مستودع نماذج Amazon Nova، بما في ذلك أنماط التكامل الشائعة مثل RAG مع قواعد معرفة Amazon Bedrock أو LangChain.

للمزيد من المعلومات، نوصي بقراءة المقالات التالية التي تتناول بالتفصيل كيفية استخدام واجهة برمجة التطبيقات للبث ثنائي الاتجاه الجديدة مع عروض توضيحية:

سواء كنتم تطورون حلولاً لخدمة العملاء، أو تطبيقات لتعلم اللغات، أو تجارب محادثة متنوعة، يوفر Amazon Nova Sonic الأساس اللازم للتفاعلات الصوتية الطبيعية والجذابة. للبدء، تفضلوا بزيارة وحدة تحكم Amazon Bedrock. ولمزيد من المعلومات، يرجى زيارة قسم Amazon Nova في دليل المستخدم.

المدوَّنة العربية

Amazon Nova Sonic: محادثات صوتية طبيعية لتطبيقات الذكاء الاصطناعي المولّد

بتصرف عن المقالة الأصلية

التعلُّم

الموارد

المطورين

المساعدة