ملخص بالذكاء الاصطناعي
٢١ ذو الحجة ١٤٤٧|٦ يونيو ٢٠٢٦

٤ دقائق للقراءة

إطلاق نموذج صوتي مفتوح المصدر يتفاعل بشكل مستمر

إطلاق نموذج صوتي مفتوح المصدر يتفاعل بشكل مستمر

تم إطلاق نموذج صوتي مفتوح المصدر جديد يُعرف باسم Audio Interaction، والذي يتميز بقدرته على التفاعل دون انتظار انتهاء التسجيل. يقوم النموذج بترجمة، وتفريغ، والدردشة، والتقاط الأصوات اليومية مثل السعال في تدفق واحد. النموذج يختلف عن GPT-4o وQwen3.5-Omni، حيث يُقرر كل 0.4 ثانية ما إذا كان سيتحدث أو سيبقى صامتًا. تم توفير كود النموذج، وأوزان النموذج، وتعليمات التحميل على GitHub بموجب ترخيص Apache 2.0، مع وعد بتوفير بيانات التدريب لاحقًا. هذا الابتكار يُعزز من قدرة النماذج الصوتية على التفاعل بشكل أكثر طبيعية، مما يُمكن من استخدامها في تطبيقات متعددة مثل المساعدات الصوتية والتفاعل البشري الآلي. يُعتبر هذا النموذج خطوة مهمة نحو تحسين تجربة المستخدم في مجال الذكاء الاصطناعي.

تابع هذه المواضيع

سجّل دخولك لمتابعة المواضيع التي تهمك

تسجيل الدخول للمتابعة

رأي الذكاء الاصطناعي

يمثل نموذج Audio Interaction تقدمًا ملحوظًا في تكنولوجيا الصوت، مما يعزز من التفاعل البشري الآلي. يمكن أن يُحدث هذا الابتكار ثورة في كيفية استخدامنا للمساعدات الصوتية.

الرأي المقابل

ومع ذلك، قد تثير هذه التقنية مخاوف بشأن الخصوصية، حيث يمكن أن تُسجل الأصوات اليومية دون إذن. يجب أن نكون حذرين بشأن كيفية استخدام هذه البيانات.

يُنتج هذا الملخص باستخدام تقنيات الذكاء الاصطناعي مع مراجعة تحريرية دورية، ويرجى الرجوع إلى المصدر الأصلي للتفاصيل الكاملة.

0
0
0 يقرأون الآن

تقييم الخبر

سيظهر متوسط التقييم بعد 3 تقييمات.

سجل الدخول للتفاعل وكتابة التعليقات. تسجيل الدخول

0/1000

جاري تحميل التفاعلات...

مقالات ذات صلة

مقالات ذات صلة

مزيج خفيف من الوسوم والموضوعات القريبة والزخم الحديث.

جوجل تطلق نموذج Gemini 3.5 للترجمة الفورية بالصوت
متعدد الوسائطنماذج

جوجل تطلق نموذج Gemini 3.5 للترجمة الفورية بالصوت

أعلنت جوجل عن إطلاق نموذج Gemini 3.5 Live Translate، الذي يقدم ترجمة صوتية فورية لأكثر من 70 لغة. يتميز النظام بقدرته على ال...

تلائم لغتك الحالية

اقرأ الرؤية
إطلاق Gemini 3.5 Live Translate لترجمة الكلام الفوري
متعدد الوسائطنماذج

إطلاق Gemini 3.5 Live Translate لترجمة الكلام الفوري

أعلنت جوجل عن إطلاق Gemini 3.5 Live Translate، الذي يوفر ترجمة فورية للكلام بشكل طبيعي. هذه الميزة الجديدة متاحة الآن في Goo...

تلائم لغتك الحالية

اقرأ الرؤية
إطلاق نموذج Qwen3.7-Plus من Alibaba كوكيل متعدد الوسائط
متعدد الوسائطالوكلاء والأتمتة

إطلاق نموذج Qwen3.7-Plus من Alibaba كوكيل متعدد الوسائط

أطلقت مجموعة Qwen التابعة لشركة Alibaba نموذج Qwen3.7-Plus، وهو نموذج وكيل متعدد الوسائط يجمع بين الإدراك البصري وتشغيل واجه...

تلائم لغتك الحالية

اقرأ الرؤية
إطلاق OttoBox: مساعد فيديو مدعوم بالذكاء الاصطناعي في معرض BEYOND 2026
متعدد الوسائطالأعمال

إطلاق OttoBox: مساعد فيديو مدعوم بالذكاء الاصطناعي في معرض BEYOND 2026

أطلقت شركة LINKER Technology مساعد الفيديو OttoBox المدعوم بالذكاء الاصطناعي في معرض BEYOND Expo 2026 في ماكاو. يعتمد المنتج...

تلائم لغتك الحالية

اقرأ الرؤية
إطلاق نموذج Qwen-VLA من علي بابا في مجال الذكاء الاصطناعي المدمج
متعدد الوسائطالوكلاء والأتمتة

إطلاق نموذج Qwen-VLA من علي بابا في مجال الذكاء الاصطناعي المدمج

أعلنت مجموعة الذكاء الاصطناعي في علي بابا عن إطلاق نموذج Qwen-VLA، وهو نموذج مدمج يجمع بين الرؤية واللغة والعمل. يهدف هذا ال...

تلائم لغتك الحالية

اقرأ الرؤية