غوغل تؤكد: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتعدى 70%

أظهرت دراسة حديثة أجرتها شركة جوجل أن دقة روبوتات الدردشة القائمة على الذكاء الاصطناعي لا تزال أقل من المتوقع، حيث لم تتجاوز 70% في العديد من الحالات. كشفت الدراسة المكثفة عن نقاط ضعف في هذه النماذج اللغوية، مما يثير تساؤلات حول موثوقيتها في التطبيقات العملية المختلفة. النتائج، التي نشرت في تقرير مفصل، تسلط الضوء على التحديات المستمرة في تطوير أنظمة ذكاء اصطناعي قادرة على فهم اللغة البشرية والإجابة عليها بدقة.

نشرت جوجل نتائج هذه الدراسة في تقرير من 18 صفحة، يوضح بالتفصيل منهجية الاختبار المستخدمة والأسباب الكامنة وراء التقييمات المنخفضة. تأتي هذه الجهود في وقت يشهد فيه الذكاء الاصطناعي التوليدي نموًا سريعًا، مع تطبيقات متزايدة في مجالات متنوعة مثل خدمة العملاء، والتعليم، وإنشاء المحتوى. يهدف البحث إلى فهم أفضل لقدرات وقيود هذه التقنيات، وتوجيه جهود التطوير نحو تحسين الأداء والموثوقية.

آلية اختبار مكثفة لـالذكاء الاصطناعي

اعتمدت مختبرات “ديب مايند” التابعة لجوجل على أربعة معايير رئيسية لتقييم أداء نماذج الذكاء الاصطناعي. تضمنت هذه المعايير تقييم القدرة على استرجاع المعرفة الداخلية، وإجراء البحوث على الإنترنت، وفهم المحتوى متعدد الوسائط (مثل الصور)، وتقديم إجابات متسقة مع سياق محدد. تم تصميم هذه المعايير لتقديم تقييم شامل ومتوازن لقدرات النماذج المختلفة.

أظهرت النتائج تباينًا كبيرًا في الأداء بين النماذج المختلفة. حقق نموذج “جيميناي 3 برو” أفضل نتيجة إجمالية، متجاوزًا نسبة 69%. تبعه “جيميناي 2.5 برو” بنسبة 62%، ثم “جي بي تي 5” بنسبة 61.8%. في المقابل، حقق نموذجا “كلود أوبس 4.5″ و”غروك” نتائج أقل، بنسب 51% و53% على التوالي.

أداء النماذج في القطاعات المختلفة

تطرقت الدراسة أيضًا إلى أداء نماذج الذكاء الاصطناعي في قطاعات محددة مثل الموسيقى، والتكنولوجيا، والتاريخ، والعلوم، والرياضة، والسياسة، والترفيه. كشف هذا التحليل عن نقاط قوة وضعف لكل نموذج في مجالات مختلفة، مما يؤكد على أهمية التخصص والتكيف مع الاحتياجات الخاصة لكل تطبيق. على سبيل المثال، أظهرت بعض النماذج تفوقًا في الإجابة على الأسئلة المتعلقة بالتاريخ، بينما أظهرت نماذج أخرى أداءً أفضل في مجال التكنولوجيا.

أظهرت النتائج أن نموذج “غروك 4 فاست” كان الأقل أداءً في جميع الاختبارات، حيث بلغ متوسط نتيجته 36%، وانخفض إلى 17% في معيار المحتوى متعدد الوسائط و15% في المعيار البارامتري. يشير هذا إلى أن النموذج قد يحتاج إلى مزيد من التطوير لتحسين قدراته في فهم ومعالجة أنواع مختلفة من المعلومات.

القيود والمخاطر المحتملة للنماذج اللغوية

تسلط الدراسة الضوء على أن النماذج اللغوية للذكاء الاصطناعي لا تزال عرضة للأخطاء، حتى عندما تبدو الإجابات منطقية. وهذا يثير مخاوف بشأن استخدام هذه النماذج في التطبيقات الحساسة، مثل الرعاية الصحية والتمويل، حيث يمكن أن يكون للأخطاء عواقب وخيمة. تؤكد جوجل على أن الإجابات الخاطئة، حتى بنسبة صغيرة، يمكن أن تتسبب في ضرر كبير في هذه القطاعات.

بالإضافة إلى ذلك، تشير الدراسة إلى أن النماذج اللغوية قد تعاني من التحيزات، مما يؤدي إلى إجابات غير عادلة أو تمييزية. يتطلب معالجة هذه التحيزات جهودًا مستمرة في جمع البيانات وتدريب النماذج، بالإضافة إلى تطوير أدوات لتقييم واكتشاف التحيزات المحتملة. تعتبر الشفافية والمساءلة من المبادئ الأساسية في تطوير أنظمة ذكاء اصطناعي موثوقة وعادلة.

تأتي هذه الدراسة في سياق اهتمام متزايد بتقييم أداء وموثوقية نماذج التعلم الآلي. تعتبر مجتمعات مثل “كاغل” (Kaggle) منصات مهمة لتبادل المعرفة والأدوات بين الباحثين والمطورين في هذا المجال. من خلال توفير مصادر مفتوحة وبيانات متاحة، تساهم هذه المجتمعات في تسريع وتيرة الابتكار وتحسين جودة أنظمة الذكاء الاصطناعي.

من المتوقع أن تستمر جوجل في إجراء المزيد من الأبحاث والدراسات لتقييم وتحسين أداء نماذج الذكاء الاصطناعي الخاصة بها. تخطط الشركة لمشاركة المزيد من البيانات والنتائج مع المجتمع العلمي، بهدف تعزيز التعاون والابتكار في هذا المجال. سيتم التركيز بشكل خاص على تطوير معايير اختبار أكثر دقة وشمولية، ومعالجة التحيزات المحتملة، وتحسين قدرة النماذج على فهم اللغة البشرية والإجابة عليها بشكل موثوق.

رائج الآن

تدابير لاحتواء ارتفاع أسعار المحروقات في حكومة هذه الدولة – أخبار السعودية

الجدعان يقود وفد المملكة لاجتماعات الربيع الدولية 2026 – أخبار السعودية

الرياض مركز جذب إقليمي يستقطب الشركات العالمية – أخبار السعودية

غوغل تؤكد: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتعدى 70%

آلية اختبار مكثفة لـالذكاء الاصطناعي

أداء النماذج في القطاعات المختلفة

القيود والمخاطر المحتملة للنماذج اللغوية

الربح من الذكاء الاصطناعي 2026: أفضل 10 طرق لتحقيق دخل يومي مستدام

تعليم الطائف يطلق ملتقى التهيئة لسوق العمل لتعزيز المهارات المهنية وثقافة العمل الحر

الكلية التقنية الرقمية للبنات بالأحساء تحتفي بفوز متدرباتها في معرض “أثر مبتكر 2026”

شركة CNTXT AI تطلق “منصّت” Munsit، أدق منصة ذكاء اصطناعي صوتي باللغة العربية في العالم، مع تسارع الطلب على خدمات الذكاء الاصطناعي في دولة الإمارات

هيغسيث يهدد بالاستيلاء على “آنثروبيك” لاستخدام ذكائها الاصطناعي

تحذير أحمر لمستخدمي Gmail.. رسالة نصية واحدة قد تكلفك حسابك إلى الأبد! – أخبار السعودية

خلاف أمني يهدد مستقبل الذكاء الاصطناعي.. ترمب مهاجمًا أنثروبيك: «توقفوا فورًا عن استخدام تقنياتها» – أخبار السعودية

بي سمارت نتوركس: الوكيل الرسمي لـ ProRack و ProLink وحلول الشبكات في مصر

فاراداي فيوتشر تعلن إسدال الستار على تحقيق هيئة الأوراق المالية والبورصات الأمريكية دون أي إجراءات تنفيذية

الجدعان يقود وفد المملكة لاجتماعات الربيع الدولية 2026 – أخبار السعودية

الرياض مركز جذب إقليمي يستقطب الشركات العالمية – أخبار السعودية

«الطاقة»: نجاح استعادة طاقة الضخ الكاملة عبر خط أنابيب شرق – غرب – أخبار السعودية

بعد الهدنة.. هل تتراجع أسعار النفط والغاز؟ – أخبار السعودية

للتخفيف من تداعيات الحرب.. زيادة مخصصات السلع الأساسية في هذه الدولة – أخبار السعودية

أهم الفعاليات والحفلات في السعودية 2026 ومواعيدها الكاملة

عقود النفط تحوم حول 100 دولار – أخبار السعودية

«هيئة العقار»: مكافآت تصل إلى 20% للمبلّغين عن مخالفات الإيجار – أخبار السعودية

أسعار البنزين في السعودية تتحدى توترات الخليج.. الوقود ثابت رغم العاصفة – أخبار السعودية

الذهب يتجه إلى جني مكاسب للأسبوع الثالث – أخبار السعودية

رائج الآن

غوغل تؤكد: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتعدى 70%

آلية اختبار مكثفة لـالذكاء الاصطناعي

أداء النماذج في القطاعات المختلفة

القيود والمخاطر المحتملة للنماذج اللغوية

مقالات ذات صلة