أظهرت دراسة حديثة أجرتها شركة جوجل أن دقة روبوتات الدردشة القائمة على الذكاء الاصطناعي لا تزال أقل من المتوقع، حيث لم تتجاوز 70% في العديد من الحالات. كشفت الدراسة المكثفة عن نقاط ضعف في هذه النماذج اللغوية، مما يثير تساؤلات حول موثوقيتها في التطبيقات العملية المختلفة. النتائج، التي نشرت في تقرير مفصل، تسلط الضوء على التحديات المستمرة في تطوير أنظمة ذكاء اصطناعي قادرة على فهم اللغة البشرية والإجابة عليها بدقة.
نشرت جوجل نتائج هذه الدراسة في تقرير من 18 صفحة، يوضح بالتفصيل منهجية الاختبار المستخدمة والأسباب الكامنة وراء التقييمات المنخفضة. تأتي هذه الجهود في وقت يشهد فيه الذكاء الاصطناعي التوليدي نموًا سريعًا، مع تطبيقات متزايدة في مجالات متنوعة مثل خدمة العملاء، والتعليم، وإنشاء المحتوى. يهدف البحث إلى فهم أفضل لقدرات وقيود هذه التقنيات، وتوجيه جهود التطوير نحو تحسين الأداء والموثوقية.
آلية اختبار مكثفة لـالذكاء الاصطناعي
اعتمدت مختبرات “ديب مايند” التابعة لجوجل على أربعة معايير رئيسية لتقييم أداء نماذج الذكاء الاصطناعي. تضمنت هذه المعايير تقييم القدرة على استرجاع المعرفة الداخلية، وإجراء البحوث على الإنترنت، وفهم المحتوى متعدد الوسائط (مثل الصور)، وتقديم إجابات متسقة مع سياق محدد. تم تصميم هذه المعايير لتقديم تقييم شامل ومتوازن لقدرات النماذج المختلفة.
أظهرت النتائج تباينًا كبيرًا في الأداء بين النماذج المختلفة. حقق نموذج “جيميناي 3 برو” أفضل نتيجة إجمالية، متجاوزًا نسبة 69%. تبعه “جيميناي 2.5 برو” بنسبة 62%، ثم “جي بي تي 5” بنسبة 61.8%. في المقابل، حقق نموذجا “كلود أوبس 4.5″ و”غروك” نتائج أقل، بنسب 51% و53% على التوالي.
أداء النماذج في القطاعات المختلفة
تطرقت الدراسة أيضًا إلى أداء نماذج الذكاء الاصطناعي في قطاعات محددة مثل الموسيقى، والتكنولوجيا، والتاريخ، والعلوم، والرياضة، والسياسة، والترفيه. كشف هذا التحليل عن نقاط قوة وضعف لكل نموذج في مجالات مختلفة، مما يؤكد على أهمية التخصص والتكيف مع الاحتياجات الخاصة لكل تطبيق. على سبيل المثال، أظهرت بعض النماذج تفوقًا في الإجابة على الأسئلة المتعلقة بالتاريخ، بينما أظهرت نماذج أخرى أداءً أفضل في مجال التكنولوجيا.
أظهرت النتائج أن نموذج “غروك 4 فاست” كان الأقل أداءً في جميع الاختبارات، حيث بلغ متوسط نتيجته 36%، وانخفض إلى 17% في معيار المحتوى متعدد الوسائط و15% في المعيار البارامتري. يشير هذا إلى أن النموذج قد يحتاج إلى مزيد من التطوير لتحسين قدراته في فهم ومعالجة أنواع مختلفة من المعلومات.
القيود والمخاطر المحتملة للنماذج اللغوية
تسلط الدراسة الضوء على أن النماذج اللغوية للذكاء الاصطناعي لا تزال عرضة للأخطاء، حتى عندما تبدو الإجابات منطقية. وهذا يثير مخاوف بشأن استخدام هذه النماذج في التطبيقات الحساسة، مثل الرعاية الصحية والتمويل، حيث يمكن أن يكون للأخطاء عواقب وخيمة. تؤكد جوجل على أن الإجابات الخاطئة، حتى بنسبة صغيرة، يمكن أن تتسبب في ضرر كبير في هذه القطاعات.
بالإضافة إلى ذلك، تشير الدراسة إلى أن النماذج اللغوية قد تعاني من التحيزات، مما يؤدي إلى إجابات غير عادلة أو تمييزية. يتطلب معالجة هذه التحيزات جهودًا مستمرة في جمع البيانات وتدريب النماذج، بالإضافة إلى تطوير أدوات لتقييم واكتشاف التحيزات المحتملة. تعتبر الشفافية والمساءلة من المبادئ الأساسية في تطوير أنظمة ذكاء اصطناعي موثوقة وعادلة.
تأتي هذه الدراسة في سياق اهتمام متزايد بتقييم أداء وموثوقية نماذج التعلم الآلي. تعتبر مجتمعات مثل “كاغل” (Kaggle) منصات مهمة لتبادل المعرفة والأدوات بين الباحثين والمطورين في هذا المجال. من خلال توفير مصادر مفتوحة وبيانات متاحة، تساهم هذه المجتمعات في تسريع وتيرة الابتكار وتحسين جودة أنظمة الذكاء الاصطناعي.
من المتوقع أن تستمر جوجل في إجراء المزيد من الأبحاث والدراسات لتقييم وتحسين أداء نماذج الذكاء الاصطناعي الخاصة بها. تخطط الشركة لمشاركة المزيد من البيانات والنتائج مع المجتمع العلمي، بهدف تعزيز التعاون والابتكار في هذا المجال. سيتم التركيز بشكل خاص على تطوير معايير اختبار أكثر دقة وشمولية، ومعالجة التحيزات المحتملة، وتحسين قدرة النماذج على فهم اللغة البشرية والإجابة عليها بشكل موثوق.













