اظهرت الأبحاث أن 45% من الإجابات على أسئلة تتعلق بالأخبار احتوت على مشكلة «جوهرية» واحدة على الأقل.
نُشر التقرير يوم الأربعاء على الانترنت، وهو صادر عن اتحاد البث الأوروبي (EBU) وبي بي سي، وقيّم دقّة أكثر من 2700 إجابة قدّمتها أنظمة الذكاء الاصطناعي: ChatGPT التابع لـ OpenAI، وGemini من جوجل، وCopilot من مايكروسوفت، وPerplexity.
وطلبت اثنتان وعشرون مؤسسة إعلامية عامة، تمثّل ثمانية عشر دولةً وتقدّم محتوىً بأربعة عشر لغةً، مجموعةً موحّدةً من الأسئلة إلى هذه المساعدات الآلية بين أواخر مايو وبدايات يونيو لإجراء الدراسة.
بشكل عام، أظهر البحث أن 45% من الإجابات شابها خطأ واحد «مهمّ» على الأقل. وكانت مشكلة الاستدلال بالمصادر الأكثر شيوعًا، إذ شملت 31% من الإجابات معلومات غير مدعومة بالمصدر المشار إليه، أو نسبًا خاطئًا أو لا يمكن التحقق منه، إلى جانب مشاكل أخرى متعلقة بالمراجع.
وجاء نقص الدقّة في المرتبة التالية، إذ أثّر على 20% من الإجابات، تلاه غياب السياق المناسب بنسبة 14%.
وأظهر التقرير أن نظام Gemini عانى من أكبر عدد من المشكلات الجوهرية، لا سيما المتعلقة بالمصادر، حيث تضرّر 76% من إجاباته. كما ارتكبت جميع النماذج المدروسة أخطاءً واقعية أساسية.
من الأمثلة المذكورة في التقرير: ادعت بيربلكسيتي أن ممارسات «الأم البديلة» محظورة في جمهورية التشيك، وساءت إجابات ChatGPT عندما ظل يطلق على البابا فرنسيس لقب البابا الحالي بعد أشهر من وفاته.
لم تردّ شركات OpenAI، وجوجل، ومايكروسوفت، وبيربلكسيتي فورًا على طلبات التعليق.
في تمهيد التقرير دعا جان فيليب دي تندر، نائب المدير العام لاتحاد البث الأوروبي، وبيت آرتشر، رئيس قسم الذكاء الاصطناعي في بي بي سي، شركات التقنية إلى تكثيف الجهود لخفض معدلات الخطأ في منتجاتها. وقالا: «لم يعطوا هذه القضية الأولوية الكافية ويجب عليهم فعل ذلك الآن». وأضافا أن على هذه الشركات أن تكون أكثر شفافية بنشر نتائجها بانتظام بحسب اللغة والسوق.