ضوابط تقييم الذكاء الاصطناعي كيف نستخدمه دون المساس بالثقة

استخدام التقييمات المدعومة بالذكاء الاصطناعي بمسؤولية في التعلم الإلكتروني

الذكاء الاصطناعي يعيد تشكيل طريقة إنشاء محتوى التعلم الرقمي. يمكن الآن توليد اختبارات، فحوصات المعرفة، سيناريوهات الأسئلة، والتعليقات بسرعة أكبر—مكسب كبير لفِرق تصميم التعلّم والتطوير. لكن التقييم ليس مجرد نوع آخر من المحتوى؛ هو دليل يُستخدم لاتخاذ قرارات متعلقة بتقدم المتعلّم، الجاهزية، الامتثال، التصديق، والدعم. معايير الاختبار تؤكد أن استخدام التقييم يجب أن يتسق مع الغرض ويدعمه دليل، لا أن يُستخدم لمجرد سهولة الإنتاج. لذا فإن التحدي في التقييم المدعوم بالذكاء الاصطناعي يختلف عن تحدي صياغة المحتوى.

لماذا تهم ضوابط التقييم بالذكاء الاصطناعي
عناصر مُولّدة آلياً قد تفشل بطرق متوقعة: أخطاء واقعية، خيارات تشتيت ضعيفة، مفاتيح اجابة لا تتطابق تماماً مع النصّ، أو انحراف عن البنية المستهدفة بحيث تقيس صعوبة قراءة أو تفاصيل غير ذات صلة بدل المهارة المطلوبة. الأبحاث في قياس التعليم وتوليد العناصر الآلي تؤكد الحاجة إلى ضوابط جودة منظمة بدلاً من اعتبار التوليد بحد ذاته ضماناً للجودة. هناك سبب ثانٍ لاهميّة الضوابط: الثقة. تكرار مواجهات المتعلّمين لتقييمات مُعيبة أو غامضة أو غير عادلة يؤدي إلى تآكل الثقة في المنصة ونتائجها.

الضابط 1: ابدأ بالقرار، لا بالسؤال
قبل توليد أي محتوى تقييمي، ينبغي للفِرق تحديد غرض التقييم، القرار الذي سيدعمه الدرجة، والدليل المطلوب لتبرير ذلك القرار. هذا المبدأ يتناغم مع معايير الاختبار التي تبني الصلاحية حول تفسير الدرجات واستخدامها، لا حول عدد الأسئلة أو كفاءة الإنتاج. هذا الفارق مهم لأن فحوصات التكوّن منخفضة المخاطر والاختبارات عالية المخاطر لا تتطلبان نفس مستوى الأدلة؛ كلما ارتفعت المخاطر، احتجنا مراجعة وتجريب وتحقق أقوى.

الضابط 2: استخدم توجيهات تبدأ بالنتيجة
التوجيه الضعيف يطلب «أسئلة عن موضوع واسع». التوجيه الأقوى يطلب بنوداً تقيس مخرجات محددة. بدلاً من «أسئلة عن الأمن السيبراني»، اطلب بنوداً تقيس ما إذا كان المتعلّم يستطيع تعرّف مؤشرات التصيّد، تطبيق سياسة كلمات المرور، أو اختيار الرد الصحيح لحادث أمني. توجيه يبدأ بالنتيجة يقلّل انحراف البنية لأن التوليد يرتبط بدليل مقصود، ويُسهل المراجعة لأن كل بند يمكن فحصه مقابل هدف واضح.

يقرأ حان الوقت للعالم أن يمضي قدمًا دون الولايات المتحدة — الأمم المتحدة

الضابط 3: اصنع خارطة تقييم واضحة
يعمل الذكاء الاصطناعي بكفاءة أكبر عندما يحدد البشر الهيكل أولاً. يجب أن تحدد خارطة التقييم العملية الأهداف المقاسة، أنواع البنود المسموح بها، المزيج المعرفي المرغوب، مدى الصعوبة المقبول، والقيود مثل مستوى القراءة أو متطلبات الوصولية. أبحاث توليد البنود الآلي تُظهر أن نماذج البنود المهيكلة ضرورية لتوسيع المحتوى التقييمي مع الحفاظ على الضبط لما يُقاس بالفعل. من دون خارطة، قد يولّد الذكاء الاصطناعي اختبارات مصقولة المظهر لكنها تفرط في تكرار الاستدعاء السطحي أو تتباين في الصعوبة بصورة غير متوقعة.

الضابط 4: اجعل المراجعة البشرية إلزامية
الذكاء الاصطناعي ليُصاغ؛ البشر ليُحققوا. يجب مراجعة كل بند مولّد للتأكد من دقة مفتاح الاجابة، الوضوح، التوافق مع الهدف المقصود، العدالة، ومستوى المطالبة المعرفية. ذلك ضروري لأن مخرجات الذكاء الاصطناعي السلسة قد تخفي عيوب جوهرية. تُظهر أبحاث القياس التعليمي أن الذكاء الاصطناعي لا يلغي الحاجة إلى رقابة بشرية؛ بل يزيد الحاجة إلى مراجعة مُتعمدة. ممارسة مفيدة هي طلب أن يشرح المراجعون لماذا الجواب الصحيح صحيح وما الهدف الذي يقيسه البند، ما يساعد على مقاومة الانحياز نحو القبول الآلي.

الضابط 5: فصل الصعوبة عن التعقيد اللغوي
صياغة أكثر تعقيداً لا تعني بنداً أفضل بالضرورة. أبحاث العبء المعرفي تُبيّن أن المطالب المعرفية غير الضرورية تشوّش الأداء وتشوّه ما يُقاس. يجب أن تأتي صعوبة البند من التفكير المطلوب، لا من لغة مشوشة أو قراءة مفرطة. هذا مهم خصوصاً في التعلم الإلكتروني حيث يمكن لعبارات كثيفة أن تضيف عائقاً دون تحسين جودة الدليل. عرّفوا ما يعني «سهل»، «متوسط»، و«صعب» ضمن سياقكم حتى تعكس صعوبة البنود الطلب المعرفي وليس التعقيد اللغوي.

الضابط 6: ضبِط التنوّع بعناية
أحد أكبر مزايا الذكاء الاصطناعي هو القدرة على التنوّع: إصدارات بديلة من الأسئلة، سيناريوهات جديدة، ونماذج متعددة بسرعة. لكن التنوّع غير المتحكم فيه قد يقوض القابلية للمقارنة إن كانت نسخة أسهل أو أوضح أو أكثر ألفة من أخرى. تدعم الأبحاث في توليد البنود الآلي التنوّع المُحكم عبر نماذج بنود ثابتة ومتغيرات مُدارة بعناية بدلاً من إعادة صياغة عشوائية. يكون التنوّع مفيداً فقط إذا ظل البناء المنطقي والصعوبة المقصودة ثابتين.

يقرأ زوهران ممدانيعمدة مدينة نيويوركأربع تحديات رئيسية

الضابط 7: جرّب وراقب
حتى تجارب صغيرة قد تكشف غموضاً، مشكلات زمنية، وخيارات تشتيت ضعيفة يفشل مراقبو الداخل في رصدها. التجريب جزء من تطوير تقييم قابل للدفاع، خاصة عندما تُؤثر النتائج في قرارات مهمة. بعد الإطلاق، يجب أيضاً مراقبة أداء البنود: هل تستغرق بعض الأسئلة وقتاً أطول من المتوقع؟ هل تعمل خيارات التشتيت كما هو مقصود؟ هل توجد بنود يخطئ فيها معظم المتعلّمين لسبب غير صحيح؟ المراقبة تدعم التحسّن المستمر وتحافظ على اتصال جودة التقييم بأداء المتعلّم الحقيقي، كما تُقوّي حلقات التغذية الراجعة—الأبحاث تظهر أن التعلم يتحسّن عندما تقود الأدلة إلى إجراءات سريعة.

الخلاصة
يمكن للذكاء الاصطناعي أن يجعل إنشاء التقييمات أسرع وأكثر مرونة وأسهل في التوسع. لكن هذه المزايا لا قيمة لها إن لم تظل التقييمات الناتجة صحيحة ومنصفة وجديرة بالثقة. النموذج الأقوى ليس الأتمتة دون رقابة، بل الذكاء الاصطناعي لصياغة المسودات، والبشر للتحقق، والمراجعة المستمرة للتحسين، مع تطبيق ضوابط التقييم الموصوفة أعلاه. عند الاستخدام بهذه الطريقة، لا يُضعف الذكاء الاصطناعي جودة التقييم؛ بل يفتح فرصة لبناء سير عمل أسرع من دون المساس بالثقة.

مراجع (مختارة)
– الجمعية الأمريكية للبحوث التربوية، الجمعية الأمريكية لعلم النفس، والمجلس الوطني لقياس التعليم. معايير الاختبارات التعليمية والنفسية (2014).
– بولوت وآخرون. صعود الذكاء الاصطناعي في قياس التعليم: الفرص والتحديات الأخلاقية (2024).
– سيرسي، هيكس، وسيكالي. التوليد الآلي للبنود: الأسس والأساليب القائمة على تعلم الآلة للتقييمات (2023).
– هاتي وتيمبرلي. قوة التغذية الراجعة (2007).
– سويلر. العبء المعرفي أثناء حل المشكلات: التأثيرات على التعلم (1988).

أضف تعليق إلغاء الرد