تقييمات أقصر من إنتاج الذكاء الاصطناعي قد تُحسّن التعلم الرقمي

أسئلة الذكاء الاصطناعي لتسريع التقييمات الرقمية

مع اتساع نطاق التعلم الإلكتروني في التدريب المؤسسي، والتعليم العالي، والتعلم المهني، يظل تصميم التقييـم واحداً من أكثر مراحل إعداد الدورات استهلاكاً للوقت. النهج الافتراضي غالباً ما يكون اختباراً طويلاً — مصمَّماً ليغطي “كل شيء”. ومع ذلك، لا تُقاس جودة التقييم بالطول وحده. تبرز معايير الاختبار الحديثة أن تصميم التقييم وتفسير الدرجات يجب أن يستندا إلى أدلة ويتوافق مع الغرض المرجو (AERA, APA, NCME، 2014). في العديد من بيئات التعلم الرقمية — لا سيما عندما يكون الهدف تغذية راجعة سريعة وإجراء تعليمي فوري — قد تكون التقييمات الأقصر أكثر ملاءمة. يغير الذكاء الاصطناعي اقتصاديات إعداد البنود ويفتح المجال أمام تقييـمات أقصر وأكثر استهدافاً تقدّم أدلة مفيدة، مع ما يستلزم ذلك من عناية أخلاقية ومنهجية للحفاظ على الصدق والصلاحية (Bulut وآخرون، 2024).

لماذا غالباً ما تتدنى أداء الاختبارات الطويلة على الإنترنت

قد تكون التقييمات الطويلة مناسبة في سياقات ذات مخاطر عالية، لكن في كثير من حالات التعلم الإلكتروني تُنتج مشاكل متوقعة:
1) التكرار بلا قيمة إضافية
الاختبارات المطولة كثيراً ما تعيد استخدام نفس صيغة البنود لاختبار نفس المهارة الجزئية عدة مرات. هذا يزيد زمن الاختبار دون أن يحسّن بالضرورة ما يمكن أن يستنتجه فريق التعلم لاتخاذ خطوات لاحقة (AERA, APA, NCME، 2014).

2) العبء المعرفي وتأثيرات الإرهاق
تؤكد نظرية العبء المعرفي حدود الذاكرة العاملة أثناء حل المشكلات. عندما تكون التقييمات طويلة أو متكررة بلا داعٍ، قد يعكس الأداء الإجهاد أو الإرهاق بدلاً من تقدم التعلم (Sweller، 1988).

3) بطء حلقات التغذية الراجعة
يعمل التعلم الرقمي أفضل عندما تقود الأدلة إلى إجراء سريع. الاختبارات الطويلة تُبطئ الإنجاز، وتقلّل من الاستجابة، وقد تضعف دورة التغذية الراجعة التي تدعم التحسّن (Hattie & Timperley، 2007).

هدف تصميم أفضل: كثافة المعلومات

بدلاً من السؤال “كم سؤال يجب أن يحتويه الاختبار؟” يمكن لفرق التعلم الإلكتروني أن تسأل: “كم من الأدلة المفيدة يوفّر كل سؤال بالنسبة للقرار الذي نحتاج لاتخاذه؟” يمكن أن يكون التقييم القصير قوياً عندما تكون كثافة المعلومات فيه عالية — فكل بند يقدّم دليلاً مميزاً عن الفهم أو قابلية النقل أو المفاهيم الخاطئة أو الاتقان الجاهز لاتخاذ قرار. هذا الإطار القائم على الغرض يتوافق مع معايير التقييم: “القدر الكافي من الأدلة” يعتمد على الاستخدام المقصود والنتائج المترتبة، لا على عدد ثابت من الأسئلة (AERA, APA, NCME، 2014).

يقرأ ترمب يرسل قوات من كاليفورنيا إلى بورتلاند بعدما رفضت المحكمة أمره

كيف يمكّن الذكاء الاصطناعي التقييمات الأقصر والأذكى

لا يلغي الذكاء الاصطناعي الحاجة إلى إشراف بشري، لكنه يحسّن سير عمل إعداد البنود عبر تمكين مجموعات بنود عالية الجودة بسرعة أكبر وتنوع أوسع — لا سيما من خلال التوليد التلقائي للبنود والمساعدة الحديثة بالذكاء الاصطناعي في الصياغة (Circi, Hicks, & Sikali، 2023؛ Bulut وآخرون، 2024).

1) الصياغة السريعة للبنود المتوافقة مع الأهداف
يمكن للذكاء الاصطناعي أن يساعد في توليد مسودات بنود مرتبطة بالمخرجات أو الكفاءات أو عناصر المعايير — مما يقلّل زمن التطوير ويتيح فحوصات أكثر تواتراً (Bulut وآخرون، 2024).

2) التنوع المضبوط (دون ازدواجية)
تصف أبحاث التوليد التلقائي للبنود طرقاً منظمة لإنشاء متغيرات من نماذج البنود، داعمةً التوسّع مع الحفاظ على السيطرة على ما يتم قياسه (Circi وآخرون، 2023).

3) عيّنة أفضل عبر المستويات المعرفية والصعوبة
تؤدي الاختبارات القصيرة أداءً أفضل عندما تتضمن مزيجاً مقصوداً: معرفة أساسية، تطبيق، واستدلال. يمكن للذكاء الاصطناعي اقتراح مرشحين عبر هذا النطاق، بينما يقوم البشر بالتحكيم للتأكد من الوضوح ومخاطر الانحياز والمحاذاة (Bulut وآخرون، 2024).

4) أشكال متوازية لحلقات تعلم مستمرة
أحد أسباب لجوء الفرق للاختبارات الطويلة هو الخوف من أن “الاختبارات القصيرة لا تكفي”. يسهل الذكاء الاصطناعي إجراء فحوصات متكررة منخفضة الاحتكاك باستخدام صيغ متكافئة — مما يعزز الاستجابة ويقلل الاعتماد المفرط على امتحان طويل واحد (Bulut, Gorgun, & Yildirim-Erbasli، 2025).

لماذا يمكن أن تكون قلة الأسئلة دقيقة: دروس من الاختبارات المتكيفة

الاختبارات الحاسوبية المتكيفة (CAT) تعتمد على تعظيم المعلومات في كل بند عبر اختيار الأسئلة الأكثر إفادة لتقدير قدرة المتعلِّم (Gibbons، 2016). يوضّح هذا النهج مبدأ تصميمي أساسياً: يمكن تقليل طول الاختبار مع المحافظة على الفائدة عندما تُختار البنود بناءً على المعلومات لا على الكم (Benton، 2021). ليست كل اختبارات التعلم الإلكتروني متكيفة، لكن المنطق ينتقل (Gibbons، 2016؛ Benton، 2021):

يقرأ نظرة من داخل الحدث المثير للجدل في الرياض بمشاركة الكوميديين ديف شابيل، بيل بور، جاك وايتهال وجيمي كار

– تجنب التكرار منخفض المعلومات.
– اختر بنوداً تميّز المهارات التي تهمك.
– أوقف الاختبار عند توفر أدلة كافية للقرار.

متى تكون الاختبارات الأقصر أنسب في التعلم الإلكتروني

تكون التقييمات القصيرة المدعومة بالذكاء الاصطناعي فعّالة خصوصاً عندما يكون الغرض تقييماً تكوِينياً أو تعليمياً، مثل:

– فحوصات الإتقان في التعلم الجزئي
– تذاكر الخروج من الدرس في الدورات عبر الإنترنت
– اختبارات الاسترجاع المتباعدة
– تجديد المعلومات خلال التدريب التمهيدي
– ممارسة المهارات مع تغذية راجعة فورية

في هذه السياقات، الهدف ليس ترتيب دقيق للغاية، بل أدلة سريعة وقابلة للتنفيذ توجه الخطوات التالية — حيث تهم جودة التغذية الراجعة وسياق استخدامها بدرجة كبيرة (Hattie & Timperley، 2007). كما تشير الأدلة إلى أن تواتر التقييمات ومستوى المخاطر يؤثران على النتائج في التعليم العالي، ممّا يؤكد أن الاستراتيجية (المخاطر + التواتر) هي المهمة — وليس الطول وحده (Bulut وآخرون، 2025).

حواجز إجرائية: ما الذي يجب أن تفعله الفرق (حتى مع الذكاء الاصطناعي)

قد تفشل التقييمات الأقصر إذا افترضت الفرق أن الذكاء الاصطناعي يضمن الجودة تلقائياً. تؤكد أدبيات القياس التربوي مخاطر تتعلق بالصدق، والعدالة، والشفافية، و”الانحياز نحو الأتمتة” مع اندماج الذكاء الاصطناعي في سير العمل التقييمي (Bulut وآخرون، 2024). من الضوابط العملية:

– مراجعة بشرية للدقة والغموض.
– فحوص محاذاة مع الأهداف والمهام الوظيفية.
– مراجعة للانحياز وإمكانية الوصول.
– تجريبيات صغيرة للكشف عن البنود المربكة.
– تفسير النتائج وفق الغرض ومستوى المخاطر (AERA, APA, NCME، 2014).

خلاصة

لا ينبغي أن تُنظر التقييمات المولّدة بالذكاء الاصطناعي كحل قصير لإنتاج مزيد من الاختبارات. قيمتها الحقيقية تكمن في تمكين استراتيجية تقييـم أفضل: فحوصات أقصر وأكثر معلوماتية تُجرى بتواتر أعلى، مع دورات تغذية راجعة أسرع وإجراءات تعليمية أوضح. في التعلم الرقمي، قد لا يكون مستقبل التقييم في زيادة عدد الأسئلة، بل في طرح أسئلة أفضل — ثم استخدام الادلة بمسؤولية (Bulut وآخرون، 2024؛ AERA, APA, NCME، 2014).

يقرأ كاتس: «بقايا قيادة الحوثي» تفرّ من صنعاء وتترك السكان خلفها

المراجع

– American Educational Research Association; American Psychological Association; National Council on Measurement in Education. 2014. Standards for educational and psychological testing. American Educational Research Association.
– Benton, T. 2021. Item response theory, computer adaptive testing and the risk of self-deception. Research Matters (32). Cambridge University Press and Assessment.
– Bulut, O., M. Beiting-Parrish, J. M. Casabianca, S. C. Slater, H. Jiao, D. Song, … P. Morilova. 2024. The rise of artificial intelligence in educational measurement: Opportunities and ethical challenges (arXiv:2406.18900). arXiv.
– Bulut, O., G. Gorgun, S. N. Yildirim-Erbasli. 2025. “The impact of frequency and stakes of formative assessment on student achievement in higher education: A learning analytics study.” Journal of Computer Assisted Learning. https://doi.org/10.1111/jcal.13087
– Circi, R., J. Hicks, E. Sikali. 2023. “Automatic item generation: Foundations and machine learning-based approaches for assessments.” Frontiers in Education, 8, 858273. https://doi.org/10.3389/feduc.2023.858273
– Gibbons, R. D. 2016. Introduction to item response theory and computerized adaptive testing. University of Cambridge Psychometrics Centre (SSRMC).
– Hattie, J., H. Timperley. 2007. “The power of feedback.” Review of Educational Research, 77 (1): 81–112. https://doi.org/10.3102/003465430298487
– Sweller, J. 1988. “Cognitive load during problem solving: Effects on learning.” Cognitive Science, 12 (2): 257–85. https://doi.org/10.1207/s15516709cog1202_4

أضف تعليق إلغاء الرد