مولّدات الاختبارات: كيف تعيد تشكيل التقييم التكويني في الصف الدراسي؟

أجريت اختبارًا صغيرًا يوم الثلاثاء الماضي صنعته في نحو خمس وأربعين ثانية. غطّى موضوع التنفّس الخلوي، احتوى على ثمانية أسئلة، وكشف خطأً شائعًا بشأن جزيء الـATP كنت ربما سأتجاهله لولا ذلك. ذلك الاختبار فعل أكثر لصفي في الحصة الثالثة مما فعلته ورقة المراجعة التي قضيتُ ليلةً كاملة أكتبها الأسبوع السابق.

سأكون صريحًا: كنت متشككًا في تقييمات المولّدة بواسطة الذكاء الاصطناعي. أُدَرِّس علم الأحياء، ولعقودٍ اعتقدت أن صياغة أسئلتي بنفسي جزء من معرفتي بطلابي. وما زلت أؤمن بذلك إلى حدّ كبير. لكنني أيضاً اقتنعت بأمر آخر: عدد الاختبارات منخفضة المخاطر التي ينبغي أن أقدّمها يفوق بكثير ما أجد وقتًا لصنعه.

الدليل البحثي لصالح المزيد من الاختبارات

الأدلة الداعمة لممارسة الاسترجاع ليست حديثة، لكنها أقوى مما يعتقد معظم المعلمين. أظهرت دراسة روديجير وكاربيك عام 2006 أن الطلاب الذين خضعوا لاختبارات تدريبية احتفظوا بقدرٍ أكبر من المادة على المدى الطويل مقارنة بمن أعادوا قراءة ملاحظاتهم لنفس الفترة. الفارق لم يكن ضئيلاً؛ في اختبارات الاستدعاء المؤجلة بعد أيام، تفوّق مجموعة الاختبار على مجموعة إعادة الدراسة بفجوة كبيرة.

تكرّرت هذه النتيجة في دراسات لاحقة. استعرضت مراجعة منهجية عام 2021 أجراها أغاروال ونونيس وبلانت خمسين تجربة صفية شملت أكثر من خمسة آلاف طالب، ووجدت أن 57% من أحجام التأثير كانت متوسطة أو كبيرة. دراسة صفية سابقة وجدت أن الطلاب سجّلوا 94% في المواد التي خُضعوا فيها لأسئلة مقابل 81% في مواد راجعوها ولم تُختبر عليهم، واستمر هذا الفرق لأشهر.

ما يدهشني في هذا البحث هو قلة تسريبه إلى الممارسة اليومية للتدريس. نتحدّث عن التقييم التكويني في الدورات المهنية ونفهم النظرية، لكن الواقع اليومي هو أن معظم المعلمين يجريون ربما فحصًا أو اثنين منخفض المخاطر في الأسبوع، إن فعلوا. مراجعة بلاك وويليام الشهيرة للتقييم التكويني وجدت أحجام تأثير تتراوح بين 0.4 و0.7، ما يضعها فوق معظم التدخلات الصفية التي دُرست. ومع ذلك يبقى فجوة التنفيذ، وأعتقد أن السبب بسيط: إعداد اختبارات جيدة يستغرق وقتًا لا نملكه.

يقرأ مقتل 11 على الأقل في انفجار استهدف تجمعاً سياسياً بمدينة كويتا الباكستانية

مشكلة الوقت حقيقية

حاولت الاحتفاظ ببنك أسئلة. استخدمت نماذج جوجل لصنع اختبارات سريعة. حتى أنني طلبت من الطلاب كتابة أسئلة لبعضهم مرة، وهي نشاط جيد لكنه لا ينتج دائمًا أسئلة تختبر المهارات أو المفاهيم المطلوبة. عنق الزجاجة واحد دائمًا: كتابة سؤال اختيار من متعدد جيد مع بدائل معقولة يتطلب تفكيرًا جادًا. كتابة ثمانية أسئلة تستغرق نصف ساعة على الأقل إذا أردت أن تكون الإجابات الخاطئة مبنية على سوء فهم حقيقي لدى الطلاب لا مجرد خيارات سخيفة. اضرب ذلك في عدد المواد التحضيرية التي أدرّسها وتنهار المعادلة. لذا أنتهي إلى إعطاء اختبارات أقل مما توصي به الأبحاث. وأظن أن معظم المعلمين في موقف مشابه.

التمييز بين المستويات يزيد الطين بلة. في صف واحد لدي طلاب يقرأون بمستوى صف التاسع وآخرون بمستوى جامعي. اختبار واحد لا يخدم المجموعتين جيدًا، وصياغة نسختين تضاعف الوقت.

كيف تبدو عملية توليد الاختبارات بالذكاء الاصطناعي فعليًا

هنا تغيّر الحال بالنسبة لي. بدأت أجرب مولّدات الأسئلة بالذكاء الاصطناعي منذ حوالى سنت، بدافع الفضول أساسًا، وبقيت أستخدمها لأنها وفّرت لي الوقت فعلاً. الفكرة الأساسية بسيطة: تزود الأداة بمصدر المادة — بلصق نص أو رفع ملف — فتولّد أسئلة بصيغ متعددة: اختيار من متعدد، صح/خطأ، إجابات قصيرة، ويمكنك عادة ضبط الصعوبة والنمط. أدوات مثل مولد الاختبارات في Quizgecko تتيح إدخال خطة درس أو فصل بصيغة PDF والحصول على مجموعة كاملة من الأسئلة في أقل من دقيقة. استعملت أيضًا نماذج جوجل مع الاقتراحات الذكية، وأبقي Anki لبطاقات التكرار المتباعد مع طلابي في دورات AP.

ما فاجأني جودة البدائل الخاطئة. الإجابات الخاطئة ليست عشوائية؛ تميل إلى تمثيل سوء الفهم الشائع، وهذا بالضبط ما تريده في تقييم تكويني. ليس دائمًا، وسأتحدّث عن محدوديات الأدوات لاحقًا، لكن غالبًا بما يكفي لأن أبدأ من مجموعة مولّدة وأعدّل بدل أن أبني من الصفر.

الانتقال من الكتابة إلى التحرير هو التوفير الحقيقي في الوقت. أُقَيّم وأعدّل الاختبار في خمس إلى عشر دقائق بدل ثلاثين أو أربعين دقيقة لو كتبته بالكامل. أسبوعيًا، هذا يَجمع فرقًا كبيرًا.

يقرأ ما هي الدول التي اعترفت بفلسطين حتى عام 2025؟(أكثر من 150 دولة)

الإبقاء على المعلم في الحلقة

من المهم أن أوضح: لا أسلّم هذه الاختبارات للطلاب دون قراءتها أولًا. ذلك سيكون خطأً ويغفل الهدف. مراجعة أسئلة مولَّدة بالق AI تجبرك فعليًا على التفكير فيما يحتاج طلابك معرفته. عندما أستعرض عشرة أسئلة وأحذف ثلاثة منها، تكون الأسباب تعليمية ومفيدة: ربما كان السؤال يختبر مفردات بينما أردت اختبار التطبيق، أو قد يكون غامضًا بطريقة تُربك متعلمي اللغة الإنجليزية. هذه القرارات تبقى منوطـة بي ويجب أن تبقى كذلك.

ما بدأتُ أفعله هو توليد مجموعة أكبر من الحاجة — ربما خمسة عشر سؤالًا — ثم اقتطاعها إلى ثمانية أو عشرة. أختار الأسئلة التي تستهدف أهداف التعلم الخاصة بالدرس. أحيانًا أعيد صياغة ساق السؤال ليتطابق مع طريقة نقاشنا في الصف. وأحيانًا أضيف سؤالًا لم يفكر فيه الذكاء الاصطناعي لأنني أعلم من تجارب سابقة أن الطلاب يواجهون صعوبة مع رسم بياني معيّن.

أستخدم هذه الأسئلة غالبًا كتذاكر دخول وخروج: خمسة أسئلة في بداية الحصة لتشيغل المعرفة السابقة، وخمسة في النهاية للتحقق مما استقر. أدوات مثل Quizgecko سريعة بما يكفي لأن أُولّد تذكرة خروج خلال فترة التخطيط قبل آخر حصة في اليوم، استنادًا إلى ملاحظاتي عن صعوبات الطلاب في الحصص السابقة. هذا النوع من التقييم الاستجابـي كان صعبًا حقًا قبل وجود هذه الأدوات.

أين تقصر اختبارات الذكاء الاصطناعي

ليست مثالية، ومن كان يدّعي خلاف ذلك يُضعف ما قلته سابقًا. المشكلة الأكثر شيوعًا أن الأسئلة قد تكون صحيحة تقنيًا لكن ضحلة من الناحية التربوية. يميل الذكاء الاصطناعي إلى اقتباس المادة المصدرية حرفيًّا، ما ينتج عنه أسئلة على مستوى الاستدعاء بينما أحتاج أحيانًا أسئلة على مستوى التحليل. إذا كان المصدر فصلًا في كتاب مدرسي، ستحصل غالبًا على أسئلة تختبر ما إذا كان الطلاب يذكرون حقائق الفصل، لكنك قد لا تحصل دائمًا على أسئلة تطلب منهم تطبيق تلك الحقائق في سياق جديد.

يقرأ الجمال في الهاويةفنّ جانيس سونغ

تظهر أيضًا مشاكل متعلقة بالمادة نفسها. في علم الأحياء رأيت أحيانًا خلطًا بين مصطلحات متشابهة مثل «الانقسام المتساوي» و«الانقسام المنصف» في سياق حيث كان التمييز مهمًا. وفي حالة لا أنساها، وضع سؤالًا عن تركيب البروتين حيث كانت الأربع خيارات الصحيحة قابلة للدفاع عنها بحسب قراءة ساق السؤال. ربما يمرّ الأمر مع طالب، لكني كنت سأتعامل مع شكاوى. مدرسو الرياضيات واللغات الأجنبية الذين تحدثت معهم ذكروا مشكلات مماثلة: الذكاء الاصطناعي يستطيع توليد حجم كبير من الأسئلة، لكنه لا يفهم دائمًا تسلسل الصعوبة داخل موضوع ما. قد ينتج سؤالًا يتطلب معرفة لم تُدرّس بعد، أو يختبر مهارة بمستوى بسيط جدًا ليكون مفيدًا.

كل هذا لا يَقصي الأداة؛ بل يعني ببساطة أن عليك مراجعة ما تحصل عليه. الأداة تمنحك مسودة أولى، ليست منتجًا نهائيًا.

ماذا يعني هذا لممارسة التقييم

أظن أن الفرصة الحقيقية هنا هي في الوتيرة لا الأتمتة الصرفة. الأبحاث على ممارسة الاسترجاع واضحة: الطلاب يتعلمون أكثر عندما يُختبرون كثيرًا وبمخاطر منخفضة. العقبة كانت دائمًا الزمن. إن خفضت الأدوات وقت إعداد الاختبار من ثلاثين دقيقة إلى خمس، يمكن للمعلم أن يختبر ثلاث أو أربع مرات في الأسبوع بدل مرة واحدة واقعية.

هذا أهم من أن يكون السؤال مكتوبًا بعناية تامة. اختبار غير كامل يُقدَّم يوم الأربعاء أفضل من اختبار مثالي لم تتمكن من كتابته أبدًا.

لا أدّعي أن الذكاء الاصطناعي سيغيّر التعليم تغييرًا جذريًا، بل أُقدّم ادعاءً عمليًا صغيرًا: هذه الأدوات تتيح لي فعل شيء كنت أعلم أنه صحيح ولكن لم أجد له الساعات اللازمة. علوم الإدراك تقول لنا منذ عشرين عامًا إن ممارسة الاسترجاع تعمل. عنق الزجاجة كان دائمًا الإنتاج. بالنسبة لي، على الأقل، بات هذا العائق إلى حدّ كبير في طيّ النسيان.

لا يزال طلابي يتأوّهون عندما أسلمهم اختبارًا. بعض الأشياء لا يصلحها الذكاء الاصطناعي.