Исследование возможностей генеративного искусственного интеллекта для формирования оценочной обратной связи, близкой к экспертной, при проверке математических задач открытого типа
Проблема и цель. В современной образовательной практике существует противоречие между активным внедрением генеративного искусственного интеллекта и недостаточной изученностью его возможностей для предоставления оценочной обратной связи, направленной на развитие математической грамотности школьников. Цель исследования заключается в выявлении возможностей использования генеративной языковой модели как инструмента педагога для формирования оценочной обратной связи, близкой к экспертной, при проверке математических задач открытого типа.
Методология. Исследование основано на системно-деятельностном, критериально-ориентированном и компаративном подходах. Применялись методы теоретического анализа научной литературы, критериального оценивания в сочетании с техниками промпт-инжиниринга, а также количественного и качественного анализа для определения согласованности между оценочной обратной связью, сформированной генеративной языковой моделью, и оценочной обратной связью, предоставленной экспертом. Выборку составили 51 учащийся.
Результаты. В результате исследования экспериментально подтверждена возможность применения генеративного искусственного интеллекта для формирования оценочной обратной связи в математическом образовании.
Разработана и обоснована эффективная стратегия автоматизации процесса проверки математических задач открытого типа на основе критериального оценивания и техник промпт-инжиниринга с использованием генеративной языковой модели GigaChat Pro. Эмпирически установлена умеренная согласованность между оценочной обратной связью, сгенерированной GigaChat Pro, и оценкой педагога-эксперта по ключевым метрикам: точность (Accuracy) составила 73 %, коэффициент Коэна (k) достиг 0,57, семантическое соответствие текстовых комментариев (BertScore F1) – 0,614.
Заключение. Проведенное исследование позволяет сделать вывод, что генеративная языковая модель обладает значительным потенциалом для трансформации практики педагогического оценивания математических задач открытого типа. Выявлены следующие возможности применения генеративной языковой модели: автоматизация процесса оценочной обратной связи экспертного уровня; персонализация оценочной обратной связи; масштабирование практики критериально-ориентированного оценивания. Повышению качества оценочной обратной связи будут способствовать: оптимизация оценочных промптов, внедрение мультиагентной верификации и механизмов выборочного педагогического контроля.
оценочная обратная связь; генеративные языковые модели; критериальное оценивание; техники промпт-инжиниринга; задачи открытого типа; математическая грамотность
- Crompton H., Burke D. Artificial intelligence in higher education: the state of the field // International Journal of Educational Technology in Higher Education. – 2023. – Vol. 20. – P. 1–22. DOI: https://doi.org/10.1186/s41239-023-00392-8
- Поспелова Е. А., Отоцкий П. Л., Горлачева Е. Н., Файзуллин Р. В. Генеративный искусственный интеллект в образовании: анализ тенденций и перспектив // Профессиональное образование и рынок труда. – 2024. – Т. 12, № 3. – С. 6–21. URL: https://www.elibrary.ru/item.asp?id=69176655 DOI: https://doi.org/10.52944/PORT.2024.58.3.001
- Чекалина Т. А. ИИ-дидактика: новый тренд или эволюция процесса обучения? // Вестник Мининского университета. – 2025. – Т. 13, № 2. – С. 5. URL: https://elibrary.ru/item.asp?id=82539976 DOI: https://doi.org/10.26795/2307-1281-2025-13-2-5
- Alotaibi N. S., Alshehri A. H. Prospers and Obstacles in Using Artificial Intelligence in Saudi Arabia Higher Education Institutions. The Potential of AI-Based Learning Outcomes // Sustainability. – 2023. – Vol. 15 (13). – P. 10723. DOI: https://doi.org/10.3390/su151310723
- Awidi I. T. Comparing expert tutor evaluation of reflective essays with marking by generative artificial intelligence (AI) tool // Computers and Education: Artificial Intelligence. – 2024. – Vol. 6. – P. 100226. DOI: https://doi.org/10.1016/j.caeai.2024.100226
- Kinder A., Briese F. J., Jacobs M., Dern N., Glodny N., Jacobs S., Leßmann S. Effects of adaptive feedback generated by a large language model: A case study in teacher education // Computers and Education: Artificial Intelligence. – 2025. – Vol. 8. – P. 100349. DOI: https://doi.org/10.1016/j.caeai.2024.100349
- Bearman M., Tai J., Dawson P., Boud D., Ajjawi R. Developing evaluative judgement for a time of generative artificial intelligence // Assessment & Evaluation in Higher Education. – 2024. – Vol. 49 (6). – P. 893–905. DOI: https://doi.org/10.1080/02602938.2024.2335321
- Chiang C.-H., Lee H.-y. Can Large Language Models Be an Alternative to Human Evaluations? // Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. – 2023. – Vol. 1. – P. 15607–15631. DOI: https://doi.org/10.18653/v1/2023.acl-long.870
- Meyer J., Jansen T., Schiller R., Liebenow W., Steinbach M., Horbach A., Fleckenstein J. Using LLMs to bring evidence-based feedback into the classroom: AI-generated feedback increases secondary students’ text revision, motivation, and positive emotions // Computers and Education: Artificial Intelligence. – 2024. – Vol. 6. – P. 100199. DOI: https://doi.org/10.1016/j.caeai.2023.100199
10. Пак Л. Е., Крюкова А. А. О возможностях использования программ с искусственным интеллектом в обучении иностранному языку // Территория новых возможностей. Вестник Владивостокского государственного университета. – 2024. – Т. 16, № 2. – С. 81–95. URL:https://elibrary.ru/item.asp?id=67900721 DOI: https://doi.org/10.24866/VVSU/2949-1258/2024-2/081-095
11. Hahn M. G., Navarro S. M. B., De La Valentín L., Burgos D. A systematic review of the effects of automatic scoring and automatic feedback in educational settings // Institute of Electrical and Electronics Engineers Access. – 2021. – Vol. 9. – P. 108190–108198. DOI: https://doi.org/10.1109/ACCESS.2021.3100890
12. Боголепова С. В., Жаркова М. Г. Исследование потенциала генеративных моделей для оценивания эссе и обеспечения обратной связи // Отечественная и зарубежная педагогика. – 2024. – Т. 1, № 5. – С. 123–137. URL: https://elibrary.ru/item.asp?id=73431773
13. Zeevy-Solovey O. Comparing peer, ChatGPT and teacher corrective feedback in EFL writing: Students' perceptions and preferences // Technology in Language Teaching & Learning. – 2024. – Vol. 6 (3). – P. 1482. DOI: https://doi.org/10.29140/tltl.v6n3.1482
14. Kincl T., Gunina D., Novák M., Pospíšil J. Comparing Human and AI-based Essay Evaluation in the Czech Higher Education: Challenges and Limitations // Trendy v podnikání - Business Trends. – 2024. – Vol. 14 (2). – P. 25–34. DOI: https://doi.org/10.24132/jbt.2024.14.2.25_34
15. Núñez-Peña M. I., Bono R., Suárez-Pellicioni M. Feedback on students’ performance: A possible way of reducing the negative effect of math anxiety in higher education // International Journal of Educational Research. – 2015. – Vol. 70. – P. 80–87. DOI: https://doi.org/10.1016/j.ijer.2015.02.005
16. Fyfe E. R., Brown S. A. Feedback influences children’s reasoning about math equivalence: A meta-analytic review // Thinking & Reasoning. – 2017. – Vol. 24 (2). – P. 157–178. DOI: https://doi.org/10.1080/13546783.2017.1359208
17. Kouzminov Y., Kruchinskaia E. The Evaluation of GenAI Capabilities to Implement Professional Tasks // Foresight and STI Governance. – 2024. – Vol. 18 (4). – P. 67–76. https://elibrary.ru/item.asp?id=75194200 DOI: https://doi.org/10.17323/2500-2597.2024.4.67.76
18. Schorcht S., Buchholtz N., Baumanns L. Prompt the problem – investigating the mathematics educational quality of AI-supported problem solving by comparing prompt techniques // Frontier Education. – 2024. – Vol. 9. – P. 1–15. DOI:https://doi.org/10.3389/feduc.2024.1386075
19. Qian Y. Prompt Engineering in Education: A Systematic Review of Approaches and Educational Applications // Journal of Educational Computing Research. – 2025. – Vol. 0 (0). – P. 1–37. DOI: https://doi.org/10.1177/07356331251365189
20. Lee G. G., Latif E., Wu X., Liu N., Zhai X. Applying large language models and chain-of-thought for automatic scoring // Computers and Education: Artificial Intelligence. – 2024. – Vol. 6. – P. 100213. DOI: https://doi.org/10.1016/j.caeai.2024.100213
21. Albakkosh I. Using Fleiss’ kappa coefficient to measure the intra and inter- rater reliability of three AI software programs in the assessment of EFL learners’ story writing // International Journal of Educational Sciences and Arts. – 2024. – Vol. 3 (1). – P. 69–96. DOI: https://doi.org/10.59992/IJESA.2024.v3n1p4










