Автоматичне породжування завдань
Автомати́чне поро́джування завда́нь (АПЗ, англ. automatic item generation, AIG), або автоматизо́ване поро́джування завда́нь (англ. automated item generation), — це процес, що пов'язує психометрію з комп'ютерним програмуванням. Він використовує комп'ютерний алгоритм для автоматичного створення тестових завдань, що є основними складовими психологічного тесту. Цей метод уперше описав Джон Р. Бормут[1] у 1960-х роках, але розвинули його лише нещодавно. АПЗ використовує двоетапний процес: спочатку фахівець із тестування створює шаблон, званий моделлю завдання, а потім розробляють комп'ютерний алгоритм для породжування тестових завдань.[2] Тобто замість того, щоби фахівець створював кожне окреме завдання вручну, комп'ютерні алгоритми породжують сімейства завдань на основі меншої кількості материнських моделей завдань.[3][4][5] Останнім часом для автоматичного породжування завдань успішно використовують нейронні мережі, зокрема великі мовні моделі, як-от сімейство GPT.[6][7]
У психологічному тестуванні відповіді тестованого на тестові завдання забезпечують об'єктивні вимірювальні дані для оцінювання різних людських характеристик.[8] До деяких характеристик, вимірюваних за допомогою психологічних й освітніх тестів, належать академічні здібності, успішність у навчанні, інтелект, мотивація тощо, і ці тести часто використовують для ухвалення рішень, що мають значні наслідки для окремих осіб чи груп. Досягнення стандартів якості вимірювання, зокрема валідності тесту, є однією з найважливіших цілей для психологів і педагогів.[9] АПЗ є підходом до розроблення тестів, який можливо використовувати для підтримки та підвищення якості тестування економічно вигідним чином в умовах сучасного середовища, де комп'ютеризоване тестування збільшило потребу в великій кількості тестових завдань.[5]
АПЗ знижує вартість створення стандартизованих тестів,[10] оскільки алгоритми можуть породжувати набагато більше завдань за той же проміжок часу, порівняно з людиною — фахівцем із тестування. Воно може швидко й легко створювати паралельні форми тесту, що дає можливість виставляти різним тестованим різні групи тестових завдань однакової складності, відтак підвищуючи безпеку тесту.[3] При поєднанні з комп'ютеризованим адаптивним тестуванням АПЗ може породжувати нові завдання або вибирати, які з уже породжених завдань слід подавати далі, виходячи з рівня здібностей тестованого під час проходження тесту. АПЗ також може сприяти створенню завдань із широким діапазоном складності, меншій кількості помилок у конструюванні завдань і забезпеченню вищої порівнянності завдань завдяки системнішому визначенню прототипної моделі завдання.[3][11][12]
Розроблення тестів (зокрема АПЗ) може бути збагачене, якщо воно ґрунтується на певній когнітивній теорії. Когнітивні процеси, взяті з певної теорії, часто узгоджують із характеристиками завдань під час їх конструювання. Мета цього — визначити заздалегідь певний психометричний параметр, як-от складність завдання (надалі β). Нехай радикали[11] — це ті структурні елементи, які суттєво впливають на параметри завдань і забезпечують завдання певними когнітивними вимогами. Один або кілька радикалів моделі завдання можливо змінювати для створення материнських моделей завдань із різними рівнями параметрів (наприклад, β). Кожна така материнська модель може відтак вирощувати власну сім'ю завдань шляхом варіювання інших елементів, які Ірвайн[11] назвав інциденталами. Інцидентали — це поверхневі характеристики, що зазнають випадкових варіацій від завдання до завдання в межах однієї сім'ї. Завдання, що мають однакову структуру радикалів і відрізняються лише інциденталами, зазвичай називають ізоморфами[13] або клонами.[14][15]
Існує два типи клонування завдань. З одного боку, модель завдання може містити одне або кілька відкритих місць, і клонування відбувається шляхом заповнення кожного з них елементом, вибраним зі списку можливостей. З іншого боку, модель завдання може бути цілісним завданням, яке клонують шляхом запровадження перетворень, наприклад, зміни кута об'єкта у тестах на просторові здібності.[16] Варіювання цих поверхневих характеристик завдань не повинно суттєво впливати на відповіді тестованих. Саме тому вважають, що інцидентали спричиняють лише незначні відмінності в параметрах ізоморфів.[3]
Низка породжувачів завдань пройшли об'єктивну перевірку валідності.
MathGen — це програма, яка породжує завдання для тестування математичних досягнень. У статті 2018 року в Journal of Educational Measurement автори Ембретсон і Кінгстон провели розгорнений якісний огляд й емпіричні проби, щоби оцінити якісні та психометричні властивості породжуваних завдань, і дійшли висновку, що ці завдання були успішними, і що завдання, породжені на основі однієї й тієї же структури, мали передбачувані психометричні характеристики.[17][18]
У випробуванні 2017 року серед учасників провели тест на розрізнення мелодій, розроблений за допомогою обчислювальної моделі Rachman-Jun 2015.[19] За даними, зібраними П. М. Гаррісоном зі співавт.,[20] результати свідчать про високу валідність і надійність.
Феррейра та Бакхофф-Ескудеро[21] створеною ними програмою GenerEx породили дві паралельні версії Examen de Competencias Básicas (Excoba) — загального тесту на освітні навички. Потім вони дослідили внутрішню структуру, а також психометричну еквівалентність створених тестів. Емпіричні результати психометричної якості загалом виявилися сприятливими, а тести та завдання демонструють узгодженість за кількома психометричними індексами.
Ґірл з його колегами[22][23][24][25] використовували програму АПЗ під назвою Item Generator (IGOR[26]) для створення завдань множинного вибору для перевірки медичних знань. Завдання, породжені IGOR, навіть у порівнянні з розробленими вручну, продемонстрували добрі психометричні властивості.
Арендазі, Зоммер і Майр[27] використали АПЗ для створення вербальних завдань для тестування словесної вільності в німецькій та англійській мовах і провели тестування серед носіїв цих мов. Породжені комп'ютером завдання продемонстрували прийнятні психометричні властивості. Набори завдань, використані для цих двох груп, ґрунтувалися на спільному наборі міжмовних якірних завдань, що полегшило міжмовне порівняння успішності.
Голлінг, Бертлінг і Цойх[28] застосували теорію ймовірностей для автоматичного породження математичних текстових задач із передбачуваними рівнями складності. Вони досягли допасованості моделі Раша ,[29] а складність завдань вдалося пояснити за допомогою лінійної логістичної моделі тесту (ЛЛМТ, англ. linear logistic test model, LLTM[30]), а також ЛЛМТ з випадковими ефектами (англ. Random-Effects LLTM). Голлінг, Бланк, Кухенбекер і Кун[31] провели подібне дослідження зі статистичними текстовими задачами, але без використання АПЗ. Арендазі з його колегами[32][33] представили дослідження автоматично породжуваних алгебричних текстових задач і вивчили, як система контролю якості в АПЗ може впливати на вимірювальну якість завдань.

Item Maker (IMak) — це програма, написана мовою R, для побудови завдань на фігурні аналогії. Психометричні властивості 23 завдань, породжених IMak, виявилися задовільними, а складність завдань на основі правил породжування було можливо передбачити за допомогою лінійної логістичної моделі тесту (ЛЛМТ).[3]
MazeGen — ще одна програма з кодом мовою R, яка автоматично породжує лабіринти. Психометричні властивості 18 таких лабіринтів виявилися оптимальними, зокрема щодо допасованості моделі Раша та передбачування складності лабіринтів за допомогою ЛЛМТ.[34]
GeomGen — це програма, яка породжує матриці фігур.[35] Дослідження, яке встановило джерела зміщення вимірювання, пов'язані зі стратегіями усунення варіантів відповіді у завданнях із матрицями фігур, дійшло висновку, що помітність відволікальних елементів сприяє використанню таких стратегій, і що ці знання можливо інтегрувати в АПЗ для підвищення конструктної валідності таких завдань.[36] Та ж група використала АПЗ для вивчення диференційованого функціонування завдань (ДФЗ) та гендерних відмінностей, пов'язаних із уявним обертанням . Вони маніпулювали характеристиками конструкції завдань, які в попередніх дослідженнях демонстрували гендерне ДФЗ, і показали, що оцінки розміру впливу гендерних відмінностей були викривлені через присутність різних типів гендерного ДФЗ, які могли бути пов'язані з конкретними характеристиками конструкції завдань.[37][38]
Арендазі також досліджував можливі порушення психометричної якості автоматично породжуваних завдань на зорово-просторове мислення, виявлені за допомогою теорії відгуку завдання (ТВЗ). Для цього він запропонував дві програми: вже згадану GeomGen[35] та Endless Loop Generator (EsGen). Він дійшов висновку, що GeomGen придатніша для АПЗ, оскільки принципи ТВЗ можливо інтегрувати безпосередньо під час породжування завдань.[39] У паралельному дослідницькому проєкті з використанням GeomGen Арендазі та Зоммер[40] встановили, що варіювання сприйняттєвої організації завдань може впливати на успішність респондентів залежно від їхніх рівнів здібностей, і що воно впливає на кілька індексів психометричної якості. Спираючись на ці результати, вони поставили під сумнів припущення про одновимірність завдань із матрицями фігур загалом.
MatrixDeveloper[41] використали для автоматичного породження двадцяти п'яти завдань з 4×4-елементними квадратними матрицями. Ці завдання надали 169 учасникам. За результатами дослідження ці завдання продемонстрували добру допасованість моделі Раша , а породження на основі правил може пояснити складність завдань.[42]
Перший відомий породжувач матриць завдань розробила Ембретсон,[43][14] а її автоматично породжувані завдання продемонстрували добрі психометричні властивості, як показали Ембретсон і Райзе.[44] Вона також запропонувала модель для адекватного інтерактивного породжування завдань.
- ↑ Bormuth, J. (1969). On a theory of achievement test items (англ.). Chicago, IL: University of Chicago Press. ISBN 9780226066301.
- ↑ Gierl, M.J.; Haladyna, T.M. (2012). Automatic item generation, theory and practice (англ.). New York, NY: Routledge Chapman & Hall. ISBN 9780415897518.
- ↑ а б в г д Blum, Diego; Holling, Heinz (6 серпня 2018). Automatic Generation of Figural Analogies With the IMak Package. Frontiers in Psychology (англ.). 9: 1286. doi:10.3389/fpsyg.2018.01286. PMC 6087760. PMID 30127757.
Матеріал було скопійовано з цього джерела, яке доступне за ліцензією Creative Commons Attribution 4.0 International.
- ↑ Glas, C.A.W.; van der Linden, W.J.; Geerlings, H. (2010). Estimation of the parameters in an item-cloning model for adaptive testing. У van der Linden, W.J.; Glas, C.A.W. (ред.). Elements of adaptive testing (PDF) (англ.). с. 289—314. doi:10.1007/978-0-387-85461-8_15. Архів (PDF) оригіналу за 15 вересня 2024.
- ↑ а б Gierl, M.J.; Lai, H. (2012). The role of item models in automatic item generation. International Journal of Testing (англ.). 12 (3): 273—298. doi:10.1080/15305058.2011.635830.
- ↑ von Davier, M. (2018). Automated Item Generation with Recurrent Neural Networks. Psychometrika (англ.). 83: 847—857. doi:10.1007/s11336-018-9608-y.
- ↑ Yaneva, V.; von Davier, M., ред. (2023). Advancing Natural Language Processing in Educational Assessment (англ.) (вид. 1st). Routledge. doi:10.4324/9781003278658. ISBN 9781003278658.
- ↑ Van der Linden, W.J.; Hambleton, R.K. (1997). Item Response Theory: a brief history, common models, and extensions. У Hambleton, R.K.; van der Linden, W.J. (ред.). Handbook of modern Item Response Theory (англ.). New York: Springer. с. 1—31. ISBN 0-387-94661-6.
- ↑ Embretson, S.E. (1999). Issues in the measurement of cognitive abilities. У Embretson, S.E.; Hershberger, S.L. (ред.). The new rules of measurement (англ.). Mahwah: Lawrence Erlbaum Associates. с. 1—15. doi:10.4324/9781410603593. ISBN 9781410603593.
- ↑ Rudner, L. (2010). Implementing the graduate management admission test computerized adaptive test. У van der Linden, W.J.; Glas, C.A.W. (ред.). Elements of adaptive testing (англ.). с. 151—165. doi:10.1007/978-0-387-85461-8_15.
- ↑ а б в Irvine, S. (2002). The foundations of item generation for mass testing. У Irvine, S.H.; Kyllonen, P.C. (ред.). Item generation for test development (англ.). Mahwah: Lawrence Erlbaum Associates. с. 3—34. ISBN 9781138973473.
- ↑ Lai, H.; Alves, C.; Gierl, M.J. (2009). Weiss, D.J. (ред.). Using automatic item generation to address item demands for CAT (PDF). Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing (англ.). Архів оригіналу (PDF) за 28 квітня 2024.
- ↑ Bejar, I. I. (2002). Generative testing: from conception to implementation. У Irvine, S. H.; Kyllonen, P. C. (ред.). Item Generation for Test Development (англ.). Mahwah, NJ: Lawrence Erlbaum Associates. с. 199—217. ISBN 9781138973473.
- ↑ а б Embretson, S.E. (1999). Generating items during testing: psychometric issues and models. Psychometrika (англ.). 64 (4): 407—433. doi:10.1007/BF02294564.
- ↑ Arendasy, M. E.; Sommer, M. (2012). Using automatic item generation to meet the increasing item demands of the high-stakes educational and occupational assessment. Learning and Individual Differences (англ.). 22: 112—117. doi:10.1016/j.lindif.2011.11.005.
- ↑ Glas, C. A. W.; van der Linden, W. J. (2003). Computerized adaptive testing with item cloning. Applied Psychological Measurement (англ.). 27: 247—261. doi:10.1177/0146621603027004001.
- ↑ Embretson, S.E.; Kingston, N.M. (2018). Automatic item generation: a more efficient process for developing mathematics achievement items?. Journal of Educational Measurement (англ.). 55 (1): 112—131. doi:10.1111/jedm.12166.
- ↑ Willson, J.; Morrison, K.; Embretson, S.E. (2014). Automatic item generator for mathematical achievement items: MathGen3.0. Technical report IES1005A-2014 for the Institute of Educational Sciences Grant R305A100234 (Звіт) (англ.). Atlanta, GA: Cognitive Measurement Laboratory, Georgia Institute of Technology.
- ↑ Collins, T.; Laney, R.; Willis, A.; Garthwaite, P.H. (2016). Developing and evaluating computational models of music style. Artificial Intelligence for Engineering Design, Analysis, and Manufacturing (англ.). 30: 16—43. doi:10.1017/S0890060414000687.
- ↑ Harrison, P.M.; Collins, T.; Müllensiefen, D. (2017). Applying modern psychometric techniques to melodic discrimination testing: item response theory, computerized adaptive testing, and automatic item generation. Scientific Reports (англ.). 7 (3618): 1—18. doi:10.1038/s41598-017-03586-z.
- ↑ Ferreyra, M.F.; Backhoff-Escudero, E. (2016). Validez del Generador Automático de Ítems del Examen de Competencias Básicas (Excoba). Relieve (ісп.) (англ.). 22 (1): art. 2, 1—16. doi:10.7203/relieve.22.1.8048.
- ↑ Gierl, M.J.; Lai, H.; Pugh, D.; Touchie, C.; Boulais, A.P.; De Champlain, A. (2016). Evaluating the psychometric characteristics of generated multiple-choice test items. Applied Measurement in Education (англ.). 29 (3): 196—210. doi:10.1080/08957347.2016.1171768.
- ↑ Lai, H.; Gierl, M.J.; Byrne, B.E.; Spielman, A.I.; Waldschmidt, D.M. (2016). Three modeling applications to promote automatic item generation for examinations in dentistry. Journal of Dental Education (англ.). 80 (3): 339—347. doi:10.1002/j.0022-0337.2016.80.3.tb06090.x. PMID 26933110.
- ↑ Gierl, M.J.; Lai, H. (2013). Evaluating the quality of medical multiple-choice items created with automated processes. Medical Education (англ.). 47: 726—733. doi:10.1111/medu.12202.
- ↑ Gierl, M.J.; Lai, H.; Turner, S.R. (2012). Using automatic item generation to create multiple-choice test items. Medical Education (англ.). 46 (8): 757—765. doi:10.1111/j.1365-2923.2012.04289.x.
- ↑ Gierl, M.J.; Zhou, J.; Alves, C. (2008). Developing a taxonomy of item mode types to promote assessment engineering. J Technol Learn Assess (англ.). 7 (2): 1—51. Архів оригіналу за 1 лютого 2025.
- ↑ Arendasy, M.E.; Sommer, M.; Mayr, F. (2011). Using automatic item generation to simultaneously construct German and English versions of a Word Fluency Test. Journal of Cross-Cultural Psychology (англ.). 43 (3): 464—479. doi:10.1177/0022022110397360.
- ↑ Holling, H.; Bertling, J.P.; Zeuch, N. (2009). Automatic item generation of probability word problems. Studies in Educational Evaluation (англ.). 35 (2–3): 71—76. doi:10.1016/j.stueduc.2009.10.004.
- ↑ Rasch, G. (1980) [1960]. Probabilistic Models for Some Intelligence and Attainment Tests (англ.). Chicago: University of Chicago Press.
- ↑ Fischer, G.H. (1973). The linear logistic test model as an instrument of educational research (PDF). Acta Psychologica (англ.). 37: 359—374. doi:10.1016/0001-6918(73)90003-6.
- ↑ Holling, H.; Blank, H.; Kuchenbäcker, K.; Kuhn, J.T. (2008). Rule-based item design of statistical word problems: a review and first implementation (PDF). Psychology Science Quarterly (англ.). 50 (3): 363—378. Архів (PDF) оригіналу за 12 грудня 2024.
- ↑ Arendasy, M.E.; Sommer, M.; Gittler, G.; Hergovich, A. (2006). Automatic generation of quantitative reasoning items. A pilot study. Journal of Individual Differences (англ.). 27 (1): 2—14. doi:10.1027/1614-0001.27.1.2.
- ↑ Arendasy, M.E.; Sommer, M. (2007). Using psychometric technology in educational assessment: the case of a schema-based isomorphic approach to the automatic generation of quantitative reasoning items. Learning and Individual Differences (англ.). 17 (4): 366—383. doi:10.1016/j.lindif.2007.03.005.
- ↑ Loe, B.S.; Rust, J. (2017). The perceptual maze test revisited: evaluating the difficulty of automatically generated mazes. Assessment (англ.). 26 (8): 1—16. doi:10.1177/1073191117746501.
- ↑ а б Arendasy, M. (2002). Geom-Gen-Ein Itemgenerator für Matrizentestaufgaben (нім.). Wien: Eigenverlag.
- ↑ Arendasy, M.E.; Sommer, M. (2013). Reducing response elimination strategies enhances the construct validity of figural matrices. Intelligence (англ.). 41: 234—243. doi:10.1016/j.intell.2013.03.006.
- ↑ Arendasy, M.E.; Sommer, M. (2010). Evaluating the contribution of different item features to the effect size of the gender difference in three-dimensional mental rotation using automatic item generation. Intelligence (англ.). 38 (6): 574—581. doi:10.1016/j.intell.2010.06.004.
- ↑ Arendasy, M.E.; Sommer, M.; Gittler, G. (2010). Combining automatic item generation and experimental designs to investigate the contribution of cognitive components to the gender difference in mental rotation. Intelligence (англ.). 38 (5): 506—512. doi:10.1016/j.intell.2010.06.006.
- ↑ Arendasy, M. (2005). Automatic generation of Rasch-calibrated items: figural matrices test GEOM and Endless-Loops Test EC. International Journal of Testing (англ.). 5 (3): 197—224. doi:10.1207/s15327574ijt0503_2.
- ↑ Arendasy, M.E.; Sommer, M. (2005). The effect of different types of perceptual manipulations on the dimensionality of automatic generated figural matrices. Intelligence (англ.). 33 (3): 307—324. doi:10.1016/j.intell.2005.02.002.
- ↑ Hofer, S. (2004). MatrixDeveloper. Münster, Germany: Psychological Institute IV. Westfälische Wilhelms-Universität.
- ↑ Freund, P.A.; Hofer, S.; Holling, H. (2008). Explaining and controlling for the psychometric properties of computer-generated figural matrix items. Applied Psychological Measurement (англ.). 32 (3): 195—210. doi:10.1177/0146621607306972.
- ↑ Embretson, S.E. (1998). A cognitive design system approach to generating valid tests: application to abstract reasoning. Psychological Methods (англ.). 3 (3): 380—396. doi:10.1037/1082-989X.3.3.380.
- ↑ Embretson, S.E.; Reise, S.P. (2000). Item Response Theory for Psychologists (англ.). Mahwah: Lawrence Erlbaum Associates. doi:10.4324/9781410605269. ISBN 978-0805828191.