Умови застосування модифікованих процедур обчислення тестових балів у системах організації самостійної роботи студентів

Олександр Геннадійович Колгатін, Лариса Сергіївна Колгатіна
{"title":"Умови застосування модифікованих процедур обчислення тестових балів у системах організації самостійної роботи студентів","authors":"Олександр Геннадійович Колгатін, Лариса Сергіївна Колгатіна","doi":"10.55056/fund.v8i1.210","DOIUrl":null,"url":null,"abstract":"Постановка проблеми. Здійснення зворотного зв’язку в системах організації самостійної роботи студентів у значній мірі спирається на застосування тестових технологій педагогічного вимірювання для здійснення поточного контролю і педагогічної діагностики. Під час самостійної роботи студентів комп’ютерно орієнтоване тестування з успіхом застосовується для вирішення таких завдань як актуалізація опорних знань (навчальна, стимулювально-мотиваційна функції та функція контролю), відпрацювання навичок за допомогою тестів-тренажерів (навчальна та стимулювально-мотиваційна функції), організація навчальних змагань (навчальна, виховна та стимулювально-мотиваційна функції). Надійність результатів вимірювання визначає якість управління самостійною роботою і позитивне ставлення студентів до відповідних навчальних засобів. Неперервний розвиток тестових технологій, розробка нових модифікованих процедур тестування та інтерпретації тестових результатів (наприклад, застосування вагових коефіцієнтів, спеціальних алгоритмів подання тестових завдань, врахування вгадування тощо) зумовлює потребу в розвитку методів визначення їх надійності.Мета даної роботи полягає у використанні методу статистичного моделювання для аналізу умов застосування певних процедур інтерпретації тестових балів у системах організації самостійної роботи студентів.Виклад основного матеріалу. Будь-яке порівняння має спиратися на певний критерій якості. Але кожна процедура інтерпретації тестових результатів передбачає оригінальний критерій, і різноманітність критеріїв позбавляє дослідника можливості застосувати їх для порівняння різних процедур. Більш того шкали, за якими визначаються тестові бали є різними в різних процедурах інтерпретації тестових результатів. Так за класичною моделлю маємо лінійну шкалу відносно кількості правильно виконаних завдань; моделі з ваговими коефіцієнтами, що враховують трудність або складність завдань, передбачають певні нелінійні шкали; модель IRT, яку започатковано Г. Рашем, передбачає визначення підготовленості тестованого в логітах. Одним із напрямів вирішення проблеми може бути перетворення тестового балу за процентільною шкалою, яка відображає ранжування тестованих за результатами тестування. Але, на наш погляд, такий підхід пов’язаний з певними проблемами застосування статистичних методів для обчислення надійних інтервалів, оскільки зв’язок між різними шкалами є нелінійним. В такій ситуації пропонуємо здійснювати порівняння на підставі методу статистичних випробувань. Критерієм якості процедури інтерпретації тестових результатів (Q) оберемо різницю між імовірністю правильного та неправильного висновку щодо ранжування тестованих. Статистичне моделювання процедур тестування та інтерпретації тестових результатів здійснюємо за розробленою нами моделлю [1], яка ґрунтується на апроксимації ймовірності правильної відповіді на завдання за моделлю Г. Раша. В обчислювальних експериментах кількість статистичних випробувань складала 100000, що за наближеними оцінками з імовірністю не менше 95% забезпечувало дві правильні цифри у шуканому значенні критерію Q.Аналіз результатів обчислювальних експериментів, проведений у статті [1] (рис. 1) дає підстави для висновку, що в усіх розглянутих випадках для рейтингової (нормоорієнтованої) інтерпретації тестових результатів саме класична процедура забезпечує найкращі значення запропонованого критерію якості. Проведено зіставлення таких процедур обчислення тестового бала:1. Класична процедура (ряд 1 на рис. 1), що передбачає 1 бал за кожну правильну відповідь і 0 балів в інших випадках.2. Поправка на вгадування (ряд 2 на рис. 1). Вгадування тестованим правильних відповідей призводить до систематичного завищення тестового бала. Для корекції систематичної похибки для випадку тесту з різними за формою завданнями нами на підставі підходу В. В. Кромера [2] було запропоновано процедуру обчислення тестового бала [3] в якій за правильну відповідь тестований отримує 1 бал, за відмову від відповіді – 0 балів, неправильна відповідь оцінюється величиною (–cj)/(1–cj).3. Застосування вагових коефіцієнтів, відповідних до трудності завдань (ряд 3 на рис. 1) – приклади такого підходу досить часто зустрічаються в літературі й автоматизованих системах тестування. Наприклад, вагові коефіцієнти застосовуються в тестах підсумкової державної атестації для завдань середнього і достатнього рівнів.Результати обчислювальних експериментів збігаються з відомими висновками, що класична процедура інтерпретації тестових результатів забезпечує найкраще розділення тестованих, коли їх підготовленість близька до трудності завдань тесту. Але такий тест має вузький робочий діапазон вимірювання и для тестованих з низькою або високою підготовленістю не забезпечує задовільної якості вимірювання. Сучасні педагогічні тести будуються як система завдань зростаючої трудності, що дозволяє суттєво розширити робочий діапазон вимірювання, але чутливість тесту, тобто його здатність розділяти тестованих з невеликою різницею підготовленості зменшується. Відсутні вгадуваннята неуважністьІмовірність угадування 25%, неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування;неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування; ймовірність помилки за неуважністю складає 10%Рис. 1. Вплив вгадування та неуважності на якість інтерпретації тестових результатів за різними процедурами обчислення тестового бала (1 – класична; 2 – з поправкою на вгадування; 3 – з ваговими коефіцієнтами). Критерій Q обчислено для випадку ранжування тестованих з різницею підготовленості (θ2–θ1) = 0,5 і середньою підготовленістю θ = (θ2 + θ1) / 2 в термінах моделі Г. Раша (θ = –2 – погано підготовлені учні; θ = 0 – середньо підготовлені учні; θ = 2 – кращі учні) для тесту, який складається з 31 завдання зростаючої трудності (параметр трудності різних завдань за моделлю Г. Раша від –2 до 2), параметр роздільної здатності за моделлю Г. Раша дорівнює 2. Враховуючі значну різницю в підготовленості тестованих, доцільно застосовувати тести, які побудовані як система завдань зростаючої трудності, що забезпечує найкращу якість тестових результатів у широкому діапазоні, як це показано за результатами обчислювальних експериментів [1].Інтерпретація тестових результатів за моделлю IRT не змінює ранжування тестованих у порівнянні з класичною процедурою інтерпретації тестових результатів. Це підтверджується теоретичним аналізом процедури визначення підготовленості тестованого за моделлю IRT і проведеними обчислювальними експериментами. В реальному тестуванні, коли параметри завдань невідомі й обчислюються за результатами тестування, звісно, спостерігатимуся розбіжності в ранжуванні, які викликатимуся похибками визначення параметрів тестових завдань за моделлю Г. Раша.В системі організації самостійної роботи студентів розглянута вище рейтингова (нормоорієнтована) інтерпретація тестових результатів доцільна для проведення певних навчальних змагань і при здійснені студентом самоконтролю, щоб надати йому можливість бачити рівень власних навчальних досягнень на фоні групи. За нормоорієнтованою інтерпретацією тестових результатів може здійснюватися підсумковий контроль.Під час організації самостійної роботи часто застосовується інтерпретація тестових результатів, що орієнтована на критерії, які задаються навчальним стандартом, викладачем або системою педагогічної діагностики й прогнозування. Так, під час здійснення актуалізації опорних знань на початку вивчення нового матеріалу рейтингова інтерпретація тестових результатів не є можливою, оскільки за умови нормального навчального процесу всі тестовані мають успішно виконати тест. Викладач задає певну межу тестового балу, що відповідає якості опорних знань, яка достатня для продовження навчання. Поточний контроль теж частіше здійснюється на основі критеріїв якості засвоєння. За рекомендаціями різних авторів повнота знань, яка ще дає можливість студенту самостійно ліквідувати прогалини складає близько 0,7. За вимогами «Критерієв оцінювання навчальних досягнень ...» [4] мінімальна позитивна оцінка 4 за 12-бальною шкалою виставляється за умови, що учень знає близько половини навчального матеріалу. Тематичний контроль може здійснюватися за нормоорієнтованою інтерпретацією тестових результатів, але для цього потрібно мати стандартизовані тести, створення яких пов’язано з ретельною апробацією цих тестів на великій вибірці з цільової групи. Якщо таких тестів немає, то неможливо перевірити якість засвоєння студентом навчального матеріалу теми через порівняння його навчальних досягнень з досягненнями невеликої і не завжди репрезентативної академічної групи студентів. В такому випадку застосування інтерпретації тестових результатів, що орієнтована на критерії, буде доцільним.Для порівняння якості різних критеріально орієнтованих процедур інтерпретації тестових результатів запропонуємо критерії Z, який за аналогією з вище описаним критерієм Q визначатиме різницю між імовірністю правильного та неправильного висновку щодо перебільшення навчальних досягнень тестованого над певною заданою межею, що встановлена викладачем або освітнім стандартом. Критерії Z є функцією від різниці Δy між навчальними досягненнями та встановленою критеріями межею. Чим більше ця різниця, тим ближче значення критерію до одиниці. Таким чином, під час здійснення аналізу якості процедур тестування й інтерпретації тестових результатів потрібно заздалегідь обрати певну різницю Δy, яка визначатиме частку повноти знань для якій визначатимуся критерій Z. Крім цього, досліджувана процедура тестування й інтерпретації тестових результатів може давати систематичну похибку в бік завищення або заниження вимірюваної повноти знань. Тому потрібно обчислювати значення критерію Z як для випадку перевищення навчальних досягнень над заданою межею, так і для протилежного випадку, коли навчальні досягнення (наприклад, повнота знань) нижче за встановленої межі.В","PeriodicalId":114302,"journal":{"name":"Theory and methods of learning fundamental disciplines in high school","volume":"40 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2013-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Theory and methods of learning fundamental disciplines in high school","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.55056/fund.v8i1.210","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Постановка проблеми. Здійснення зворотного зв’язку в системах організації самостійної роботи студентів у значній мірі спирається на застосування тестових технологій педагогічного вимірювання для здійснення поточного контролю і педагогічної діагностики. Під час самостійної роботи студентів комп’ютерно орієнтоване тестування з успіхом застосовується для вирішення таких завдань як актуалізація опорних знань (навчальна, стимулювально-мотиваційна функції та функція контролю), відпрацювання навичок за допомогою тестів-тренажерів (навчальна та стимулювально-мотиваційна функції), організація навчальних змагань (навчальна, виховна та стимулювально-мотиваційна функції). Надійність результатів вимірювання визначає якість управління самостійною роботою і позитивне ставлення студентів до відповідних навчальних засобів. Неперервний розвиток тестових технологій, розробка нових модифікованих процедур тестування та інтерпретації тестових результатів (наприклад, застосування вагових коефіцієнтів, спеціальних алгоритмів подання тестових завдань, врахування вгадування тощо) зумовлює потребу в розвитку методів визначення їх надійності.Мета даної роботи полягає у використанні методу статистичного моделювання для аналізу умов застосування певних процедур інтерпретації тестових балів у системах організації самостійної роботи студентів.Виклад основного матеріалу. Будь-яке порівняння має спиратися на певний критерій якості. Але кожна процедура інтерпретації тестових результатів передбачає оригінальний критерій, і різноманітність критеріїв позбавляє дослідника можливості застосувати їх для порівняння різних процедур. Більш того шкали, за якими визначаються тестові бали є різними в різних процедурах інтерпретації тестових результатів. Так за класичною моделлю маємо лінійну шкалу відносно кількості правильно виконаних завдань; моделі з ваговими коефіцієнтами, що враховують трудність або складність завдань, передбачають певні нелінійні шкали; модель IRT, яку започатковано Г. Рашем, передбачає визначення підготовленості тестованого в логітах. Одним із напрямів вирішення проблеми може бути перетворення тестового балу за процентільною шкалою, яка відображає ранжування тестованих за результатами тестування. Але, на наш погляд, такий підхід пов’язаний з певними проблемами застосування статистичних методів для обчислення надійних інтервалів, оскільки зв’язок між різними шкалами є нелінійним. В такій ситуації пропонуємо здійснювати порівняння на підставі методу статистичних випробувань. Критерієм якості процедури інтерпретації тестових результатів (Q) оберемо різницю між імовірністю правильного та неправильного висновку щодо ранжування тестованих. Статистичне моделювання процедур тестування та інтерпретації тестових результатів здійснюємо за розробленою нами моделлю [1], яка ґрунтується на апроксимації ймовірності правильної відповіді на завдання за моделлю Г. Раша. В обчислювальних експериментах кількість статистичних випробувань складала 100000, що за наближеними оцінками з імовірністю не менше 95% забезпечувало дві правильні цифри у шуканому значенні критерію Q.Аналіз результатів обчислювальних експериментів, проведений у статті [1] (рис. 1) дає підстави для висновку, що в усіх розглянутих випадках для рейтингової (нормоорієнтованої) інтерпретації тестових результатів саме класична процедура забезпечує найкращі значення запропонованого критерію якості. Проведено зіставлення таких процедур обчислення тестового бала:1. Класична процедура (ряд 1 на рис. 1), що передбачає 1 бал за кожну правильну відповідь і 0 балів в інших випадках.2. Поправка на вгадування (ряд 2 на рис. 1). Вгадування тестованим правильних відповідей призводить до систематичного завищення тестового бала. Для корекції систематичної похибки для випадку тесту з різними за формою завданнями нами на підставі підходу В. В. Кромера [2] було запропоновано процедуру обчислення тестового бала [3] в якій за правильну відповідь тестований отримує 1 бал, за відмову від відповіді – 0 балів, неправильна відповідь оцінюється величиною (–cj)/(1–cj).3. Застосування вагових коефіцієнтів, відповідних до трудності завдань (ряд 3 на рис. 1) – приклади такого підходу досить часто зустрічаються в літературі й автоматизованих системах тестування. Наприклад, вагові коефіцієнти застосовуються в тестах підсумкової державної атестації для завдань середнього і достатнього рівнів.Результати обчислювальних експериментів збігаються з відомими висновками, що класична процедура інтерпретації тестових результатів забезпечує найкраще розділення тестованих, коли їх підготовленість близька до трудності завдань тесту. Але такий тест має вузький робочий діапазон вимірювання и для тестованих з низькою або високою підготовленістю не забезпечує задовільної якості вимірювання. Сучасні педагогічні тести будуються як система завдань зростаючої трудності, що дозволяє суттєво розширити робочий діапазон вимірювання, але чутливість тесту, тобто його здатність розділяти тестованих з невеликою різницею підготовленості зменшується. Відсутні вгадуваннята неуважністьІмовірність угадування 25%, неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування;неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування; ймовірність помилки за неуважністю складає 10%Рис. 1. Вплив вгадування та неуважності на якість інтерпретації тестових результатів за різними процедурами обчислення тестового бала (1 – класична; 2 – з поправкою на вгадування; 3 – з ваговими коефіцієнтами). Критерій Q обчислено для випадку ранжування тестованих з різницею підготовленості (θ2–θ1) = 0,5 і середньою підготовленістю θ = (θ2 + θ1) / 2 в термінах моделі Г. Раша (θ = –2 – погано підготовлені учні; θ = 0 – середньо підготовлені учні; θ = 2 – кращі учні) для тесту, який складається з 31 завдання зростаючої трудності (параметр трудності різних завдань за моделлю Г. Раша від –2 до 2), параметр роздільної здатності за моделлю Г. Раша дорівнює 2. Враховуючі значну різницю в підготовленості тестованих, доцільно застосовувати тести, які побудовані як система завдань зростаючої трудності, що забезпечує найкращу якість тестових результатів у широкому діапазоні, як це показано за результатами обчислювальних експериментів [1].Інтерпретація тестових результатів за моделлю IRT не змінює ранжування тестованих у порівнянні з класичною процедурою інтерпретації тестових результатів. Це підтверджується теоретичним аналізом процедури визначення підготовленості тестованого за моделлю IRT і проведеними обчислювальними експериментами. В реальному тестуванні, коли параметри завдань невідомі й обчислюються за результатами тестування, звісно, спостерігатимуся розбіжності в ранжуванні, які викликатимуся похибками визначення параметрів тестових завдань за моделлю Г. Раша.В системі організації самостійної роботи студентів розглянута вище рейтингова (нормоорієнтована) інтерпретація тестових результатів доцільна для проведення певних навчальних змагань і при здійснені студентом самоконтролю, щоб надати йому можливість бачити рівень власних навчальних досягнень на фоні групи. За нормоорієнтованою інтерпретацією тестових результатів може здійснюватися підсумковий контроль.Під час організації самостійної роботи часто застосовується інтерпретація тестових результатів, що орієнтована на критерії, які задаються навчальним стандартом, викладачем або системою педагогічної діагностики й прогнозування. Так, під час здійснення актуалізації опорних знань на початку вивчення нового матеріалу рейтингова інтерпретація тестових результатів не є можливою, оскільки за умови нормального навчального процесу всі тестовані мають успішно виконати тест. Викладач задає певну межу тестового балу, що відповідає якості опорних знань, яка достатня для продовження навчання. Поточний контроль теж частіше здійснюється на основі критеріїв якості засвоєння. За рекомендаціями різних авторів повнота знань, яка ще дає можливість студенту самостійно ліквідувати прогалини складає близько 0,7. За вимогами «Критерієв оцінювання навчальних досягнень ...» [4] мінімальна позитивна оцінка 4 за 12-бальною шкалою виставляється за умови, що учень знає близько половини навчального матеріалу. Тематичний контроль може здійснюватися за нормоорієнтованою інтерпретацією тестових результатів, але для цього потрібно мати стандартизовані тести, створення яких пов’язано з ретельною апробацією цих тестів на великій вибірці з цільової групи. Якщо таких тестів немає, то неможливо перевірити якість засвоєння студентом навчального матеріалу теми через порівняння його навчальних досягнень з досягненнями невеликої і не завжди репрезентативної академічної групи студентів. В такому випадку застосування інтерпретації тестових результатів, що орієнтована на критерії, буде доцільним.Для порівняння якості різних критеріально орієнтованих процедур інтерпретації тестових результатів запропонуємо критерії Z, який за аналогією з вище описаним критерієм Q визначатиме різницю між імовірністю правильного та неправильного висновку щодо перебільшення навчальних досягнень тестованого над певною заданою межею, що встановлена викладачем або освітнім стандартом. Критерії Z є функцією від різниці Δy між навчальними досягненнями та встановленою критеріями межею. Чим більше ця різниця, тим ближче значення критерію до одиниці. Таким чином, під час здійснення аналізу якості процедур тестування й інтерпретації тестових результатів потрібно заздалегідь обрати певну різницю Δy, яка визначатиме частку повноти знань для якій визначатимуся критерій Z. Крім цього, досліджувана процедура тестування й інтерпретації тестових результатів може давати систематичну похибку в бік завищення або заниження вимірюваної повноти знань. Тому потрібно обчислювати значення критерію Z як для випадку перевищення навчальних досягнень над заданою межею, так і для протилежного випадку, коли навчальні досягнення (наприклад, повнота знань) нижче за встановленої межі.В
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
此外,所研究的测试程序和对测试结果的解释可能会产生系统误差,即高估或低估所测得的知识完整性。因此,有必要在学习成绩超过设定限值和学习成绩(如知识的完整性)低于设定限值的相反情况下计算 Z 标准值。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Адаптація студентів-іноземців до вивчення природничо-математичних дисциплін у закладах вищої освіти Курс «Наноелектрохімія» в підготовці студентів-хіміків Ділова гра як одна з форм контекстного навчання математиці майбутніх фінансистів Узагальнення та систематизація знань з хімії лантаноїдів та актиноїдів Причини розбіжності результатів зовнішнього незалежного оцінювання і вхідного контролю якості знань першокурсників
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1