Умови застосування модифікованих процедур обчислення тестових балів у системах організації самостійної роботи студентів

Theory and methods of learning fundamental disciplines in high school Pub Date : 2013-11-27 DOI:10.55056/fund.v8i1.210

Олександр Геннадійович Колгатін, Лариса Сергіївна Колгатіна

{"title":"Умови застосування модифікованих процедур обчислення тестових балів у системах організації самостійної роботи студентів","authors":"Олександр Геннадійович Колгатін, Лариса Сергіївна Колгатіна","doi":"10.55056/fund.v8i1.210","DOIUrl":null,"url":null,"abstract":"Постановка проблеми. Здійснення зворотного зв’язку в системах організації самостійної роботи студентів у значній мірі спирається на застосування тестових технологій педагогічного вимірювання для здійснення поточного контролю і педагогічної діагностики. Під час самостійної роботи студентів комп’ютерно орієнтоване тестування з успіхом застосовується для вирішення таких завдань як актуалізація опорних знань (навчальна, стимулювально-мотиваційна функції та функція контролю), відпрацювання навичок за допомогою тестів-тренажерів (навчальна та стимулювально-мотиваційна функції), організація навчальних змагань (навчальна, виховна та стимулювально-мотиваційна функції). Надійність результатів вимірювання визначає якість управління самостійною роботою і позитивне ставлення студентів до відповідних навчальних засобів. Неперервний розвиток тестових технологій, розробка нових модифікованих процедур тестування та інтерпретації тестових результатів (наприклад, застосування вагових коефіцієнтів, спеціальних алгоритмів подання тестових завдань, врахування вгадування тощо) зумовлює потребу в розвитку методів визначення їх надійності.Мета даної роботи полягає у використанні методу статистичного моделювання для аналізу умов застосування певних процедур інтерпретації тестових балів у системах організації самостійної роботи студентів.Виклад основного матеріалу. Будь-яке порівняння має спиратися на певний критерій якості. Але кожна процедура інтерпретації тестових результатів передбачає оригінальний критерій, і різноманітність критеріїв позбавляє дослідника можливості застосувати їх для порівняння різних процедур. Більш того шкали, за якими визначаються тестові бали є різними в різних процедурах інтерпретації тестових результатів. Так за класичною моделлю маємо лінійну шкалу відносно кількості правильно виконаних завдань; моделі з ваговими коефіцієнтами, що враховують трудність або складність завдань, передбачають певні нелінійні шкали; модель IRT, яку започатковано Г. Рашем, передбачає визначення підготовленості тестованого в логітах. Одним із напрямів вирішення проблеми може бути перетворення тестового балу за процентільною шкалою, яка відображає ранжування тестованих за результатами тестування. Але, на наш погляд, такий підхід пов’язаний з певними проблемами застосування статистичних методів для обчислення надійних інтервалів, оскільки зв’язок між різними шкалами є нелінійним. В такій ситуації пропонуємо здійснювати порівняння на підставі методу статистичних випробувань. Критерієм якості процедури інтерпретації тестових результатів (Q) оберемо різницю між імовірністю правильного та неправильного висновку щодо ранжування тестованих. Статистичне моделювання процедур тестування та інтерпретації тестових результатів здійснюємо за розробленою нами моделлю [1], яка ґрунтується на апроксимації ймовірності правильної відповіді на завдання за моделлю Г. Раша. В обчислювальних експериментах кількість статистичних випробувань складала 100000, що за наближеними оцінками з імовірністю не менше 95% забезпечувало дві правильні цифри у шуканому значенні критерію Q.Аналіз результатів обчислювальних експериментів, проведений у статті [1] (рис. 1) дає підстави для висновку, що в усіх розглянутих випадках для рейтингової (нормоорієнтованої) інтерпретації тестових результатів саме класична процедура забезпечує найкращі значення запропонованого критерію якості. Проведено зіставлення таких процедур обчислення тестового бала:1. Класична процедура (ряд 1 на рис. 1), що передбачає 1 бал за кожну правильну відповідь і 0 балів в інших випадках.2. Поправка на вгадування (ряд 2 на рис. 1). Вгадування тестованим правильних відповідей призводить до систематичного завищення тестового бала. Для корекції систематичної похибки для випадку тесту з різними за формою завданнями нами на підставі підходу В. В. Кромера [2] було запропоновано процедуру обчислення тестового бала [3] в якій за правильну відповідь тестований отримує 1 бал, за відмову від відповіді – 0 балів, неправильна відповідь оцінюється величиною (–cj)/(1–cj).3. Застосування вагових коефіцієнтів, відповідних до трудності завдань (ряд 3 на рис. 1) – приклади такого підходу досить часто зустрічаються в літературі й автоматизованих системах тестування. Наприклад, вагові коефіцієнти застосовуються в тестах підсумкової державної атестації для завдань середнього і достатнього рівнів.Результати обчислювальних експериментів збігаються з відомими висновками, що класична процедура інтерпретації тестових результатів забезпечує найкраще розділення тестованих, коли їх підготовленість близька до трудності завдань тесту. Але такий тест має вузький робочий діапазон вимірювання и для тестованих з низькою або високою підготовленістю не забезпечує задовільної якості вимірювання. Сучасні педагогічні тести будуються як система завдань зростаючої трудності, що дозволяє суттєво розширити робочий діапазон вимірювання, але чутливість тесту, тобто його здатність розділяти тестованих з невеликою різницею підготовленості зменшується. Відсутні вгадуваннята неуважністьІмовірність угадування 25%, неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування;неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування; ймовірність помилки за неуважністю складає 10%Рис. 1. Вплив вгадування та неуважності на якість інтерпретації тестових результатів за різними процедурами обчислення тестового бала (1 – класична; 2 – з поправкою на вгадування; 3 – з ваговими коефіцієнтами). Критерій Q обчислено для випадку ранжування тестованих з різницею підготовленості (θ2–θ1) = 0,5 і середньою підготовленістю θ = (θ2 + θ1) / 2 в термінах моделі Г. Раша (θ = –2 – погано підготовлені учні; θ = 0 – середньо підготовлені учні; θ = 2 – кращі учні) для тесту, який складається з 31 завдання зростаючої трудності (параметр трудності різних завдань за моделлю Г. Раша від –2 до 2), параметр роздільної здатності за моделлю Г. Раша дорівнює 2. Враховуючі значну різницю в підготовленості тестованих, доцільно застосовувати тести, які побудовані як система завдань зростаючої трудності, що забезпечує найкращу якість тестових результатів у широкому діапазоні, як це показано за результатами обчислювальних експериментів [1].Інтерпретація тестових результатів за моделлю IRT не змінює ранжування тестованих у порівнянні з класичною процедурою інтерпретації тестових результатів. Це підтверджується теоретичним аналізом процедури визначення підготовленості тестованого за моделлю IRT і проведеними обчислювальними експериментами. В реальному тестуванні, коли параметри завдань невідомі й обчислюються за результатами тестування, звісно, спостерігатимуся розбіжності в ранжуванні, які викликатимуся похибками визначення параметрів тестових завдань за моделлю Г. Раша.В системі організації самостійної роботи студентів розглянута вище рейтингова (нормоорієнтована) інтерпретація тестових результатів доцільна для проведення певних навчальних змагань і при здійснені студентом самоконтролю, щоб надати йому можливість бачити рівень власних навчальних досягнень на фоні групи. За нормоорієнтованою інтерпретацією тестових результатів може здійснюватися підсумковий контроль.Під час організації самостійної роботи часто застосовується інтерпретація тестових результатів, що орієнтована на критерії, які задаються навчальним стандартом, викладачем або системою педагогічної діагностики й прогнозування. Так, під час здійснення актуалізації опорних знань на початку вивчення нового матеріалу рейтингова інтерпретація тестових результатів не є можливою, оскільки за умови нормального навчального процесу всі тестовані мають успішно виконати тест. Викладач задає певну межу тестового балу, що відповідає якості опорних знань, яка достатня для продовження навчання. Поточний контроль теж частіше здійснюється на основі критеріїв якості засвоєння. За рекомендаціями різних авторів повнота знань, яка ще дає можливість студенту самостійно ліквідувати прогалини складає близько 0,7. За вимогами «Критерієв оцінювання навчальних досягнень ...» [4] мінімальна позитивна оцінка 4 за 12-бальною шкалою виставляється за умови, що учень знає близько половини навчального матеріалу. Тематичний контроль може здійснюватися за нормоорієнтованою інтерпретацією тестових результатів, але для цього потрібно мати стандартизовані тести, створення яких пов’язано з ретельною апробацією цих тестів на великій вибірці з цільової групи. Якщо таких тестів немає, то неможливо перевірити якість засвоєння студентом навчального матеріалу теми через порівняння його навчальних досягнень з досягненнями невеликої і не завжди репрезентативної академічної групи студентів. В такому випадку застосування інтерпретації тестових результатів, що орієнтована на критерії, буде доцільним.Для порівняння якості різних критеріально орієнтованих процедур інтерпретації тестових результатів запропонуємо критерії Z, який за аналогією з вище описаним критерієм Q визначатиме різницю між імовірністю правильного та неправильного висновку щодо перебільшення навчальних досягнень тестованого над певною заданою межею, що встановлена викладачем або освітнім стандартом. Критерії Z є функцією від різниці Δy між навчальними досягненнями та встановленою критеріями межею. Чим більше ця різниця, тим ближче значення критерію до одиниці. Таким чином, під час здійснення аналізу якості процедур тестування й інтерпретації тестових результатів потрібно заздалегідь обрати певну різницю Δy, яка визначатиме частку повноти знань для якій визначатимуся критерій Z. Крім цього, досліджувана процедура тестування й інтерпретації тестових результатів може давати систематичну похибку в бік завищення або заниження вимірюваної повноти знань. Тому потрібно обчислювати значення критерію Z як для випадку перевищення навчальних досягнень над заданою межею, так і для протилежного випадку, коли навчальні досягнення (наприклад, повнота знань) нижче за встановленої межі.В","PeriodicalId":114302,"journal":{"name":"Theory and methods of learning fundamental disciplines in high school","volume":"40 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2013-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Theory and methods of learning fundamental disciplines in high school","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.55056/fund.v8i1.210","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Постановка проблеми. Здійснення зворотного зв’язку в системах організації самостійної роботи студентів у значній мірі спирається на застосування тестових технологій педагогічного вимірювання для здійснення поточного контролю і педагогічної діагностики. Під час самостійної роботи студентів комп’ютерно орієнтоване тестування з успіхом застосовується для вирішення таких завдань як актуалізація опорних знань (навчальна, стимулювально-мотиваційна функції та функція контролю), відпрацювання навичок за допомогою тестів-тренажерів (навчальна та стимулювально-мотиваційна функції), організація навчальних змагань (навчальна, виховна та стимулювально-мотиваційна функції). Надійність результатів вимірювання визначає якість управління самостійною роботою і позитивне ставлення студентів до відповідних навчальних засобів. Неперервний розвиток тестових технологій, розробка нових модифікованих процедур тестування та інтерпретації тестових результатів (наприклад, застосування вагових коефіцієнтів, спеціальних алгоритмів подання тестових завдань, врахування вгадування тощо) зумовлює потребу в розвитку методів визначення їх надійності.Мета даної роботи полягає у використанні методу статистичного моделювання для аналізу умов застосування певних процедур інтерпретації тестових балів у системах організації самостійної роботи студентів.Виклад основного матеріалу. Будь-яке порівняння має спиратися на певний критерій якості. Але кожна процедура інтерпретації тестових результатів передбачає оригінальний критерій, і різноманітність критеріїв позбавляє дослідника можливості застосувати їх для порівняння різних процедур. Більш того шкали, за якими визначаються тестові бали є різними в різних процедурах інтерпретації тестових результатів. Так за класичною моделлю маємо лінійну шкалу відносно кількості правильно виконаних завдань; моделі з ваговими коефіцієнтами, що враховують трудність або складність завдань, передбачають певні нелінійні шкали; модель IRT, яку започатковано Г. Рашем, передбачає визначення підготовленості тестованого в логітах. Одним із напрямів вирішення проблеми може бути перетворення тестового балу за процентільною шкалою, яка відображає ранжування тестованих за результатами тестування. Але, на наш погляд, такий підхід пов’язаний з певними проблемами застосування статистичних методів для обчислення надійних інтервалів, оскільки зв’язок між різними шкалами є нелінійним. В такій ситуації пропонуємо здійснювати порівняння на підставі методу статистичних випробувань. Критерієм якості процедури інтерпретації тестових результатів (Q) оберемо різницю між імовірністю правильного та неправильного висновку щодо ранжування тестованих. Статистичне моделювання процедур тестування та інтерпретації тестових результатів здійснюємо за розробленою нами моделлю [1], яка ґрунтується на апроксимації ймовірності правильної відповіді на завдання за моделлю Г. Раша. В обчислювальних експериментах кількість статистичних випробувань складала 100000, що за наближеними оцінками з імовірністю не менше 95% забезпечувало дві правильні цифри у шуканому значенні критерію Q.Аналіз результатів обчислювальних експериментів, проведений у статті [1] (рис. 1) дає підстави для висновку, що в усіх розглянутих випадках для рейтингової (нормоорієнтованої) інтерпретації тестових результатів саме класична процедура забезпечує найкращі значення запропонованого критерію якості. Проведено зіставлення таких процедур обчислення тестового бала:1. Класична процедура (ряд 1 на рис. 1), що передбачає 1 бал за кожну правильну відповідь і 0 балів в інших випадках.2. Поправка на вгадування (ряд 2 на рис. 1). Вгадування тестованим правильних відповідей призводить до систематичного завищення тестового бала. Для корекції систематичної похибки для випадку тесту з різними за формою завданнями нами на підставі підходу В. В. Кромера [2] було запропоновано процедуру обчислення тестового бала [3] в якій за правильну відповідь тестований отримує 1 бал, за відмову від відповіді – 0 балів, неправильна відповідь оцінюється величиною (–cj)/(1–cj).3. Застосування вагових коефіцієнтів, відповідних до трудності завдань (ряд 3 на рис. 1) – приклади такого підходу досить часто зустрічаються в літературі й автоматизованих системах тестування. Наприклад, вагові коефіцієнти застосовуються в тестах підсумкової державної атестації для завдань середнього і достатнього рівнів.Результати обчислювальних експериментів збігаються з відомими висновками, що класична процедура інтерпретації тестових результатів забезпечує найкраще розділення тестованих, коли їх підготовленість близька до трудності завдань тесту. Але такий тест має вузький робочий діапазон вимірювання и для тестованих з низькою або високою підготовленістю не забезпечує задовільної якості вимірювання. Сучасні педагогічні тести будуються як система завдань зростаючої трудності, що дозволяє суттєво розширити робочий діапазон вимірювання, але чутливість тесту, тобто його здатність розділяти тестованих з невеликою різницею підготовленості зменшується. Відсутні вгадуваннята неуважністьІмовірність угадування 25%, неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування;неуважність відсутняІмовірність угадування для половини завдань різної трудності складає 25%; решта завдань не припускають вгадування; ймовірність помилки за неуважністю складає 10%Рис. 1. Вплив вгадування та неуважності на якість інтерпретації тестових результатів за різними процедурами обчислення тестового бала (1 – класична; 2 – з поправкою на вгадування; 3 – з ваговими коефіцієнтами). Критерій Q обчислено для випадку ранжування тестованих з різницею підготовленості (θ2–θ1) = 0,5 і середньою підготовленістю θ = (θ2 + θ1) / 2 в термінах моделі Г. Раша (θ = –2 – погано підготовлені учні; θ = 0 – середньо підготовлені учні; θ = 2 – кращі учні) для тесту, який складається з 31 завдання зростаючої трудності (параметр трудності різних завдань за моделлю Г. Раша від –2 до 2), параметр роздільної здатності за моделлю Г. Раша дорівнює 2. Враховуючі значну різницю в підготовленості тестованих, доцільно застосовувати тести, які побудовані як система завдань зростаючої трудності, що забезпечує найкращу якість тестових результатів у широкому діапазоні, як це показано за результатами обчислювальних експериментів [1].Інтерпретація тестових результатів за моделлю IRT не змінює ранжування тестованих у порівнянні з класичною процедурою інтерпретації тестових результатів. Це підтверджується теоретичним аналізом процедури визначення підготовленості тестованого за моделлю IRT і проведеними обчислювальними експериментами. В реальному тестуванні, коли параметри завдань невідомі й обчислюються за результатами тестування, звісно, спостерігатимуся розбіжності в ранжуванні, які викликатимуся похибками визначення параметрів тестових завдань за моделлю Г. Раша.В системі організації самостійної роботи студентів розглянута вище рейтингова (нормоорієнтована) інтерпретація тестових результатів доцільна для проведення певних навчальних змагань і при здійснені студентом самоконтролю, щоб надати йому можливість бачити рівень власних навчальних досягнень на фоні групи. За нормоорієнтованою інтерпретацією тестових результатів може здійснюватися підсумковий контроль.Під час організації самостійної роботи часто застосовується інтерпретація тестових результатів, що орієнтована на критерії, які задаються навчальним стандартом, викладачем або системою педагогічної діагностики й прогнозування. Так, під час здійснення актуалізації опорних знань на початку вивчення нового матеріалу рейтингова інтерпретація тестових результатів не є можливою, оскільки за умови нормального навчального процесу всі тестовані мають успішно виконати тест. Викладач задає певну межу тестового балу, що відповідає якості опорних знань, яка достатня для продовження навчання. Поточний контроль теж частіше здійснюється на основі критеріїв якості засвоєння. За рекомендаціями різних авторів повнота знань, яка ще дає можливість студенту самостійно ліквідувати прогалини складає близько 0,7. За вимогами «Критерієв оцінювання навчальних досягнень ...» [4] мінімальна позитивна оцінка 4 за 12-бальною шкалою виставляється за умови, що учень знає близько половини навчального матеріалу. Тематичний контроль може здійснюватися за нормоорієнтованою інтерпретацією тестових результатів, але для цього потрібно мати стандартизовані тести, створення яких пов’язано з ретельною апробацією цих тестів на великій вибірці з цільової групи. Якщо таких тестів немає, то неможливо перевірити якість засвоєння студентом навчального матеріалу теми через порівняння його навчальних досягнень з досягненнями невеликої і не завжди репрезентативної академічної групи студентів. В такому випадку застосування інтерпретації тестових результатів, що орієнтована на критерії, буде доцільним.Для порівняння якості різних критеріально орієнтованих процедур інтерпретації тестових результатів запропонуємо критерії Z, який за аналогією з вище описаним критерієм Q визначатиме різницю між імовірністю правильного та неправильного висновку щодо перебільшення навчальних досягнень тестованого над певною заданою межею, що встановлена викладачем або освітнім стандартом. Критерії Z є функцією від різниці Δy між навчальними досягненнями та встановленою критеріями межею. Чим більше ця різниця, тим ближче значення критерію до одиниці. Таким чином, під час здійснення аналізу якості процедур тестування й інтерпретації тестових результатів потрібно заздалегідь обрати певну різницю Δy, яка визначатиме частку повноти знань для якій визначатимуся критерій Z. Крім цього, досліджувана процедура тестування й інтерпретації тестових результатів може давати систематичну похибку в бік завищення або заниження вимірюваної повноти знань. Тому потрібно обчислювати значення критерію Z як для випадку перевищення навчальних досягнень над заданою межею, так і для протилежного випадку, коли навчальні досягнення (наприклад, повнота знань) нижче за встановленої межі.В

查看原文