Теория и практика педагогического тестирования. Современные

advertisement
Теория и практика педагогического
тестирования. Современные подходы
Автор: Карданова Елена Юрьевна
Часть 4
Центр повышения квалификации ГУ-ВШЭ
2010
Недостатки классической теории тестирования
и преимущества современной теории тестирования
Классическая теория тестирования (КТТ):



первая половина 20-го века
достоинства - простота обработки и интерпретации результатов
обладает целым рядом существенных недостатков
Item Response Theory (IRT):
современная теория тестирования,
теория моделирования и параметризации тестов (ТМПТ)



вторая половина 20-го века
позволяет преодолеть недостатки КТТ
открывает возможности для использования новых технологий
тестирования и дополнительного анализа данных
Зависимость параметров трудности тестовых
заданий от уровня подготовленности
конкретной выборки испытуемых

КТТ: Оценки трудности тестовых заданий зависят от
уровня подготовленности конкретной выборки
испытуемых

IRT (модели Раша): Оценки трудности тестовых
заданий инвариантны относительно контингента
испытуемых, по результатам тестирования которых
они получены
Оценки трудности заданий по двум группам
испытуемых (КТТ)
Номер задания
Оценка трудности для общей
группы
Оценка трудности для
сильной группы
1
0,53
0,83
2
0,7
0,92
3
0,54
0,76
4
0,65
0,89
5
0,73
0,9
6
0,55
0,83
7
0,6
0,84
8
0,44
0,7
9
0,61
0,82
10
0,43
0,65
11
0,2
0,32
12
0,09
0,15
13
0,3
0,57
14
0,2
0,36
15
0,03
0,06
Оценки трудности тех же заданий (IRT)
Номер задания
Оценка трудности
для общей группы
Ср. кв. ошибка
Оценка трудности
для сильной группы
Ср. кв. ошибка
Статистика
t
1
-1,32
0,09
-1,66
0,15
-0,94
2
-2,33
0,10
- 2,60
0,21
-1,16
3
-1,39
0,09
-1,17
0,14
1,32
4
-2,04
0,10
-2,25
0,18
-1,02
5
-2,57
0,10
-2,32
0,19
1,16
6
-1,44
0,09
-1,66
0,15
-1,26
7
-1,73
0,10
-1,73
0,16
0,00
8
-0,76
0,10
-0,85
0,13
-0,55
9
-1,81
0,10
-1,61
0,15
1,11
10
-0,74
0,10
-0,58
0,13
0,98
11
0,88
0,12
1,11
0,13
1,30
12
2,11
0,15
2,34
0,17
1,01
13
0,09
0,10
-0,16
0,12
-1,60
14
0,88
0,12
0,89
0,13
0,06
15
3,61
0,25
3,58
0,25
-0,08
Зависимость оценок мер испытуемых от
уровня трудности конкретного теста

КТТ: Оценки уровня подготовленности испытуемых
(первичные баллы) зависят от уровня трудности
конкретного теста

IRT: Оценки уровня подготовленности испытуемых
инварианты относительно тестовых заданий, по
результатам выполнения которых они получены
Надежность теста и ошибка измерения
в КТТ





Все методы оценивания надежности требуют существенных
ограничений, не имеют прямого отношения к определению
надежности и дают искаженные результаты
Вопрос об ошибке измерения в КТТ часто вообще
игнорируется, и первичный балл испытуемого принимается
за его истинный балл
Ошибка измерения является величиной постоянной для всех
испытуемых
Ошибка измерения зависит от распределения конкретной
выборки испытуемых, то есть не является характеристикой
исключительно теста
Ошибка измерения заданий не оценивается
Надежность теста и ошибка измерения
в IRT






Ошибка измерения оценивается индивидуально для
каждого испытуемого и каждого задания
Знание ошибки измерения позволяет строить
индивидуальные доверительные интервалы для каждой
оценки
Ошибка измерения средних испытуемых меньше ошибки
измерения испытуемых, удаленных от центра
распределения
Ошибка измерения заданий средней трудности меньше
ошибки измерения заданий экстремальной трудности
Точность оценивания параметров заданий более высока,
чем точность оценивания мер испытуемых
Возможно оценить отдельно надежность измерения
испытуемых и надежность оценивания заданий теста
Распределение ошибки измерения
испытуемых
Уровень шкалы

КТТ: Шкала первичных баллов является порядковой.
Никакое преобразование первичных баллов в КТТ не
повышает уровня шкалы

IRT: Шкала тестовых баллов является шкалой более
высокого порядка - интервальной, что дает
возможность перейти от ранжирования испытуемых и
заданий к измерению соответственно уровня
подготовленности и уровня трудности
IRT: оценки параметров заданий и мер
испытуемых находятся на единой
метрической шкале

КТТ:
- уровни подготовленности испытуемых и параметры заданий теста
находятся на различных шкалах
- невозможно предсказать исход выполнения данным испытуемым
данного задания

IRT:
- параметры испытуемых и заданий находятся на общей метрической
шкале
- возможно предсказать вероятность правильного выполнения любым
испытуемым любого задания (даже, если это задание данному
испытуемому не предлагалось)
- возможно провести качественный анализ уровня подготовленности
любого испытуемого, то есть осуществима критериальноориентированная интерпретация результатов тестирования
IRT: Возможность объективного сравнения
• уровней подготовленности двух испытуемых
• уровней трудности двух заданий
• уровня подготовленности испытуемого относительно уровня трудности заданий
• уровня подготовленности испытуемого относительно некоторого порогового
значения уровня подготовленности в определенной области знаний.
Нормальность распределения параметров

КТТ: Нормальное распределение баллов испытуемых
и трудностей заданий теста играет существенную роль

IRT: Нормальность распределения параметров не
требуется
Проблема выравнивания в КТТ



Предлагаются некоторые способы выравнивания только
баллов испытуемых, полученных при использовании
различных вариантов одного и того же теста. Остальные
ситуации вообще не могут быть рассмотрены в рамках КТТ
Наиболее распространены два метода: метод линейного
выравнивания и метод равнопроцентильного
выравнивания. Оба метода требуют серьезных
предположений, которые редко выполняются на практике
Выравнивание в КТТ подразумевает только установление
соответствия между баллами по различным вариантам
теста и не предполагает создания общей шкалы
Проблема выравнивания в IRT

Возможно выполнить процедуру выравнивания
показателей различных вариантов и осуществить
шкалирование на единой метрической шкале

Возможно создание банков заданий, то есть
множества откалиброванных заданий, параметры
которых находятся на единой шкале
IRT: Компьютерное адаптивное
тестирование

для каждого испытуемого в процессе тестирования
формируется индивидуальный набор заданий

каждое последующее задание выбирается из банка
заданий в зависимости от ответа данного испытуемого
на предыдущее задание

процесс заканчивается, когда достигнута требуемая
точность измерения уровня подготовленности
данного испытуемого
Анализ влияния дополнительных факторов

КТТ: традиционно анализ концентрируется на
оценивании параметров заданий и мер испытуемых

Возможен анализ влияния дополнительных факторов
на оценки параметров заданий и мер испытуемых,
например, анализ влияния деятельности экспертов на
оценки испытуемых
Наиболее существенные аспекты влияния
экспертов



Эффект строгости / снисходительности. Большинство экспертов могут
быть отнесены к одному из классов: «оценивающие строго» или
«оценивающие снисходительно», причем строгость или
снисходительность могут быть рассмотрены как «стабильная
характеристика эксперта (более похожая на личное качество), которая
неотъемлемо вносится в каждую ситуацию оценки»
Эффект гало, который связан с внутренней тенденцией эксперта
оценивать испытуемого скорее за общие заслуги, чем по какому-либо
конкретному показателю. То есть на результат оценки влияет общее
впечатление об индивидууме
Эффект центральной тенденции, проявляющийся в том, что эксперт, у
которого присутствует данная тенденция, предпочитает использовать
средние баллы по шкале, избегая крайних категорий. Одной из причин
«тяготения к центру» является то, что эксперт опасается ставить
слишком высокие или низкие баллы при оценке испытуемых, которых
он не знает лично
Вес тестового задания и его
информационный вклад

КТТ: искусственное назначение весов заданиям может
привести к искажению информации об уровне
подготовленности испытуемых

Вес (информационный вклад) тестового задания
может быть вычислен отдельно вне зависимости от
характеристик других заданий
Информационная функция задания




характеризует количество информации, соответствующей
данному заданию
является функцией уровня подготовленности: одно и то же
задание может быть информативным для одного
испытуемого (или одной группы испытуемых) и абсолютно
бесполезным для оценивания другого (или другой группы)
задание наиболее информативно для тех испытуемых,
уровень подготовленности которых наиболее близок к
трудности данного задания
характеризует эффективность задания для оценивания
испытуемых с различным уровнем подготовки
Информационные функции двух
заданий
Введение в современную теорию
тестирования IRT



Hambleton R., Swaminathan H., Rogers H.J.
Fundamentals of Item Response Theory. – London.:
Sage publications, 1991
Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. – М.: Прометей, 2000
Карданова Е.Ю. Моделирование и параметризация
тестов: основы теории и приложения. – М.:
Федеральный центр тестирования, 2008
Объективность оценок подразумевает
выполнение следующих двух условий


инвариантность оценок испытуемых относительно
тестовых заданий, по результатам выполнения которых эти
оценки получены. Это означает, что при тестировании
одного и того же испытуемого различными тестами (с
подобной содержательной валидностью) должны
получаться близкие, с точностью до погрешности
вычислений, результаты
инвариантность характеристик тестовых заданий
относительно контингента испытуемых, по результатам
тестирования которых эти характеристики получены. Это
означает, что при выполнении одного и того же теста
различными группами испытуемых должны получаться
близкие, с точностью до погрешности вычислений, оценки
трудности тестовых заданий
Некоторые из широко применяемых
моделей IRT






основная дихотомическая модель Раша (Dichotomous Rasch
Model)
двух- и трехпараметрические модели (модели Бирнбаума)
Partial Credit Model (модель с произвольными промежуточными
категориями выполнения заданий; модель частичного
оценивания)
Rating Scale Model (модель с фиксированными промежуточными
категориями выполнения заданий; модель рейтинговых шкал)
многопараметрическая модель (Many-Facet Rasch Model, Linacre
J.M.)
многомерные модели (Multidimensional Rasch Model, Wilson M., и
др.)
Специальные компьютерные
программы

Winsteps (модели Раша – дихотомическая, PCM, RSM)

Bilog, Multilog, Parscale (модели Бирнбаума и их
расширения для политомических заданий)

Facets (Many-Facet Rasch Model)

Conquest (многомерные модели)
Преимущества моделей Раша:






простейшие модели, в рамках которых обеспечивается
инвариантность параметров, характеризующих уровни
подготовленности испытуемых и уровни трудности заданий теста
число параметров, входящих в эти модели, минимально
параметры допускают простую интерпретацию, могут быть достаточно
легко оценены, причем на метрической шкале и с указанием точности
могут быть применены к заданиям всех форм, которые наиболее часто
встречаются в педагогическом тестировании
хорошо развита теория анализа заданий и испытуемых
легко решаемы все специфические проблемы тестирования
Характеристическая кривая задания
Графики вероятностей категорий для
дихотомического задания
Графики вероятностей категорий в
двухшаговом задании
Основные этапы анализа данных в рамках
современной теории тестирования







Выбор модели измерения
Оценивание параметров
Исследование согласия эмпирических данных с моделью
Анализ заданий теста (согласие с моделью, функционирование
категорий политомических заданий, оптимизация схемы
оценивания)
Анализ испытуемых (обнаружение невалидных профилей и их
анализ)
Анализ теста (размерность теста, ошибка измерения и
надежность, совместное функционирование заданий различных
типов, валидность, функционирование заданий по отношению к
различным группам испытуемых)
Специфические проблемы (анализ деятельности экспертов,
назначение проходного балла, обнаружение недостоверных
результатов тестирования, выравнивание результатов)
Анализ испытуемых
Статистики согласия
Номер
испытуемого
Оценка
уровня
подготовл.
Ошибка
измерения
Коэффиц.
корреляции
10
1,01
0,31
15
2,07
148
Un(1)
tn(1)
Un(2)
tn(2)
-0,01
1,90
2,70
1,65
2,50
0,39
-0,16
1,65
1,10
1,69
1,90
1,21
0,32
0,22
1,22
0,70
1,41
1,50
156
1,31
0,32
0,13
1,46
1,30
1,01
0,10
482
-1,38
0,34
-0,18
3,34
4,00
1,63
2,70
517
-0,04
0,29
0,09
1,55
2,40
1,37
2,00
307
0,29
0,29
0,71
0,62
-2,20
0,80
-1,30
Анализ профилей ответов
Индивид.
номер
Тестовый
балл
Ряд ответов с пометками существенных отклонений
(* — существенное отрицательное, + — существенное положительное)
Часть А
10
1,01
15
2,07
148
1,21
156
1,31
482
-1,38
517
-0,04
307
0,29
| Часть В
11100 11100 11111 11011 11111 11110 10010
**
*
*
11110 11011 11110 11011 11101 11111 01020
*
*
*
*
*
*
*
11111 11111 11111 11111 11111 00000 10021
*****
10001 10111 11111 11111 11101 11111 11020
***
*
01000 00000 10000 00001 00010 00000 00001
+
+
11110 10000 00000 00110 01011 11111 01100
*
*
+
| Часть С
10001 10001 12213
*
+
11111 11111 22213
*
+
11002 11111 12000
*
11121 00111 10012
00120 00011 11100
++
++ + +
00120 11011 01020
+
+
+
11111 11010 11111 11111 11011 01111 11010 00000 01001 00000
Download