Теория и практика педагогического тестирования. Современные

advertisement
Автор: Карданова Елена Юрьевна
Часть 6
Центр повышения квалификации ГУ-ВШЭ
2010
Wim J. van der Linden • Cees A.W. Glas (Eds.)
Elements of Adaptive Testing
Springer, 2010





учащиеся могут проходить тестирование, находясь дома
(очень хорошо для самоподготовки)
бланковое тестирование требует гораздо большей подготовки
к проведению и поэтому более затратно
тест может быть проверен немедленно, чем обеспечивается
обратная связь с испытуемым
как правило, автоматически генерируется матрица
тестирования, что облегчает анализ заданий и испытуемых,
также иногда возможно автоматическое формирование
отчетов
обеспечение большей степени секретности (отсутствие бумаг,
которые можно скопировать), более того, в компьютере
содержатся не сами тесты, а банки заданий, из которых
формируются варианты




большее разнообразие заданий может быть
включено в тест (например, можно использовать
больше графических заданий, использовать
различные цвета, анимацию, видео, звук)
компьютерное тестирование позволяет использовать
банки заданий и формировать различные варианты
для разных испытуемых (поэтому отсутствует
списывание)
есть возможность автоматической фиксации
времени выполнения каждого задания, что может
быть полезно (как дополнительная информация)
позволяет реализовать адаптивное тестирование




уровень владения компьютером у участника
тестирования
невозможность посмотреть весь тест целиком,
оценить его общую трудность и трудность того,
что осталось выполнить
как правило, невозможность вернуться к
решенным заданиям и исправить ответы
ухудшение восприятие задания в компьютерной
форме в некоторых случаях



компьютерное тестирование как альтернативная
форма предъявления теста (linear computerbased test)
компьютерное тестирование с автоматическим
формированием различных вариантов теста
компьютерное адаптивное тестирование
варианты, а, следовательно, и порядок предъявления
заданий фиксированы
 варианты рассматриваются как параллельные
 все задания переносятся в специальную компьютерную
программу для компьютерного тестирования (оболочку)
Предостережение: характеристики заданий и теста должны
быть оценены отдельно для двух форм предъявления
теста. Результаты бланкового и компьютерного
тестирования (по одному и тому же тесту) шкалируются
и сообщаются отдельно

варианты формируются автоматически из имеющегося
набора заданий по правилам, заданным разработчиком
 каждый испытуемый получает одно и то же количество
заданий
 варианты рассматриваются как параллельные
Предостережение: варианты могут оказаться не
параллельными (и по содержанию, и по трудности);
возникают сложности с анализом заданий и получением
характеристик заданий и теста




для каждого испытуемого в процессе
тестирования формируется индивидуальный
набор заданий
каждое последующее задание выбирается из
банка заданий в зависимости от ответа данного
испытуемого на предыдущее задание
процесс заканчивается, когда достигнута
требуемая точность измерения уровня
подготовленности данного испытуемого




инновации в разработке заданий (звук, графика,
анимация, видео)
инновации в администрировании заданий
(выделение текста, возможность передвигать
объекты по экрану, изменять порядок элементов
или картинок и т.д.)
возможность интерактивного тестирования
дополнительные возможности в заданиях с
генерированием ответов
Цель: повысить качество измерений



снизить эффект гадания
позволить испытуемым отвечать на задание
более прямо
сделать задания более интересными, что
снижает утомляемость и повышает интерес
учащихся



позволяет в некоторых случаях уменьшить
гадание при ответе на задание
дает возможность использовать не только текст в
качестве содержания задания и ответных
альтернатив
позволяет испытуемым отвечать на задание
более прямо


значительно облегчает восприятие задания и
ответ на него
позволяет расширить число соответствий до
трех (матричные задания)

легко реализуема

облегчает восприятие задания и его выполнение


требуют от испытуемого напечатать ответ (в
виде числа, формулы, слова, последовательности
нескольких слов и т.д.) в отведенном для этого
месте
ответы проверяются автоматически путем
сверки ответа испытуемого со списком
возможных ответов, заложенных в программу




очень разнообразны
от испытуемых может требоваться использовать
вербальные и/или математические элементы,
фигуры, чтобы сгенерировать свой ответ.
могут потенциально дать дополнительную
информацию о знаниях учащихся
разработка таких заданий требует
дополнительных усилий, а их использование –
соответствующего программного обеспечения



Задания имеют отношение к одной ситуации, в которой
испытуемому предлагается решить некоторую проблему. Решение
этой проблемы обычно подразумевает последовательность шагов,
которая реализуется в предлагаемых заданиях различной формы.
Возможны два варианта таких заданий. В первом варианте
предполагается, что последовательность шагов однозначна, т.е.
выполнение задания подразумевает, что все испытуемые должны
выполнить одни и те же шаги и в одном порядке. Во втором
варианте допускается, что последовательность шагов имеет свободу
выбора, и испытуемые строят свои собственные стратегии,
основываясь на том выборе, который они осуществили.
Такие задания потенциально могут улучшить валидность конструкта
теста. Однако они более трудны в разработке.
В литературе отмечается, что такие задания очень полезны на
заключительной стадии профессионального образования.
Отличительные особенности КАТ по сравнению с
другими формами тестирования:
 каждый испытуемый получает свой собственный
набор заданий, поэтому и содержание, и длина
теста могут отличаться для разных испытуемых
 каждый испытуемый оценивается
индивидуально (на своем уровне) с
минимальной ошибкой измерения





эффективность: требуется существенно меньше заданий для
оценивания уровня подготовленности испытуемого
точность: возможность оценить уровень подготовленности
каждого испытуемого на его уровне с минимальной ошибкой
измерения
испытуемые не тратят время и силы на задания, не
соответствующие их уровню подготовки (слишком легкие для
них или слишком трудные), поэтому уменьшается влияние на
результаты дополнительных факторов (утомление,
беспокойство, неаккуратность)
хорошо развита теория КАТ, поэтому хорошо разработанный
компьютерный адаптивный тест более надежен
участники тестирования более мотивированы и спокойны


классическая теория тестирования не подходит для
адаптивного тестирования: классические понятия
валидности, надежности, качества задания
подразумевают, что все испытуемые выполняют
одно и то же множество заданий (или, по крайней
мере, параллельные множества). Кроме того, само
понятие первичного балла при использовании
технологий КАТ не имеет смысла, так как
количество заданий, предлагаемых различным
испытуемым, различно
вся теория КАТ базируется на современной теории
тестирования (IRT)


С помощью любого множества заданий из
откалиброванного банка заданий можно оценить
уровень подготовленности испытуемого. Причем
оценки всех испытуемых будут находиться на одной
шкале, поэтому они будут сравнимы напрямую и не
надо будет применять процедуры выравнивания
баллов
Трудности заданий находятся на той же шкале, что и
оценки уровня подготовленности испытуемых.
Поэтому есть возможность адаптировать тест к
уровню каждого испытуемого отдельно


множество откалиброванных заданий (т.е.
заданий с известными параметрами), параметры
которых помещены на общую шкалу.
То, что параметры заданий помещены на общую
(единую) шкалу играет важную роль в КАТ. В
этом случае каждый тест, сформированный для
конкретного испытуемого, автоматически
выравнивается с любым другим тестом.



однопараметрическая модель Раша: каждое задание
характеризуется одним параметром – трудностью
двухпараметрическая модель Бирнбаума: каждое
задание характеризуется двумя параметрами –
трудностью и дискриминативностью
трехпараметрическая модель Бирнбаума: каждое
задание характеризуется тремя параметрами –
трудностью, дискриминативностью
(дифференцирующей способностью) и параметром,
характеризующим эффект угадывания в
рассматриваемом задании


выполняется с помощью предварительного
тестирования (можно в обычной бланковой
форме) на достаточно большой выборке
испытуемых
используются специальные процедуры IRT,
которые позволяют провести выравнивание
показателей и поместить оценки всех
параметров на одну шкалу


для нормативно-ориентированного тестирования
банк должен содержать задания с широким
рангом уровней трудности, чтобы для каждого
испытуемого нашлось достаточно заданий
подходящей трудности
для критериально-ориентированного
тестирования большинство заданий должны
иметь уровень трудности, близкий к проходному
баллу, чтобы как можно точнее оценить
испытуемых в этой точке, и отделить тех, кто
прошел, от тех, кто не прошел


проблема достаточности заданий
соответствующего уровня трудности в банке
проблема выбора заданий (некоторые задания
могут выбираться очень часто, а многие задания
банка не будут использоваться вообще)



Испытуемому предлагается какое-то задание. Если
он ответил на него правильно, следующим ему
предлагается более трудное задание. В случае
неправильного ответа на первое задание,
предлагается более легкое задание
После каждого ответа уровень подготовленности
испытуемого переоценивается, и выбирается
следующее задание, наиболее подходящее к его
уровню
Процесс завершается, когда достигнута требуемая
точность оценивания уровня подготовленности (но
могут использоваться другие правила окончания
тестирования)



как начать тестирование, то есть, как выбрать
первое задание для данного испытуемого
как продолжить тестирование, то есть, как после
каждого ответа выбирать следующее задание
как закончить тестирование, то есть, когда
процесс тестирования можно считать
завершенным



тестирование начинается с выполнения первого
задания теста
тестирование продолжается выполнением
следующего задания
тестирование прекращается, когда выполнены
все задания теста или когда закончилось время
тестирования


для критериально-ориентированного
тестирования, целью которого является
определение, достиг ли испытуемый
необходимого уровня знаний, первое задание
обычно выбирается близко к пороговому
значению (проходному баллу)
для нормативно-ориентированного
тестирования, целью которого является
дифференциация испытуемых и определение
уровня подготовленности каждого из них,
первое задание обычно выбирается средней
трудности


при нормативно-ориентированном тестировании
каждое последующее задание подбирается из
банка как наиболее информативное для
оценивания уровня подготовленности данного
испытуемого
при критериально-ориентированном
тестировании следующее задание выбирается
немного более трудным (при правильном ответе)
или немного более легким (при неправильном
ответе)



сбалансированность теста по содержанию
чрезмерное использование одних заданий и
неиспользование других
появление зависимых заданий




достижение требуемой точности измерения
фиксировано время тестирования
фиксировано количество заданий
объединение двух подходов (время тестирования
и точность оценивания)
Карданова Е.Ю., Нейман Ю.М.
Проблема выравнивания в современной теории
тестирования // Вопросы тестирования в
образовании. – 2003, № 8




при использовании различных вариантов одного
и того же теста
при создании банка заданий
при сравнении достижений учащихся в
различные моменты времени (мониторинг
достижений)
в компьютерном адаптивном тестировании (если
используются множества заданий, которые не
были предварительно откалиброваны и
помещены на одну шкалу)


специальная процедура, позволяющая установить
связь между баллами испытуемых по различным
вариантам теста и затем поместить их на одну
общую шкалу. В результате окончательный балл
испытуемых с одинаковым уровнем подготовки
будет одним и тем же вне зависимости от того, какой
вариант теста им достался и несмотря на то, что их
первичные баллы могли отличаться
В литературе выравнивание различных вариантов
одного и того же теста называется горизонтальным
выравниванием


Банк заданий – это множество откалиброванных
заданий (то есть заданий с известными
параметрами), из которых могут быть построены
различные варианты теста, порождающие
эквивалентные меры
Выравнивание различных вариантов теста и
создание банка заданий – звенья одной цепи, так как
обе процедуры имеют целью поместить оцененные
параметры моделей на общую шкалу. Различие лишь
в том, что при выравнивании вариантов необходимо
поместить на одну шкалу меры испытуемых,
выполнявших различные варианты теста, тогда как
цель создания банка заданий состоит в том, чтобы
поместить на одну шкалу параметры заданий из
различных вариантов теста



Цель: сравнение достижений учащихся в
различные моменты времени
Процедура выравнивания тестовых результатов в
таких ситуациях получила название
вертикального выравнивания.
Вертикальное выравнивание предназначено для
создания шкалы с общей метрикой для тестов,
которые создавались для измерения испытуемых
на различных стадиях развития




рассматривается только применительно к
проблеме выравнивания баллов по различным
вариантам теста. Остальные ситуации вообще не
рассматриваются
часто игноририруется (введятся понятия
«параллельных» вариантов)
состоит в установлении некоторого
соотношения, связывающего баллы по
различным вариантам теста
не подразумевает создания общей шкалы


метод линейного выравнивания
метод равнопроцентильного выравнивания.

основан на приравнивании стандартных zпоказателей, соответствующих испытуемым с
одинаковым уровнем подготовки, выполнявшим
различные варианты теста:



Рассмотрим два варианта теста из 50 заданий.
Пусть xср=24,5; σx= 9,3;
yср =21,8; σy =7,6.
Тогда получаем: y=0,82 x+1,71
Таким образом, баллу 45 по 1-му варианту
соответствует балл 39 по 2-му варианту;
баллу 30 соответствует балл 26 и т.д.

предполагается, что баллы по двум вариантам
эквивалентны, если им соответствуют
одинаковые процентильные ранги. Таким
образом, равнопроцентильное выравнивание
предполагает выявление для двух вариантов
теста оценок, имеющих один и тот же
процентильный ранг.
Оценка
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Первый вариант
Второй вариант
1
3
5
8
14
22
26
32
40
48
57
66
72
76
82
88
91
95
97
98
99
1
3
5
6
10
15
20
25
29
35
43
53
61
66
75
82
87
92
95
98
99


Оба метода требуют серьезных предположений
об идентичности распределений первичных
баллов и об эквивалентности групп испытуемых,
выполнявших выравниваемые варианты теста,
которые редко выполняются на практике
Выравнивание в КТТ подразумевает только
установление соответствия между баллами по
различным вариантам теста и не предполагает
создания общей шкалы


позволяет перенести оценки всех параметров (и
испытуемых, и заданий) на общую шкалу и,
таким образом, осуществить выравнивание
позволяет решить все проблемы выравнивания



Метод
общих заданий: связывание двух
вариантов осуществляется с помощью части
заданий, общих для этих двух вариантов
Метод общих испытуемых: связывание двух
вариантов осуществляется с помощью
подмножества испытуемых, выполнивших
задания обоих вариантов теста
Комбинированные методы (общие задания,
общий испытуемые, общие эксперты)



отдельная калибровка всех вариантов с
последующей трансформацией мер на общую
шкалу
одновременная калибровка всех вариантов и
получение всех мер на единой шкале
отдельная калибровка всех вариантов с
фиксацией общих параметров и
последовательное отражение всех параметров
на общей шкале



является традиционной
чаще использует метод общих заданий (которые при
применении этой процедуры выравнивания
называются узловыми)
предполагает калибровку каждого варианта теста по
отдельности. В результате все оценки мер
испытуемых и параметров заданий по каждому из
вариантов получаются на своей метрической шкале.
После этого параметры с различных вариантов
переносятся на общую шкалу (например, шкалу
одного из вариантов).


значения мер испытуемых и параметров заданий
оцениваются одновременно по всем вариантам
не требует последующей трансформации
оцененных мер на общую шкалу. Общая метрика
создается в процессе оценивания параметров, то
есть при одном запуске компьютерной
программы


чаще использует метод общих заданий (которые при
применении этой процедуры выравнивания
называются якорными)
при оценивании параметров второго варианта
фиксируются значения параметров якорных заданий
равными соответствующим значениям первого
варианта. В этом случае все меры испытуемых и
параметры заданий второго варианта будут
отражены на шкале первого варианта.
Download