Введение в классическую теорию тестирования

advertisement
Введение в классическую теорию тестирования
Linda Croker, James Algina: Introduction to Classical and Modern Test Theory
Линда Крокер, Джеймс Алгина «Введение в классическую и современную теорию тестов»
(Москва, Логос, 2010)
Основы КТТ заложены в трудах британского психолога Ч. Спирмена (опубликованы
с 1904 по 1913 годы), в которых он обосновал, что тестовые оценки характеристик людей
всегда содержат ошибочные компоненты измерения. Позже многие известные ученые,
особенно Гилфорд (1936), Галликсен (1950), Магнуссон (1967), Лорд и Новик (1968)
также занимались разработкой этой модели. В результате сформировалась теория,
получившая название классической теории тестирования (КТТ).
Всякий раз, когда испытуемый выполняет тест, его оценку по этому тесту можно
рассматривать как значение случайной переменной. На результат выполнения оказывают
влияние самые разные факторы - невнимательность, случайное удачное или неудачное
угадывание ответов, неправильного прочтение условия задачи и т.д.
Представим ситуацию, когда испытуемому много раз предъявляют один и тот же
тест, при условии, что он не устает при его выполнении и полностью забывает задания
после предыдущего тестирования. Очевидно, что наблюдаемые оценки, полученные при
повторном тестировании этого испытуемого, будут колебаться из-за ошибок измерения,
рассмотренных ранее. Истинную оценку (истинный балл) испытуемого можно
интерпретировать как среднее значение наблюдаемых оценок, полученных по
бесконечному числу повторяющихся тестирований при использовании одного и того же
теста. Так как преподаватель имеет дело только с фактически полученными результатами
измерения, то в процессе создания и применения тестов всегда стоит задача не получить
истинные баллы, а лишь как-то приблизиться к их наиболее достоверным оценкам.
Ошибка измерения также является случайной величиной и представляет собой
разность между наблюдаемой тестовой оценкой испытуемого (случайной величиной) и
его истинной оценкой. Таким образом, в теории педагогических измерений ошибка
трактуется как статистическая величина, отражающая степень отклонения наблюдаемого
балла от истинного балла ученика. Ошибки измерения происходят по различным как
контролируемым, так и неконтролируемым причинам и дифференцируются в зависимости
от источника происхождения.
Среди различного рода ошибок можно выделить два наиболее важных типа:
систематические и случайные. К систематическим относятся ошибки, порождаемые
недостаточным качеством теста и/или неправильными условиями его проведения. Это те
погрешности, которые неизбежно привносит любой разработчик теста в процесс создания
и применения средства измерения. Например (помимо плохого качества заданий), к
систематическим ошибкам может привести отсутствие качественной аппаратуры для
прослушивания текстов на экзамене по иностранному языку.
Случайные ошибки происходят от особенностей поведения испытуемых, а не от
заданий теста. Испытуемый может плохо себя почувствовать в процессе выполнения
теста. Для некоторых в помещении слишком жарко или холодно. На результаты
тестирования влияют скука, усталость либо волнение. Ученик может ошибаться при
1
осмыслении формы задания или неверно понять инструкцию и по этим причинам указать
неправильный ответ. С другой стороны, могли иметь место нарушения процедуры
тестирования, например, отдельным учащимся могла быть оказан помощь. В целом
ошибки измерения влияют в ту или иную сторону на результаты тестирования, снижая
надежность теста, которую рассматривают всегда исключительно в контексте случайных
ошибок измерения.
Основное уравнение КТТ имеет вид:
Xi = Ti + Ei
где Xi — наблюдаемый результат i-го испытуемого выборки по данному тесту; Ti — его
истинный балл; Ei — суммарная ошибка измерения при оценке Ti с помощью теста.
Основной вопрос заключается в выяснении, как тесно связаны истинные оценки
испытуемых с их наблюдаемыми оценками. Одним из показателей таких связей является
корреляция между этими двумя переменными. Коэффициент корреляции, который
выражает степень тесноты связей между истинной и наблюдаемой оценками по тесту,
называется показателем надежности теста. Данное определение не имеет
значительного практического применения, т.к. истинные оценки непосредственно не
наблюдаются, и мы не можем получить все возможные наблюдаемые оценки для каждого
испытуемого. Однако вполне возможно провести дважды тестирование группы
испытуемых с помощью одного и того же теста или с помощью двух форм. Если два теста
удовлетворяют требованию параллельности, то можно установить математическую связь
между корреляцией между истинными и наблюдаемыми оценками и корреляцией между
наблюдаемыми оценками по двум параллельным формам.
Понятие «параллельных форм теста» играет важную роль в КТТ. Согласно КТТ две
формы теста (два теста) являются параллельными, если:
1) Каждый испытуемый имеет одну и ту же истинную оценку по обеим формам;
2) Дисперсии ошибок для двух форм равны.
Такие тесты, как следствие, будут иметь равные средние значения баллов и равные
дисперсии. Также весьма разумно предположить (хотя с позиций статистики в этом нет
необходимости), что параллельные тесты соответствуют друг другу по содержанию.
Обычно в литературе используется упрошенное определение параллельных форм.
Различные формы (варианты) теста считаются параллельными, если они разработаны на
основе одной спецификации, имеют одинаковое количество заданий попарно равной
трудности с совпадающими характеристиками, и порождают на одной и той же выборке
идентичные распределения наблюдаемых баллов (распределения с одинаковыми
средними, дисперсией и т.д.).
КТТ базируется на нескольких принципах (предположениях) модели, которые часто
называют аксиомами или постулатами КТТ. Эти принципы следующие:
1) Среднее значение ошибок измерения для генеральной совокупности испытуемых
равно 0.
2) Корреляция между истинной оценкой и ее ошибочным компонентом равна 0.
2
3) Когда испытуемые выполняют два отдельных теста и оценки каждого
испытуемого по двум тестам предполагаются случайно выбранными из двух
независимых распределений возможных наблюдаемых оценок, корреляция между
ошибочными компонентами оценок по этим двум тестированиям равна 0.
Эти три принципа позволяют придти к фундаментальному соотношению КТТ:
дисперсия наблюдаемых баллов равна сумме дисперсии истинных баллов и дисперсии
ошибок:
 x2 =  T2 +  E2
Здесь:
 E2
 x2
- дисперсия наблюдаемых баллов,
 T2 - дисперсия истинных баллов
и
-дисперсия ошибок измерения. Это равенство удобно переписать в виде:
 T2
 E2
 1 2
 x2
x
Коэффициент надежности может быть определен как корреляция между оценками
по параллельным формам теста. Можно показать, что коэффициент надежности может
быть математически определен как отношение дисперсии истинной оценки к дисперсии
наблюдаемой оценки:
 T2
 2
x
Коэффициент надежности имеет следующую интерпретацию. Это – доля дисперсии
наблюдаемой оценки, которая может быть объяснена истинной вариацией истинных
оценок испытуемых. Пусть, например, коэффициент надежности получился равным 0,81.
Это означает, что 81% дисперсии наблюдаемых баллов может быть объяснено дисперсией
истинных оценок испытуемых. Показатель надежности равен квадратному корню из
коэффициента надежности. Тогда, в нашем примере можно утверждать, что показатель
надежности
равен
  0,81  0,9 ,
что
означает,
что
корреляция
между
наблюдаемыми и истинными оценками для этих испытуемых равна 0,90.
Во многих ситуациях пользователь теста заинтересован в выявлении того, как
ошибки измерения влияют на интерпретацию индивидуальных баллов испытуемых. Зная
надежность теста, можно оценить стандартную ошибку измерения
Е :
 E   x  1  í .
Полученное значение  Е используется для построения доверительного интервала, в
пределах которого, вероятнее всего, находится истинное значение тестового балла
испытуемого. Для построения доверительного интервала первоначально выбирается
уровень ошибки. Обычно в педагогике используется 5 –процентный уровень:   0,05
(вероятность ошибки в 5 случаях из 100). Для построения интервала используется
критерий Стьюдента, при этом значению   0,05 соответствует табличное значение tраспределения Стьюдента, которое приближенно можно принять равным 2.Тогда
доверительный интервал имеет вид: xi  2   E , xi  2   E  .
3
Важно заметить, что коэффициент надежности является теоретическим понятием:
действительно параллельных форм теста не существует. Разработаны различные методы
оценивания коэффициента надежности по имеющимся тестовым оценкам. Все эти методы
делятся на три группы;
- процедуры, требующие двух предъявлений теста
- процедуры, требующие одноразового предъявления теста
- методы, основанные на ковариациях заданий
К первой группе относятся метод взаимозаменяемых форм и ретестовый метод. В
первом методе одной и той же группе испытуемых предъявляются две подобные формы.
Формы должны предъявляться в течение короткого периода времени. Коэффициент
корреляции между двумя наборами тестовых баллов дает оценку коэффициента
надежности (иногда его называют коэффициентом эквивалетности). В литературе для
коэффициента надежности этого типа в качестве приемлемого называется интервал от 0,8
до 0,9. В ретестовом методе один и тот же тест предъявляется дважды одной и той же
группе испытуемых. Этот метод позволяет оценить влияние на результаты тестирования
ошибок в проведении тестирования, угадывания, описок и других факторов. Коэффициент
корреляции между тестовыми баллами по двум тестированиям дает еще одну оценку
коэффициента надежности, которую называют коэффициентом устойчивости.
Основной вопрос при использовании этого коэффициента состоит в определении
оптимального времени между тестированиями. На этот вопрос нет однозначного ответа. С
одной стороны, он должен быть достаточно долгим, чтобы позволить исчезнуть эффекту
запоминания. С другой стороны, он должен быть не таким долгим, чтобы допустить
влияние развития. Обычно период от одного тестирования до другого выбирают от одного
дня до двух недель.
В основном мы находимся в ситуации, когда единственная форма теста может быть
предъявлена группе испытуемых один раз. В этом случае для исследования надежности
рассматривается согласованность между собой результатов одних и тех же испытуемых
по всем заданиям теста. Процедуры, разработанные для оценивания надежности таким
способом, называются методами внутренней согласованности.
Наиболее известный метод в этой группе методов - метод расщепления.При
использовании этого метода тест делится на два субтеста и находится корреляция между
тестовыми оценками по двум половинам теста. Основная идея при этом, чтобы создать
субтесты, которые являются настолько параллельными, насколько это возможно.
Существуют 4 признанных способа деления теста пополам:
- задания с нечетными номерами помещают в первый субтест, с четными – во
второй;
- задания упорядочивают по уровню трудности, а потом делят на два субтеста по
четным и нечетным номерам;
- задания распределяются по субтестам случайным образом, чтобы в каждом
субтесте была половина заданий;
- задания распределяются по субтестам так, чтобы они образовали формы,
адекватные по содержанию.
Отметим, что в результате расщепления длина теста уменьшается в два раза,
поэтому коэффициент надежности, вычисленный этим способом, недооценивает
(занижает) коэффициент надежности всего теста, т.к. более длинные тесты более
4
надежны. Чтобы преодолеть эту проблему для коррекции коэффициента надежности
используют формулу Спирмена-Брауна:
 ñêîð 
2  í
,
1 í
где  í - коэффициент надежности, вычисленный по методу расщепления;  ñêîð предполагаемая надежность теста полной длины.
Основной недостаток процедуры расщепления состоит в том, что в зависимости от
способа деления теста пополам, коэффициенты надежности будут иметь разные значения.
Поэтому были разработаны другие методы, среди которых наибольшую известность
приобрели коэффициент альфа Кронбаха и формула Кьюдера-Ричардсона (KR-20). Эти
формулы приводят к идентичным результатам.
Коэффициент альфа Кронбаха вычисляется по формуле:
k


   i2 
k 

 1  i1 2 
k 1 
x 




где k – число заданий в тесте,  i - дисперсия оценок по заданию i,  x - общая
дисперсия по тесту. Коэффициент альфа применяется для тестов и с дихотомической
оценкой, и с политомической. В данном методе предполагается, что каждое задание теста
образует собственный субтест, при этом все субтесты строго параллельны. В большинстве
ситуаций тестирования это предположение не состоятельно, поэтому мы можем только
утверждать, что надежность теста не меньше, чем вычисленный коэффициент альфа.
Говорят, что коэффициент альфа задает нижнюю границу коэффициента надежности.
Например, если коэффициент альфа получился равным 0,8, то мы можем утверждать, что,
по крайней мере, 80% дисперсии наблюдаемых оценок является следствием дисперсии
истинных баллов испытуемых.
Коэффициент альфа может быть вычислен различными способами. Один из самых
известных – формула Кьюдера-Ричардсона (KR-20). Она применима только к случаю,
когда тест состоит только из дихотомических заданий, и имеет вид:
2
rKR  20
где k – число заданий в тесте,
k

  pi qi
k 

 1  i 1 2
k 1 
x


2






pi - трудность задания i, qi  1  pi ,  x2 - общая дисперсия
по тесту.
Выбор коэффициента надежности зависит от предполагаемого источника ошибок,
но, как правило, используются различные методы. Отметим, что коэффициент надежности
зависит от свойств выборки испытуемых, по результатам тестирования которой он был
получен. Поэтому потенциальные пользователи тестов должны убедиться, что
сообщаемый в документах к тесту коэффициент надежности получен на выборке,
подобной по составу той группе, для которой будет использоваться тест. В противном
случае надежность надо переоценить заново, применительно к имеющейся группе
испытуемых.
5
Статистическая обработка данных тестирования с целью анализа тестовых заданий
и всего теста в целом
1. Формирование матрицы ответов
2. Выбраковка
3. Упорядочение матрицы ответов
4. Графическая интерпретация эмпирических данных
5. Подсчет средних значений первичных баллов
6. Расчет дисперсии тестовых баллов
7. Проверка гипотезы о нормальности распределения тестовых баллов
8. Трудность задания (Коэффициент решаемости задания)
9. Дифференцирующая способность задания (дискриминативность)
10. Расчет корреляции между заданиями.
11. Надежность теста
12. Оценка ошибки измерения и построение доверительного интервала
13. Валидность теста
14. Анализ дистракторов (для заданий закрытой формы)
15. Проверка параллельности вариантов теста
6
Download