Обработка КТТ

advertisement
Апробационное тестирование
Цель апробационного тестирования – проверка функционирования заданий (анализ
тестовых заданий) и всего теста в целом, исследование системообразующих свойств теста,
оценивание его надежности и валидности.
Результаты апробации должны подвергнуться специальной статистической обработке,
чтобы выявить задания, которые функционируют правильно (как и предполагалось
разработчиком), и задания, которые не соответствуют требованиям. Дополнительно
исследуется функционирование всего теста в целом как измерительного инструмента,
выявляются проблемы и выясняются причины неудовлетворительных показателей.
Этапы проведения апробационного тестирования
1) Разработка методики апробационного тестирования (выборка, условия проведения и
т.д.)
2) Разработка инструкций для участников и для преподавателей, проводящих
апробацию теста
3) Проведение апробационного тестирования
4) Сбор эмпирических результатов
5) Статистическая обработка результатов выполнения теста
6) Интерпретация результатов обработки, проверка соответствия характеристик теста
научно-обоснованным критериям качества
7) Переработка заданий по результатам апробации; в случае необходимости разработка
новых заданий
8) Оптимизация длины теста и времени его выполнения на основании результатов
апробации. Оптимизация расположения заданий в тесте. Оптимизация схемы
оценивания заданий
9) В случае необходимости (значительных изменений в тесте) повторная апробация
(кросс-валидизация)
Подготовка и проведение апробации
Как правило, в рамках классической теории тестирования для получения относительно
устойчивых характеристик заданий, необходимо иметь минимальную выборку в 200 человек.
Другое правило эмпирического определения минимального объема – иметь в 5-10 раз больше
испытуемых, чем заданий (Nunnally, 1967).
Второе требование к выборке апробации – ее репрезентативность (представительность).
Выборка должна отражать всю генеральную совокупность учащихся, для которых
предназначен тест, и при этом в правильных пропорциях.
Большое значение имеет разработка правильных инструкций, которые следует
подготовить как для педагога, проводящего апробационное тестирование, так и для
испытуемых, выполняющих тест. В инструкции для педагога содержатся рекомендации по
подготовке группы учащихся к выполнению теста, примерные обязанности педагога на этапе
1
проведения тестирования, рекомендации по подготовке краткого отчета. В целом, педагогу
вовремя проведения апробации необходимо:
- объяснить учащимся, зачем нужен тест, почему они должны приложить максимум
усилий для его выполнения;
- медленно, четко прочесть инструкцию;
- дать возможность испытуемым потренироваться, решив самостоятельно задачи-образцы
(если такие имеются);
- сообщить о времени выполнения теста, о правилах исправления допущенных ошибок;
- проследить за правильностью заполнения регистрационных бланков;
- следить за порядком и общей обстановкой в аудитории, а также за состоянием
испытуемых.
После проведения апробационного тестирования и сбора эмпирических данных
начинается этап математико-статистической обработки, которая проводится, как правило, с
помощью специального программного обеспечения. Но специалист, проводящий анализ,
должен понимать выходные данные программ и уметь интерпретировать результаты.
Процесс научного обоснования качества теста заключается в сборе эмпирических
результатов тестирования, их статистической обработке и интерпретации результатов
обработки с целью получения параметров качества теста.
2
Обоснование качества теста в рамках классической теории тестирования
Анализ тестовых заданий
Статистическая обработка результатов тестирования с целью получения характеристик
заданий теста в рамках классической теории тестов включает в себя несколько этапов.
1. Формирование матрицы ответов
В результате тестирования мы получаем матрицу индикаторов ответов
A=(ani)
размерности N  I : n-ая строка этой матрицы (n=1,2,…, N) содержит баллы испытуемого n по
всем заданиям теста; i-ый столбец матрицы (i=1,2,…,I) содержит баллы всех испытуемых по iму заданию теста. Таким образом,
 a11
A  
a
 N1
a1I 


aNI 
и элемент ani представляет собой балл испытуемого n за выполнение i-го задания теста. Если
тест состоит только из дихотомических заданий, то все элементы матрицы A равны 0 или 1.
Если в тесте присутствуют политомические задания, то элементы матрицы, соответствующие
этим заданиям, имеют значения от 0 до m.
Сумма элементов матрицы A, стоящих в n-ой строке, называется первичным баллом
испытуемого n:
I
bn   ani , n=1,…,N
i 1
Сумма элементов матрицы A, стоящих в i-ом столбце, называется первичным баллом i-го
задания:
N
ci   ani , i=1,…,I
n 1
2. Выбраковка
Перед тем, как перейти к анализу данных по результатам тестирования, проводят
выбраковку – удаляют строки и столбцы, состоящие полностью из 0 и 1 , т.е. удаляют задания,
которые не смог выполнить никто или, наоборот, выполнили все. Аналогично с испытуемыми
– для тех, кто выполнил все задания или не справился ни с одним заданием, истинный балл не
может быть определен с помощью данного теста.
3. Упорядочение матрицы ответов
Иногда для улучшения восприятия баллов удобно упорядочить матрицу, т.е. произвести
перестановку строк и столбцов, располагая первичные баллы в порядке убывания.
3
Задание
I=10
Испытуе
мые
N=15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
ci
1
1
1
0
1
1
1
1
1
1
1
1
0
1
0
1
12
2
1
1
0
1
0
1
1
1
1
1
0
0
0
0
1
9
3
1
0
0
0
1
1
1
1
1
1
1
1
0
0
0
9
4
1
0
0
1
0
0
1
1
1
1
0
1
1
0
1
9
5
1
0
0
1
1
0
0
0
1
1
0
1
1
1
1
9
6
1
0
0
1
1
0
0
0
1
0
1
1
1
1
1
9
7
1
0
0
1
0
0
0
0
1
1
1
0
0
0
1
6
8
0
0
1
1
0
0
0
0
1
0
0
0
0
0
0
3
9
0
0
0
1
0
0
0
0
0
0
0
1
0
1
0
3
10
0
0
0
1
0
0
0
0
0
0
1
0
1
0
0
3
bn
7
2
1
9
4
3
4
4
8
6
5
5
5
3
6
 72
бал
ла
Табл.1
4. Графическая интерпретация эмпирических данных
Как правило, для
графической
интерпретации
используют гистограмму.
Гистограмма иллюстрирует плотность распределения тестовых баллов и позволяет показать
соотношение размеров различных групп испытуемых, получивших низкие, средние и высокие
баллы. При этом по оси абсцисс откладывается тестовый балл (или процент выполнения
заданий теста при большом количестве заданий), высота столбцов соответствует частоте этого
балла (или проценту испытуемых, имеющих результат в данном интервале, при большом
количестве испытуемых).
На рис.1 приведена гистограмма, соответствующая матрице результатов тестирования,
приведенной в табл.1.
4
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
Рис. 1
5. Подсчет средних значений первичных баллов
Среднее значение индивидуальных баллов рассчитывается как среднее арифметическое
всех баллов:
N
x  xñð. 
b
n
n 1
- среднее значение первичных баллов испытуемых,
N
Аналогично,
I
y  y ñð. 
c
i 1
I
i
- среднее значение первичных баллов заданий.
В рассматриваемом примере имеем:
72
 4,8 ;
15
72
y
 7, 2 .
10
x
6. Расчет дисперсии тестовых баллов
Дисперсия (вариация) тестовых баллов характеризует меру рассеивания индивидуальных
баллов испытуемых относительно среднего значения x ср :
Dx   x2 
N
1
2
  bn  x 
N  1 n1
Как следует из формулы, дисперсия выражается в квадратных единицах. Чтобы этого
избежать, в качестве меры рассеивания берут среднее квадратическое отклонение – квадратный
корень из дисперсии:
5
1 n
xi  x 2
 x  Dx 

n  1 i 1
В нашем примере:
1
722
D x = (412 
)  4,74;  x  4,74  2,18.
14
15
Дисперсия
играет важную роль в оценке качества теста при нормативноориентированной интерпретации. Слабая вариация результатов испытуемых говорит о низком
качестве теста, т.к. указывает на низкую дифференциацию испытуемых по уровню подготовки.
Излишне высокая дисперсия, характерная для случая, когда все испытуемые отличаются по
числу выполненных заданий, также требует переработки теста. Превышение разумных
пределов дисперсии приводит к искажению вида распределения, которое начинает существенно
отличаться от планируемой теоретической нормальной кривой.
7. Проверка гипотезы о нормальности распределения тестовых баллов
Большинство методов, применяемых для получения характеристик тестовых заданий,
относятся к группе параметрических методов математической статистики, для использования
которых требуется нормальное распределение эмпирических данных. В хорошо
сбалансированном по трудности тесте распределение индивидуальных баллов имеет вид
нормальной кривой. Нормальное распределение характеризуется тем, что крайние значения
признака в нем встречаются достаточно редко, а значения, близкие к средней величине достаточно часто.
Наиболее удобна на практике нормированная нормальная кривая со средним значением
zср .  0 и стандартным отклонением  я  1 . Такая кривая иногда называется единичной
кривой (т.к. площадь под кривой равняется 1) (см. график на рис.2). Для совмещения любой
нормальной кривой с единичной достаточно выполнить преобразование исходных баллов по
формуле:
zi 
bi  x
x
Отметим некоторые свойства нормального распределения:
1) 68 % площади под кривой лежит в пределах одного стандартного отклонения,
откладываемого влево и вправо от среднего значения (т.е. x   x );
2)
95 % площади под кривой лежит в пределах двух стандартных отклонений,
откладываемых влево и вправо от среднего значения ( x  2 x );
3) 99,7 % площади под кривой лежит в пределах трех стандартных отклонений,
откладываемых влево и вправо от среднего значения ( x  3 x ).
6
Рис.2
Нормальность распределения можно проверить путем расчета показателей асимметрии и
эксцесса и сопоставления их с критическими значениями. Асимметрия оценивает степень
отклонения распределения от симметричного распределения, характерного для нормальной
кривой. Показатель асимметрии (А) вычисляется по формуле:
 b  x 
N
A
i 1
3
i
N   x3
,
(1)
где все обозначения прежние.
Рассчитаем показатель асимметрии для теста, матрица ответов которого представлена в
таблице 1. Имеем:
A
7  4,83  2  4,83  ...  6  4,83
 0,45 .
15  2,183
Для нормального распределения характерна нулевая асимметрия: А=0. Если А>0, то
основная часть значений индивидуальных баллов больше среднего значения x , что обычно
характерно для излишне легких тестов. И наоборот, отрицательная асимметрия (А<0)
встречается в излишне трудных тестах, не сбалансированных правильно по трудности при
отборе заданий в тест. На рис.3 представлены кривые распределения с отрицательной, нулевой
и положительной асимметрией (слева направо) соответственно.
Рис.3
7
Эксцесс дает представление о том, является ли распределение островершинным или
плоским. Показатель эксцесса (Е) вычисляется по формуле:
 b  x 
N
E
i 1
4
i
N   x4
3,
(2)
где все обозначения прежние. Для нормального распределения Е=0. Если кривая распределения
– островершинная, то Е>0. Это бывает в тех случаях, когда какие-либо причины способствуют
преимущественному появлению индивидуальных баллов, близких к среднему значению. Если
же в распределении преобладают крайние значения, причем одновременно и более низкие, и
более высокие, то кривая распределения будет плосковершинной и показатель эксцесса Е<0.
На рис.4 изображены кривые с положительным, нулевым и отрицательным эксцессом (слева
направо) соответственно.
Рис.4
В отдельных случаях при отрицательном эксцессе распределение индивидуальных
баллов может быть двувершинным (бимодальным) (рис.5). Такое распределение указывает на
то, что по результатам выполнения теста все испытуемые разделились на две группы: одна
группа справилась с большинством легких заданий, а другая – с большинством трудных
заданий теста. По всей вероятности, в тесте недостаточно представлены задания средней
трудности. Необходимо провести коррекцию трудности заданий теста, добавив в него задания
средней трудности, позволяющие выровнять распределение баллов.
Рис.5
После вычисления значений асимметрии и эксцесса необходимо провести проверку
значимости найденных значений с помощью какого-либо из известных критериев. Дело в том,
что вычисленные значения асимметрии и эксцесса являются выборочными, т.к. основаны на
результатах данной выборки испытуемых. Выборочные значения асимметрии и эксцесса, как
правило, отличаются от 0. Требуется определить, значимы ли эти отличия или нет. Если
отличия незначимы, то гипотеза о нормальном распределении генеральной совокупности
принимается. В противном случае, если отличия значимы - отклоняется.
Существует простой способ оценить значимость отличий выборочных значений
8
асимметрии и эксцесса от 0. Способ использует асимптотический подход, поэтому объем
выборки N должен быть достаточно большим (N > 50). Известно, что выборочные значения aВ
и eВ распределены асимптотически нормально с параметрами (a,  a ) и (e,  e )
соответственно. Для нормального генерального распределения a = 0 и e = 0. Средние
квадратические отклонения могут быть приблизительно оценены следующим образом:
a 
6(n  1)
6
24n(n  2)(n  3)
24

, e 

2
(n  1)(n  3)
n
(n  1) ( n  3)( n  5)
n
(3)
Следовательно, асимптотически А~ N (0,  a ) , Е~ N (0,  e ) . Опуская выкладки, приведем
простой алгоритм проверки гипотезы о нормальности генерального распределения с помощью
выборочных асимметрии и эксцесса:
1) Выбираем уровень значимости  . Обычно его выбирают равным 0,05.
2) Вычисляем значение
уровне значимости
 по формуле    1 (0,5  0,25   ) . При обычно выбираемом
 = 0,05 параметр    1 (0,4875)  2,25 .
3) Вычисляем выборочные значения асимметрии А и эксцесса и Е (формулы (1) и (2)).
4) Вычисляем значения отклонений по формулам (3).
5) Если не выполняется хотя бы одно из неравенств
| aB |  a , | eB |  e ,
то на уровне значимости
(4)
 гипотеза о нормальном распределении генеральной совокупности
отклоняется. Если оба неравенства (4) выполняются, то нет оснований отвергать нулевую
гипотезу.
Например, если объем выборки N=100, то  a  0,24,  e  0,49 и неравенства (4)
принимают вид: | aB | 0,54, | eB | 1,1 .
8. Трудность задания (Коэффициент решаемости задания) – вычисляется по
формуле:
k j
cj
N
.
Очевидно, при дихотомической оценке значение k j соответствует доли испытуемых
данной выборки, выполнивших задание правильно. Следовательно, 0  k j  1 . Чем больше k j ,
тем легче данное задание, и, наоборот, чем меньше k j , тем оно труднее.
Коэффициент
k5 
решаемости
5-го задания
в рассматриваемом
примере равен:
9
 0,6.
15
Коэффициент решаемости задания ассоциируется с мерой его трудности. Оптимальное
значение меры трудности для задания 0,5, но в тесте должны присутствовать и легкие задания
(коэффициент решаемости k  0,8 ), и сложные ( k  0,2).
9
Если экспертным путем определялся уровень сложности заданий, то заданиям первого
уровня сложности соответствуют значения трудности q  (0,1;0,3) ; заданиям второго уровня
сложности - q  (0,4;0,7) и заданиям третьего уровня сложности - q  (0,8;1,0). В случае
несовпадения предполагаемого уровня сложности задания и полученного уровня его трудности
необходим анализ причин несовпадения.
9. Дифференцирующая способность задания (дискриминативность)
Цель создания многих тестов состоит в обеспечении информации об индивидуальных
различиях между испытуемыми. Поэтому задания теста должны обладать способностью
различать испытуемых с различным уровнем подготовки. Если на какое-либо задание теста
отвечают все испытуемые, независимо от уровня их подготовки, то такое задание не
дифференцирует сильных студентов от слабых. Аналогичная ситуация с заданием, на которое
нет ни одного правильного ответа. Еще хуже ситуация, когда сильные испытуемые не отвечают
на задание правильно, а слабые – отвечают. В этом случае задание не только не
дифференцирует испытуемых, но и вносит дезинформацию в их оценивание. Про такие задания
говорят, что они имеют отрицательную дискриминативность.
В качестве показателя дискриминативности используют различные показатели, которые
будут рассмотрены далее.
Показатель различительной способности задания (показатель дискриминативности)
Этот показатель очень прост в применении, поэтому довольно популярен. Пусть k j ' коэффициент решаемости j-го задания лучшей половиной тестируемых,
k 'j' - коэффициент
решаемости j-го задания худшей половиной тестируемых. Тогда
D j  k 'j  k 'j' .
Чаще всех испытуемых делят не пополам, а отбирают 27 % испытуемых, имеющих
высокие баллы и 27 % испытуемых, имеющих низкие баллы.
Очевидно, что - 1  D j  1 . Если задание правильно выполняет больше лучших, чем
худших тестируемых, то D j >0; в противном случае D j <0. Если задание выполнит одинаковое
количество лучших и худших, то D j =0, задание не дифференцирует испытуемых. В литературе
приводятся следующие принципы для интерпретации значений коэффициента D j :
1) Если D j ≥ 0,4, то задание функционирует удовлетворительно;
2) Если 0,30 ≤ D j ≤0,39, то требуется небольшая коррекция задания;
3) Если 0,20 ≤ D j ≤0,29, то задание нуждается в пересмотре;
4) Если D j ≤0,19, то задание должно быть исключено из теста или полностью переделано.
Недостаток применения этого коэффициента состоит в том, что у него нет никакого
известного выборочного распределения, поэтому невозможно определить, насколько значимо
величина коэффициента больше 0, например. Однако он часто используется из-за своей
простоты.
Остальные методы анализа дифференцирующей силы заданий являются различными
видами коэффициентов корреляции.
10
Точечная бисериальная корреляция
Точечно-бисериальный коэффициент представляет собой упрощенную формулу Пирсона
– коэффициента корреляции между результатами выполнения каждого задания и суммой
баллов по всему тесту (при дихотомическом способе оценки):
r pbjs =
(    x
x
 p/q ,
где
  - средний балл испытуемых, выполнивших j-ое задание верно;
 x - средний балл всей группы испытуемых;
 x - среднее квадратическое отклонение результатов тестирования всех испытуемых;
p - число испытуемых, выполнивших j-ое задание верно (трудность задания);
q  1  p - число испытуемых, выполнивших j-ое задание неверно.
Полученный коэффициент корреляции иногда называют показателем валидности задания.
Чем выше коэффициент корреляции, тем валиднее задание, тем выше его дифференцирующая
способность. В целом, задание можно считать валидным, если значения ( rpb ) j >0,5.
Оценка валидности задания позволяет судить, насколько задание пригодно для работы в
соответствии с общей целью создания теста. Если его цель – дифференциация испытуемых, то
валидные задания должны четко отделять хорошо подготовленных от слабо подготовленных
учеников тестируемой группы.
Бисериальный коэффициент корреляции
Это еще один коэффициент вычисления корреляции между результатами выполнения
каждого задания и суммой баллов по всему тесту в предположении, что значения латентной
переменной, лежащей в основе выполнения заданий, распределены нормально. Этот
коэффициент и предыдущий связаны простым математическим соотношением. Следует
отметить, что значение бисериальной корреляции для заданий средней трудности, по крайней
мере, в полтора раза превышает значение точечной бисериальной корреляции для тех же самых
переменных. Для заданий экстремальной трудности (очень легких и очень трудных) разница
между бисериальной корреляцией и точечной бисериальной корреляцией резко возрастает.
Иногда используются и другие коэффициенты корреляции, например, коэффициент фи,
тетрахорический коэффициент корреляции и др.
Могут быть предложены следующие рекомендации относительно выбора процедуры
анализа дифференцирующей силы задания в случае их дихотомического оценивания.
1) Если задания имеют среднюю трудность, то выбор статистического критерия не играет
особого значения. Поэтому можно использовать показатель дискриминативности, как
самый легкий по вычислению.
11
2) Если стоит цель отобрать задания в экстремальном диапазоне трудности, то лучще
применять бисериальный коэффициент корреляции.
Анализ заданий производится с учетом всей информации по нему, что, как правило,
позволяет установить причины плохого функционирования задания. Для этого дополнительно
используются данные по ответам испытуемых (в случае закрытых заданий данные по
дистракторам). Все данные обычно сводят в таблицу.
Задание
Ответы к заданиям, %
2
3
4
1
1
2
3
24
4
16
4
28+
12
52
28
0
Пропуски, %
16+
32
72+
4
8
0
Трудность Показатель
Точечная
задания р дискрими- бисериальная
нативности корреляция
0,16
0,00
-0,06
0,28
-0,17
-0,12
0,72
-0,17
-0,29
Задание 1 имеет отрицательную точечную бисериальную корреляцию. Задание очень трудное –
только 16% испытуемых выполнили его верно. При анализе распределения ответов видим, что 52%
испытуемых выбрали вариант ответа 3 вместо помеченного, как правильный варианта 4. Возможная
причина такой ситуации – отсутствие правильного ответа в задании.
Задание 2 также является отрицательно дифференцирующим. Оно тоже трудное. Ответы
на него рспределены почти одинаково по трем из 4-х возможных позиций, включая правильный
ответ. Возможная причина – испытуемые отвечали наугад. Дополнительно видим, что 8%
испытуемых пропустили это задание, т.е., возможно, его не поняли. Возможно, задание было
сформулировано неоднозначно, или для задания нет правильного ответа, или содержание
задания неизвестно испытуемым.
Задание 3 имеет проблемы с содержанием и вариантами ответов. Оно легкое. Вариант
ответа 3 никем не был выбран, т.е. это – неработающий дистрактор. Включение такого ответа
увеличивает шансы на угадывание слабых испытуемых, поэтому задание получилось более
легким. Необходимо переделать неработающий дистрактор.
10. Расчет корреляции между заданиями.
Для оценки связи между результатами выполнения двух заданий теста можно
использовать коэффициент корреляции Пирсона. Результаты
подсчета коэффициентов
корреляции по всем заданиям сводят в таблицу – полную корреляционную матрицу.
Чем выше коэффициент корреляции между заданиями, тем сильнее они взаимосвязаны.
Для тестов текущей успеваемости коэффициент корреляции между заданиями должен быть как
можно ближе к 1. Если r<0, это означает, что сильные по другим заданиям студенты в этом
задании терпят неудачу и наоборот. Как правило, это следствие некорректности задания.
Задание, которое отрицательно коррелирует с несколькими заданиями, должно быть удалено из
теста, что приведет к большей гомогенности (предметной чистоте) теста. Отрицательные
значения корреляции указывают на отсутствие связи содержания этих заданий с содержанием
других заданий.
В итоговом аттестационном тесте высокой корреляции между заданиями стараются
избегать, т.к. вряд ли имеет смысл включать в тест несколько заданий, оценивающих
одинаковые содержательные элементы. Поэтому в итоговом тесте обычно стремятся к
невысокой положительной корреляции (рекомендуемое значение r для итогового теста:
12
r  0;0,3 ). В этом случае каждое задание вносит свой специфический вклад в общее
содержание теста, в противном случае задания подменяют друг друга.
11. Надежность теста.
Коэффициент
надежности
рассчитывается
как
коэффициент
корреляции
экспериментальных данных при обработке результатов выполнения двух половин одного и того
же теста (метод расщепления), или одного и того же теста, но в разное время (ретестовый
метод), или результатов тестирования параллельными вариантами. Рассмотрим различные
методы вычисления надежности теста.
1). Ретестовый метод – основан на повторном применении одного и того же теста на
одной и той же группе испытуемых (рекомендуется, не ранее, чем через 2 недели и не позже,
чем через 3 недели). Коэффициент надежности в этом случае рассчитывается как коэффициент
корреляции между оценками испытуемых по двум тестированиям.
Коэффициент надежности, вычисленный ретестовым методом, может дать завышенное
значение, особенно если повторное тестирование проводится слишком близко по времени.
Учащиеся могут запомнить ответы к некоторым заданиям, что негативно скажется при оценке
надежности теста.
2). Метод параллельных форм.
Для исследования надежности теста этим методом используется корреляция между
результатами выполнения одной группой испытуемых двух параллельных форм теста. На
практике этот метод используется крайне редко ввиду невозможности разработки полностью
параллельных вариантов. Однако, если проверена гипотеза о параллельности вариантов теста,
этот метод можно применять.
Описанные два метода на практике используются редко, т.к. предполагают двукратное
тестирование.
3). Метод расщепления – позволяет оценить надежность теста при одном предъявлении
теста группе испытуемых. Результаты тестирования делятся на две группы, например, в одну
группу берутся все нечетные задания, в другую – все четные задания. В качестве коэффициента
надежности берется коэффициент корреляции между оценками испытуемых по двум группам
заданий.
В результате расщепления длина теста уменьшается в два раза, поэтому значение
коэффициента надежности теста будет заниженным. Для его коррекции используют формулу
Спирмена-Брауна:
2  rн
rскор 
,
1  rн
Если, например,
rн  0,78 , то rскор 
2  0,78
 0,88 - скорректированное значение
1  0,78
коэффициента надежности.
Метод расщепления основан на предположении о параллельности двух половин теста,
что не всегда оказывается верным. Корреляция двух половин теста возрастает по мере роста
гомогенности теста. В этой связи, коэффициент надежности, вычисленный таким способом,
иногда называют коэффициентом внутренней согласованности теста.
13
Отметим, что итоговые тесты таким способом лучше не расщеплять, т.к. необходимо при
расщеплении учитывать содержание теста.
4). Формула Кьюдера-Ричардсона (KR-20).
Представляет собой упрощенный вариант коэффициента Кронбаха альфа для случая
дихотомических заданий. Формула Кьюдера-Ричардсона (KR-20) очень удобна:
rKR  20
где
m

  p jq j
m 
j 1

 1 
m 1
Dx








m- число заданий в тесте;
p j - трудность j-го задания теста;
q j  1 p j ;
D x - дисперсия баллов испытуемых по всему тесту.
Вычислим по этой формуле надежность теста, результаты выполнения которого
приведены в таблице 1.
rKR 20 
10
0,8  0,2  5  0,6  0,4  0,4  0,6  3  0,2  0,8
 (1 
)  0,62
9
4,74
Такое низкое значение надежности может быть объяснено различными причинами (малая
и нерепрезентативная выборка, малое количество заданий в тесте и т.д.), но недопустимо на
практике.
Рекомендуется для большей точности для оценки коэффициента надежности использовать
различные методы.
Коэффициент надежности rн  (0;1) . В качестве нижнего предела допустимых значений
надежности обычно выбирают значение 0,7. При более низких значениях использование теста
нецелесообразно ввиду большой погрешности измерения. К профессионально разработанным
тестам предъявляются более жесткие требования: тесты с надежностью менее 0,8 считаются
непригодными. Положение с выводами о качестве теста осложняется тем, что коэффициент
надежности зависит от свойств выборки испытуемых, по результатам которых оценивается
надежность теста. Поэтому при каждом использовании теста необходимо оценивать его
надежность и только после этого говорить о достоверной интерпретации выполнения теста.
К числу источников неудовлетворительной надежности теста можно отнести:
1) субъективизм при оценке результатов выполнения заданий теста
2) угадывание (как показывают исследования, угадывание существенно снижает
надежность теста, особенно в тех случаях, когда слабые ученики прибегают к догадке при
выполнении наиболее трудных заданий теста)
3) отсутствие логической корректности формулировок заданий (как правило,
некорректные задания искажают истинную картину, что в целом негативно отражается на
надежности теста)
4) неоправданный выбор весовых коэффициентов
14
5) длина теста
6) отсутствие стандартной инструкции к тесту
7) условия тестирования (шум, плохое освещение и т.д.)
8) плохое самочувствие испытуемого и пр.
Рассмотренные методы оценки коэффициента надежности неприменимы для
критериально-ориентированных тестов, так как малая дисперсия в КРОТ приводит к
завышенному значению коэффициента надежности. Для оценивания надежности в КРОТ
используются другие методы.
12. Оценка ошибки измерения и построение доверительного интервала.
Зная надежность теста, можно оценить стандартную ошибку измерения  Е :
 E   x  1  rн .
Здесь:  x - среднее квадратическое отклонение тестовых баллов;
rн - надежность теста.
Полученное значение  Е используется для построения доверительного интервала, в
пределах которого, вероятнее всего, находится истинное значение тестового балла
испытуемого. Для построения доверительного интервала первоначально выбирается уровень
ошибки. Обычно в педагогике используется 5 –процентный уровень:   0,05 (вероятность
ошибки в 5 случаях из 100). Для построения интервала используется критерий Стьюдента, при
этом значению   0,05 соответствует табличное значение t- распределения Стьюдента,
которое приближенно можно принять равным 2. Тогда доверительный интервал имеет вид:
xi  2   E , xi  2   E  .
13. Валидность теста.
Под валидностью понимают характеристику качества теста, ориентированную на оценку
адекватности теста поставленной цели его создания. Т.е. валидность – это характеристика
пригодности тестовых результатов для определенной цели, т.е. соответствия теста своему
назначению.
По своей сути, валидность – комплексная характеристика: с одной стороны, пригодности
теста для измерения того, для чего он был создан (теоретическая валидность), и, с другой
стороны, действенности, эффективности данной методики (прагматическая валидность).
Другими словами, понятие валидности объединяет различные ее виды, имеющие свой особый
смысл.
Различают различные виды валидности: содержательная, валидность конструкта,
валидность конструкта, прогностическая и др.
1). Содержательная валидность – характеристика адекватности содержания теста
поставленной цели его создания, способности теста диагностировать уровень подготовки
студентов. Для оценки содержательной валидности используются экспертные методы, а также
анализ корреляционных связей между заданиями.
2) Валидность конструкта – характеристика способности теста измерять то, для чего он
предназначен.
15
2). Прогностическая валидность – характеристика способности теста прогнозировать
успешность дальнейшего обучения. Высокую прогностическую валидность должны иметь
итоговые аттестационные тесты выпускников, направленные на проверку профессиональной
пригодности выпускников.
3). Валидность соответствия – характеристика соответствия результатов, полученных
разными методами педагогического контроля и результатов тестирования.
Некоторые виды валидности могут быть оценены статистически, другие требуют
привлечения экспертов.
14. Анализ правдоподобности дистракторов (для заданий закрытой формы).
Тестовые задания закрытого типа сопровождаются несколькими вариантами ответов, из
которых верным, как правило, является только один. Неверные варианты ответов –
дистракторы – должны выглядеть вполне правдоподобными и быть одинаково
привлекательными для незнающих учеников. Оценка правдоподобности дистракторов основана
на подсчете числа испытуемых, выбравших каждый неправильный ответ. Например, пусть
группа из 200 испытуемых выполнила j-ое задание теста с пятью вариантами ответов, из
которых один верный, и 120 испытуемых выполнили задание верно. Тогда оставшиеся 80
испытуемых должны распределиться равномерно между четырьмя дистракторами, т.е. каждый
дистрактор должны выбрать 20 испытуемых. Распределение ответов на задание в данном
задании будет выглядеть следующим образом (звездочкой помечен верный ответ):
Номер
задания
j
1-ый ответ
2-ой ответ
3-ий ответ
4-ый ответ
5-ый ответ
Кол
20
Кол
20
Кол
Кол
20
Кол
20
%
10
%
10
120

%
60
%
10
%
10
Реальные результаты на практике редко представляют такую идеальную ситуацию.
Дистракторы, которые выбирают менее 5% неверно выполнивших задание испытуемых,
считаются неработающими и должны быть изменены или удалены из теста.
Более глубокий анализ правдоподобности дистракторов предполагает расчет значений
коэффициентов корреляции для каждого дистрактора в заданиях теста. Можно также
использовать методику статистической проверки гипотезы о равномерном распределении
частот выбора различных дистракторов.
Рассмотрим пример анализа дистракторов по конкретному заданию. Это задание – закрытого типа,
с выбором одного правильного ответа из 4-х. Правильный ответ – вариант «в». Задание оценивалось
дихотомически, причем испытуемый получал 1 балл, если он выбирал только один вариант ответа, и
причем правильный. 123 человека имеют за это задание 1 балл и 72 – 0 баллов. В табл.1 представлены
данные по вариантам ответа этого задания.
Табл.1
Эмпирическая
дистрактора
частота
выбора
а
24
12%
Дистракторы
б
в+
37
123
19%
64%
г
10
5%
16
Заметим, что дистракторы распределены неравномерно, дистрактор «б» явно более привлекателен.
Однако все дистракторы работают. Для проверки гипотезы о равномерном распределении дистракторов
иногда применяют критерий хи-вадрат, однако, как правило, неравномерность распределения
дистракторов видна сразу.
Дополнительно можно провести анализ дистракторов с точки зрения их функционирования. С этой
целью можно вычислить коэффициенты корреляции между дистракторами и общим баллом по тесту.
Очевидно, что дистрактор функционирует правильно, если испытуемые с высоким уровнем подготовки
его не выбирают в качестве правильного ответа. В этом случае коэффициент корреляции будет
отрицательным (желательно, чтобы он был меньше -0,2). И, наоборот, коэффициент корреляции для
правильного варианта ответа должен быть положительным (желательно, чтобы он был больше 0,4). В
табл. 2 приведены значения корреляции для рассматриваемого задания.
Табл.2
а
-0,27
Коэффициенты корреляции
Варианты ответов
б
в+
-0,31
0,46
г
-0,18
Таким образом, данное задание функционирует правильно: правильный ответ выбирают сильные
ученики, а слабые выбирают неправильные варианты ответов.
Рассмотрим еще один пример – задание, в котором всего 4 варианта ответов, из которых 2
правильные (варианты «в» и «г»). Задание оценивалось политомически, участник мог получить до двух
баллов. 6 человек имеют 2 балла за это задание, 42 человека –1 балл и 156 – 0 баллов. В табл. 1.16
представлены данные по дистракторам этого задания.
В данном случае также не требуется статистического анализа: дистракторы распределены не
равномерно.
Табл.3
Частоты
Эмпирическая
частота
выбора варианта ответа
Правильные
варианты
в
70
Дистракторы
г
102
а
153
б
40
Табл.4
Коэффициенты
корреляции
а
0,12
Варианты ответов
б
в*
-0,3
0,01
г*
-0,32
Мы видим, что в задании наблюдается полный разброд в функционировании дистракторов.
15. Проверка параллельности вариантов теста.
В тестологии два варианта называются параллельными, если они имеют одинаковое
количество заданий и структуру, разработаны на основе одной спецификации и отличаются
лишь конкретным содержанием своих заданий, а основные статистические характеристики
близки настолько, что эти варианты способны заменить друг друга. Очевидно, что на практике
полного совпадения характеристик различных вариантов достичь невозможно. Поэтому
необходимо определить, значимы или незначимы расхождения между ними.
17
Рассмотрим алгоритм статистической проверки гипотезы об однородности одноименных
заданий различных вариантов одного и того же теста. Составим таблицу сопряженности
размером k  m , где k – число вариантов теста, m- число заданий в каждом варианте.
Здесь nij (i=1,…,k; j=1,…,m) – количество участников тестирования, которые выполнили
верно j-ое задание i-го варианта. В последнем столбце и последней строке таблицы
представлены так называемые маргинальные суммы.
Для проверки гипотезы об однородности результатов тестирования по всем вариантам
можно воспользоваться критерием согласия хи-квадрат (  2 ) Пирсона. Формула для
вычисления коэффициента  2 распределения Пирсона в данном случае имеет вид:
n n 

 n  i   j 
k m  ij
n 
 2   
ni   n j
i 1 j 1
2
n
№ задания
m

n1m
n1
…
n2 m
n2
…
…
…
…
nk 2
…
nkm
nk 
1
2
№ варианта
1
n11
n12
2
n21
n22
…
…
k
nk1
…
…

Табл.5
Вычислив коэффициент  2 , необходимо сравнить полученное число с критическим
2
значением  критич
, которое выбирается из специальной таблицы по заданному уровню
значимости  и числу степеней свободы   m  1  k  1 . Если выполняется неравенство
2
, то гипотезу об однородности результатов тестирования по всем вариантам можно
 2   критич
принять. Под уровнем значимости  понимается вероятность отвергнуть верную гипотезу. В
педагогике принят уровень значимости  =0,05.
Иногда применяют другие процедуры для обоснования гипотезы о параллельности
вариантов теста. Например, можно проверить гипотезу о равной трудности одноименных
заданий различных вариантов одного и того же теста. Другой способ – проверить гипотезу об
одинаковых распределениях тестовых баллов испытуемых.
18
Download