Обеспечение качества и валидности измерений на примере

advertisement
Обеспечение качества и
валидности измерений на
основе инструментария SAM
Елена Карданова
Центр мониторинга качества образования
НИУ Высшая школа экономики
План презентации
• Процесс разработки тестов SAM
• Анализ психометрических свойств заданий и
тестов
• Валидизация инструмента SAM
• Модель оценивания предметных компетенций
учащихся на основе инструмента SAM
• Установление и интерпретация пороговых
оценок
• Формы представления результатов тестирования
• Особенности адаптации и локализации
инструмента SAM при использовании в других
странах и культурах
Процесс разработки
тестов SAM
Реализация теоретической модели
SAM
• В рамках модели SAM разработаны тесты по двум
предметам – математике и русскому языку – имеющие
общую структуру
• Тесты рассчитаны на выпускников начальной школы и
могут выполняться учащимися 4-го и 5-го классов.
• Структурной единицей теста является блок из трех
заданий (1-го, 2-го и 3-го уровня), соответствующий
одному разделу предметного содержания. Задачи
предъявляются блоками.
• Для оценивания заданий используется дихотомическая
оценка: за правильный ответ ученик получает 1 балл, за
неправильный ответ (или отсутствие ответа) – 0 баллов.
Этапы проведения апробаций
тестов SAM
Предпилот
 Цель – проверка восприятия заданий (face validity)
 Фиксация времени тестирования по каждому заданию
 Выборка - 10-20 человек
Клиническая апробация
 Цель – проверка функционирования заданий,
обнаружение ошибок в заданиях, определение трудности
заданий
 50 человек на задание
 Обработка в классической теории тестирования
Полномасштабная апробация
Цель – оценить качество заданий теста и возможность их
дальнейшего использования, диагностировать проблемы
функционирования заданий
Выборка – не менее 400-500 человек на вариант
Обработка – с применением IRT
Анализ психометрических
свойств заданий и тестов
Характеристики заданий в
классической теории тестирования
• Трудность задания (коэффициент
решаемости): для дихотомических заданий
доля испытуемых, выполнивших задание верно
(получивших 1 балл за выполнение задания)
• Дискриминативность (дифференцирующая
способность задания): способность задания
различать испытуемых с различным уровнем
подготовки.
Анализ в КТТ
(апробация 2012 г., математика, бланковая форма,
свыше 5000 учащихся 4-х классов)
Вариант 1 Вариант 2
Число испытуемых
3018
2941
Средний первичный балл
26
27
Стандартное отклонение
8.37
8.55
Средний коэффициент решаемости
0.59
0.61
Средний индекс дискриминативности
0.44
0.46
Средний скор. коэф. точ.-бис.
корреляции
Коэффициент надежности (KR20)
0.39
0.39
0.90
0.91
Стандартная ошибка измерения
2.61
2.61
• все задания имеют удовлетворительные показатели
• коэффициенты решаемости заданий находятся в
промежутке от 0,16 до 0,98
Совместное распределение
коэффициентов решаемости и
показателей дискриминативности
(математика, вариант 1)
Анализ в IRT:
PERSON - MAP - TASKS
<more>|<rare>
5
. +
.# |
|
. |
. |
4
.# +
. |
. |
.# |
. T|T
.# |
3
.### +
. |
.### | M-C-01-1-3
.### | M-G-01-1-3
.## | M-M-11-1-3
.###### S|
2
.###### + M-C-03-1-3
.####### | M-D-05-1-3
.####### |S
.######## | M-D-03-1-3
.####### | M-M-02-1-3
.############ |
1
######### + M-M-03-1-3
.######## M| M-C-05-1-3
.####### | M-R-02-1-2
.######## | M-D-03-1-2
.########## | M-C-05-1-2
.###### |
0
.##### +M M-C-01-1-2
.###### | M-D-08-1-2
.######## | M-R-05-1-2
.##### S| M-C-03-1-2
.#### | M-M-02-1-2
.#### | M-D-05-1-2
-1
.## +
.### | M-D-03-1-1
.## | M-C-05-1-1
.## |
.# |S M-M-03-1-1
.# T| M-M-02-1-1
-2
. + M-M-08-1-1
. |
. | M-C-01-1-1
. |
| M-D-08-1-1
-3
. +
. |
|T
. |
. |
| M-C-03-1-1
-4
+
| M-R-05-1-1
|
|
-5
. +
<less>|<frequ>
Карта переменных (математика, вариант 1)
M-D-08-1-3
M-R-05-1-3
M-M-08-1-3
M-R-02-1-3
M-R-03-1-3
M-M-06-1-3
M-G-01-1-2
M-M-06-1-2
M-M-08-1-2
Задания 3-го
уровня
M-M-11-1-2
Задания 2-го
уровня
M-R-03-1-2
M-M-03-1-2
M-R-02-1-1
M-M-06-1-1
M-D-05-1-1
M-G-01-1-1
M-M-11-1-1
M-R-03-1-1
Задания 1-го
уровня
Анализ в IRT: выводы
• Тесты имеют оптимальный уровень
трудности для данной выборки
испытуемых
• Все задания имеют хорошие
психометрические характеристики
Тесты SAM могут быть
признаны качественным
измерительным
инструментом
Валидизация
инструмента SAM
Описание исследования
валидности SAM
• Валидность: что тест измеряет и
насколько хорошо он это делает
(Анастази А.)
• Валидизация SAM осуществлялась по
голландской системе COTAN (Evers,
A., 2001)
• Исследование валидности SAM
проводилось в течение 2011-2013 гг.
во время пилотных тестирований SAM
в различных регионах РФ
Структура
исследования
валидности
SAM
• Валидность по
содержанию – внешняя
экспертиза
• Валидность конструкта “Что тест измеряет?” и
“Измеряет ли тест
заявленный конструкт
или он меряет что-то
еще?”
Валидность конструкта
• Валидность конструкта – постоянное
накопление свидетельств.
• Исследование валидности
конструкта никогда не
заканчивается.
Свидетельство справедливости измерений
(DIF анализ по полу)
Результаты мальчиков и девочек (математика, вариант1)
Число детей
Первичный балл: среднее (SD)
Уровень способности: среднее
Метод:
t-тест и
MantelHaenzel
статистика
(SD)
Females
1471
26.7 (8.4)
0.76 (1.15)
Males
1545
26.2 (8.3)
0.69 (1.11)
Проверка гипотез о связях
результатов тестирования с
психологической моделью
тестируемой способности
• Гипотеза 1:
Задания трех уровней, относящиеся к одному блоку
и отвечающие теоретически заданным критериям
трех уровней, должны обнаруживать
соответствующую иерархию по трудности.
• Гипотеза 2:
В начальной школе при хорошем обучении
предметный материал усваивается
преимущественно на втором (рефлексивном)
уровне, т.е. на уровне понимания. Освоение этого
материала на третьем (функциональном) уровне
происходит в рамках основной школы.
0
М-С-01-1-1
М-С-01-1-2
М-С-01-1-3
М-С-03-1-1
М-С-03-1-2
М-С-03-1-3
М-M-02-1-1
М-М-02-1-2
М-М-02-1-3
М-М-03-1-1
М-М-03-1-2
М-М-03-1-3
М-М-06-1-1
М-М-06-1-2
М-М-06-1-3
М-М-11-1-1
М-М-11-1-2
М-М-11-1-3
М-R-02-1-1
М-R-02-1-2
М-R-02-1-3
М-R-05-1-1
М-R-05-1-2
М-R-05-1-3
М-G-01-1-1
М-G-01-1-2
М-G-01-1-3
М-D-03-1-1
М-D-03-1-2
М-D-03-1-3
М-D-05-1-1
М-D-05-1-2
М-D-05-1-3
М-D-08-1-1
М-D-08-1-2
М-D-08-1-3
М-R-03-1-1
М-R-03-1-2
М-R-03-1-3
М-С-05-1-1
М-С-05-1-2
М-С-05-1-3
М-М-08-1-1
М-М-08-1-2
М-М-08-1-3
Гипотеза 1:
Задания трех уровней, относящиеся к одному блоку и отвечающие
теоретически заданным критериям трех уровней, должны
обнаруживать соответствующую иерархию по трудности.
1
0.8
0.6
0.4
0.2
Распределение коэффициентов решаемости (Математика,
вариант 1)
Проверка второй гипотезы
• Специальное исследование в 2011-2012 гг.
• Дизайн исследования: в 2011 г. тесты по
математике и русскому языку были
предложены учащимся 4-х возрастных
групп – 4-х, 6-х, 8-х и 10-х классов. Через
год, в 2012 г. те же тесты были
предложены тем же учащимся, которые в
тот момент были учащимися 5-х, 7-х, 9-х и
11-х классов.
• Тестирование проходило весной, в конце
учебного года.
• Выборка составила около 100 человек в
каждой параллели.
Гипотеза 2:
В начальной школе при хорошем обучении предметный
материал усваивается преимущественно на втором
(рефлексивном) уровне, т.е. на уровне понимания.
Освоение этого материала на третьем (функциональном)
уровне происходит в рамках основной школы.
Распределение учащихся различных классов по ступеням достижений
Критериальная
валидность
Текущая валидность
Прогностическая
валидность
Прогностическая валидность отвечает на
вопрос о том, насколько хорошо тест
предсказывает баллы по критерию в будущем.
Текущая валидность отвечает на вопрос о
связи результатов тестирования с критерием в
настоящее время.
Исследование прогностической
валидности SAM: дизайн исследования
• Исследование проводилось на базе данных апробации тестов
SAM в Красноярском крае весной 2011 г.
• Общий объем выборки составил 941 учащийся из 12 школ.
• Были собраны оценки по математике этих же учащихся в 5-м
классе (т.е. через год после проведения тестирования).
Распределение участников тестирования по ступеням
достижений (математика)
Исследование прогностической валидности
SAM:
Распределение оценок учащихся в зависимости от ступени
достижений (математика)
Корреляция между тестовым баллом учащихся и их
школьными оценками равна 0.6, корреляция между
ступенью, к которой был отнесен учащийся, и его
школьной оценкой равна 0,56.
Международная экспертиза
инструмента
Осень 2013 г.
Рецензенты:
1. Howard T. Everson (Center for Advanced Study in
Education, Graduate School, City University of New
York, Professor of Psychology and Senior Research
Fellow)
2. Clancy Blair (New York University, Steinhardt
School of Culture, Education, and Human
Development, Professor of Applied Psychology)
3. Bas Hemker (Netherlands, Cito National Institute for
Test Development, Senior Research Scientist)
Модель оценивания
предметных компетенций
учащихся на основе SAM
Подходы к интерпретации
результатов
Нормативноориентированный
Результат отдельного участника
интерпретируется в зависимости от
достижений всей совокупности участников
тестирования
 Каждому участнику в результате
математической обработки результатов
присваивается интегральный тестовый
балл
Тестовые баллы всех участников
тестирования находятся на единой шкале,
независимо от времени прохождения теста
и конкретного набора выполненных заданий
 Устанавливаются нормы
Подходы к интерпретации
результатов
Критериальноориентированный
Обеспечивает возможность
качественной оценки усвоения
предметного содержания
Разработан ступенчатый
вариант шкалы достижений,
основанный на интегральных
баллах участников тестирования
и пороговых значениях, делящих
всех участников на группы,
соответствующие различным
качественным ступеням
достижений
Оценивание участников
тестирования
• В качестве модели тестирования используется
модель Раша
• Тестовые баллы сообщаются на 1000балльной шкале со средним около 500 и
стандартным отклонением 50
• Тестовые баллы всех участников
тестирования находятся на единой
метрической шкале, независимо от времени
прохождения теста и конкретного набора
выполненных заданий.
Оценивание испытуемых
Шкала математической компетентности
Ступень 3
Ученик A
570
500
430
Задания
3-го
уровня
Задания
2-го
уровня
Задания
1-го
уровня
Ступень 2
Ученик
B
Ступень 1
Ученик
C
Ниже первой
Ученик
D
Ожидается, что ученик А
выполнит, по крайней
мере, 50% заданий
3-го уровня
Ожидается, что ученик В
выполнит, по крайней
мере, 50% заданий
2-го уровня
Ожидается, что ученик С
выполнит, по крайней
мере, 50% заданий
1-го уровня
Ожидается, что ученик D
не сможет выполнить
даже 50% заданий
1-го уровня
Интерпретация пороговых оценок
Пороги:
570 (граница между
2 и 3 ступенями)
500 (граница между
1 и 2 ступенями)
430 (граница между
0 и 1 ступенями)
Формы представления
результатов
тестирования
Три ключевых показателя SAM:
• интегральный тестовый балл (отнесение
результата к единой метрической шкале)
• ступень достижений (отнесение результата к
ступенчатой шкале)
• трехмерный профиль (соотношение
результатов, полученных по трем субтестам)
Пример: обследование в одном из
регионов РФ
Май 2012 года
Объем выборки: 4406 учеников 4-го
класса (вся генеральная
совокупность учащихся 4-го классов
региона)
47% мальчики, 53% девочки
72% город, 28% сельская местность
Количество учащихся
4406
Количество школ
189
Количество классов
297
Количество населенных пунктов
134
Нормативно-ориентированная
интерпретация: региональные
статистические нормы (Математика)
Среднестатистические
индивидуальные нормы
Среднее
522
Стандартное
отклонение
49
Процентильные
индивидуальные нормы
10-ый
процентиль
459
90-ый
процентиль
581
Среднестатистические
групповые нормы
Стандартное
отклонение
34
Среднее
517
Среднее
Социокультурные нормы
561
Профиль по математике для
данной выборки учащихся
Распределение участников
тестирования по ступеням
достижений (математика)
Распределение учащихся разных школ
региона по ступеням достижений
(математика)
Школы
упорядочены по
возрастанию
среднего значения
общих тестовых
баллов.
Для каждой школы
в скобках указан
средний тестовый
балл учащихся
данной школы.
Распределение по ступеням достижений
учащихся различных классов внутри
одной школы (математика)
Особенности адаптации и
локализации инструмента SAM
при использовании в других
странах и культурах
Что такое адаптация и
локализация?
• Локализация и адаптация – процесс
изменения теста для применения в
другой культурной среде
• Адаптация. Цель - кросс-культурное
сравнение результатов теста
(полученных в разных странах)
• Локализация. Цель – воссоздание
теста на другом языке. Задача
сопоставления результатов разных
стран не ставится.
Мировые практики адаптации и
локализации
Мировые стандарты:
• AERA/APA/NCME (American Educational
Research Association, American Psychological
Association, National Council on Measurement
in Education), 1999.
• ITC (International Test Commission), 2010.
Особенности локализации SAM
При разработке версии SAM на другом
языке необходимо учитывать:
•
•
•
•
•
особенности содержания начального образования в
стране локализации
целевую аудиторию теста (которая может не совпадать
по возрасту и/или по классу обучения с российской)
культурные особенности страны локализации (в
частности, степень знакомства учащихся начальной
школы разных стран с тестами, различными формами
заданий, используемые учащимися стратегии ответов и
т.д.)
возможные личностные особенности учащихся в стране
локализации (например, отсутствие интереса, мотивации
у учащихся, а также у учителей)
отличные от российских условия проведения
тестирования (например, требуемые ограничения по
времени, необходимость делать дополнительные
перерывы и т.д.).
Процедура локализации
• Двойной перевод
• Верификация перевода на национальном
уровне
• Верификация перевода Советом
разработчиков SAM
• Психометрические исследования по
сравнению характеристик заданий в разных
языках, выявлению различного
функционирования тестовых заданий в
разных культурах, обоснованию валидности и
доказательству надежности теста
План локализации SAM
Определение целевой аудитории локализованного
инструмента SAM
2. Сопоставление программ обучения по математике в
начальной школе России и стране локализации
3. Перевод и адаптация заданий SAM, которые являются
общими для России и страны лдокализации
4. Разработка новых блоков заданий
5. Составление теста, обратный перевод, экспертиза, доработка
заданий
6. Экспертиза теста экспертами в стране локализации
7. Определение культурных эффектов, которые могут оказать
влияние на функционирование заданий и теста в целом
8. Подготовка и проведение клинической апробации
9. Обработка данных клинической апробации и доработка
заданий
10. Подготовка и проведение полномасштабной апробации
11. Обработка данных полномасштабной апробации
12. Исследование валидности созданной версии теста SAM
1.
Пять главных источников
потенциальной несравнимости
результатов при кросскультурных
исследованиях
Различия в измеряемом конструкте
Различия в инструментах
Различия в процедуре
Различия в выборках
Различия в стратегиях и поведении
испытуемых
Спасибо за внимание
Карданова Елена Юрьевна
ekardanova@hse.ru
Центр мониторинга качества образования
Институт образования
НИУ Высшая школа экономики
http://ioe.hse.ru/monitoring/
Download