Обеспечение качества и валидности измерений на примере

Обеспечение качества и валидности измерений на основе инструментария SAM Елена Карданова Центр мониторинга качества образования НИУ Высшая школа экономики План презентации • Процесс разработки тестов SAM • Анализ психометрических свойств заданий и тестов • Валидизация инструмента SAM • Модель оценивания предметных компетенций учащихся на основе инструмента SAM • Установление и интерпретация пороговых оценок • Формы представления результатов тестирования • Особенности адаптации и локализации инструмента SAM при использовании в других странах и культурах Процесс разработки тестов SAM Реализация теоретической модели SAM • В рамках модели SAM разработаны тесты по двум предметам – математике и русскому языку – имеющие общую структуру • Тесты рассчитаны на выпускников начальной школы и могут выполняться учащимися 4-го и 5-го классов. • Структурной единицей теста является блок из трех заданий (1-го, 2-го и 3-го уровня), соответствующий одному разделу предметного содержания. Задачи предъявляются блоками. • Для оценивания заданий используется дихотомическая оценка: за правильный ответ ученик получает 1 балл, за неправильный ответ (или отсутствие ответа) – 0 баллов. Этапы проведения апробаций тестов SAM Предпилот  Цель – проверка восприятия заданий (face validity)  Фиксация времени тестирования по каждому заданию  Выборка - 10-20 человек Клиническая апробация  Цель – проверка функционирования заданий, обнаружение ошибок в заданиях, определение трудности заданий  50 человек на задание  Обработка в классической теории тестирования Полномасштабная апробация Цель – оценить качество заданий теста и возможность их дальнейшего использования, диагностировать проблемы функционирования заданий Выборка – не менее 400-500 человек на вариант Обработка – с применением IRT Анализ психометрических свойств заданий и тестов Характеристики заданий в классической теории тестирования • Трудность задания (коэффициент решаемости): для дихотомических заданий доля испытуемых, выполнивших задание верно (получивших 1 балл за выполнение задания) • Дискриминативность (дифференцирующая способность задания): способность задания различать испытуемых с различным уровнем подготовки. Анализ в КТТ (апробация 2012 г., математика, бланковая форма, свыше 5000 учащихся 4-х классов) Вариант 1 Вариант 2 Число испытуемых 3018 2941 Средний первичный балл 26 27 Стандартное отклонение 8.37 8.55 Средний коэффициент решаемости 0.59 0.61 Средний индекс дискриминативности 0.44 0.46 Средний скор. коэф. точ.-бис. корреляции Коэффициент надежности (KR20) 0.39 0.39 0.90 0.91 Стандартная ошибка измерения 2.61 2.61 • все задания имеют удовлетворительные показатели • коэффициенты решаемости заданий находятся в промежутке от 0,16 до 0,98 Совместное распределение коэффициентов решаемости и показателей дискриминативности (математика, вариант 1) Анализ в IRT: PERSON - MAP - TASKS <more>|<rare> 5 . + .# | | . | . | 4 .# + . | . | .# | . T|T .# | 3 .### + . | .### | M-C-01-1-3 .### | M-G-01-1-3 .## | M-M-11-1-3 .###### S| 2 .###### + M-C-03-1-3 .####### | M-D-05-1-3 .####### |S .######## | M-D-03-1-3 .####### | M-M-02-1-3 .############ | 1 ######### + M-M-03-1-3 .######## M| M-C-05-1-3 .####### | M-R-02-1-2 .######## | M-D-03-1-2 .########## | M-C-05-1-2 .###### | 0 .##### +M M-C-01-1-2 .###### | M-D-08-1-2 .######## | M-R-05-1-2 .##### S| M-C-03-1-2 .#### | M-M-02-1-2 .#### | M-D-05-1-2 -1 .## + .### | M-D-03-1-1 .## | M-C-05-1-1 .## | .# |S M-M-03-1-1 .# T| M-M-02-1-1 -2 . + M-M-08-1-1 . | . | M-C-01-1-1 . | | M-D-08-1-1 -3 . + . | |T . | . | | M-C-03-1-1 -4 + | M-R-05-1-1 | | -5 . + <less>|<frequ> Карта переменных (математика, вариант 1) M-D-08-1-3 M-R-05-1-3 M-M-08-1-3 M-R-02-1-3 M-R-03-1-3 M-M-06-1-3 M-G-01-1-2 M-M-06-1-2 M-M-08-1-2 Задания 3-го уровня M-M-11-1-2 Задания 2-го уровня M-R-03-1-2 M-M-03-1-2 M-R-02-1-1 M-M-06-1-1 M-D-05-1-1 M-G-01-1-1 M-M-11-1-1 M-R-03-1-1 Задания 1-го уровня Анализ в IRT: выводы • Тесты имеют оптимальный уровень трудности для данной выборки испытуемых • Все задания имеют хорошие психометрические характеристики Тесты SAM могут быть признаны качественным измерительным инструментом Валидизация инструмента SAM Описание исследования валидности SAM • Валидность: что тест измеряет и насколько хорошо он это делает (Анастази А.) • Валидизация SAM осуществлялась по голландской системе COTAN (Evers, A., 2001) • Исследование валидности SAM проводилось в течение 2011-2013 гг. во время пилотных тестирований SAM в различных регионах РФ Структура исследования валидности SAM • Валидность по содержанию – внешняя экспертиза • Валидность конструкта “Что тест измеряет?” и “Измеряет ли тест заявленный конструкт или он меряет что-то еще?” Валидность конструкта • Валидность конструкта – постоянное накопление свидетельств. • Исследование валидности конструкта никогда не заканчивается. Свидетельство справедливости измерений (DIF анализ по полу) Результаты мальчиков и девочек (математика, вариант1) Число детей Первичный балл: среднее (SD) Уровень способности: среднее Метод: t-тест и MantelHaenzel статистика (SD) Females 1471 26.7 (8.4) 0.76 (1.15) Males 1545 26.2 (8.3) 0.69 (1.11) Проверка гипотез о связях результатов тестирования с психологической моделью тестируемой способности • Гипотеза 1: Задания трех уровней, относящиеся к одному блоку и отвечающие теоретически заданным критериям трех уровней, должны обнаруживать соответствующую иерархию по трудности. • Гипотеза 2: В начальной школе при хорошем обучении предметный материал усваивается преимущественно на втором (рефлексивном) уровне, т.е. на уровне понимания. Освоение этого материала на третьем (функциональном) уровне происходит в рамках основной школы. 0 М-С-01-1-1 М-С-01-1-2 М-С-01-1-3 М-С-03-1-1 М-С-03-1-2 М-С-03-1-3 М-M-02-1-1 М-М-02-1-2 М-М-02-1-3 М-М-03-1-1 М-М-03-1-2 М-М-03-1-3 М-М-06-1-1 М-М-06-1-2 М-М-06-1-3 М-М-11-1-1 М-М-11-1-2 М-М-11-1-3 М-R-02-1-1 М-R-02-1-2 М-R-02-1-3 М-R-05-1-1 М-R-05-1-2 М-R-05-1-3 М-G-01-1-1 М-G-01-1-2 М-G-01-1-3 М-D-03-1-1 М-D-03-1-2 М-D-03-1-3 М-D-05-1-1 М-D-05-1-2 М-D-05-1-3 М-D-08-1-1 М-D-08-1-2 М-D-08-1-3 М-R-03-1-1 М-R-03-1-2 М-R-03-1-3 М-С-05-1-1 М-С-05-1-2 М-С-05-1-3 М-М-08-1-1 М-М-08-1-2 М-М-08-1-3 Гипотеза 1: Задания трех уровней, относящиеся к одному блоку и отвечающие теоретически заданным критериям трех уровней, должны обнаруживать соответствующую иерархию по трудности. 1 0.8 0.6 0.4 0.2 Распределение коэффициентов решаемости (Математика, вариант 1) Проверка второй гипотезы • Специальное исследование в 2011-2012 гг. • Дизайн исследования: в 2011 г. тесты по математике и русскому языку были предложены учащимся 4-х возрастных групп – 4-х, 6-х, 8-х и 10-х классов. Через год, в 2012 г. те же тесты были предложены тем же учащимся, которые в тот момент были учащимися 5-х, 7-х, 9-х и 11-х классов. • Тестирование проходило весной, в конце учебного года. • Выборка составила около 100 человек в каждой параллели. Гипотеза 2: В начальной школе при хорошем обучении предметный материал усваивается преимущественно на втором (рефлексивном) уровне, т.е. на уровне понимания. Освоение этого материала на третьем (функциональном) уровне происходит в рамках основной школы. Распределение учащихся различных классов по ступеням достижений Критериальная валидность Текущая валидность Прогностическая валидность Прогностическая валидность отвечает на вопрос о том, насколько хорошо тест предсказывает баллы по критерию в будущем. Текущая валидность отвечает на вопрос о связи результатов тестирования с критерием в настоящее время. Исследование прогностической валидности SAM: дизайн исследования • Исследование проводилось на базе данных апробации тестов SAM в Красноярском крае весной 2011 г. • Общий объем выборки составил 941 учащийся из 12 школ. • Были собраны оценки по математике этих же учащихся в 5-м классе (т.е. через год после проведения тестирования). Распределение участников тестирования по ступеням достижений (математика) Исследование прогностической валидности SAM: Распределение оценок учащихся в зависимости от ступени достижений (математика) Корреляция между тестовым баллом учащихся и их школьными оценками равна 0.6, корреляция между ступенью, к которой был отнесен учащийся, и его школьной оценкой равна 0,56. Международная экспертиза инструмента Осень 2013 г. Рецензенты: 1. Howard T. Everson (Center for Advanced Study in Education, Graduate School, City University of New York, Professor of Psychology and Senior Research Fellow) 2. Clancy Blair (New York University, Steinhardt School of Culture, Education, and Human Development, Professor of Applied Psychology) 3. Bas Hemker (Netherlands, Cito National Institute for Test Development, Senior Research Scientist) Модель оценивания предметных компетенций учащихся на основе SAM Подходы к интерпретации результатов Нормативноориентированный Результат отдельного участника интерпретируется в зависимости от достижений всей совокупности участников тестирования  Каждому участнику в результате математической обработки результатов присваивается интегральный тестовый балл Тестовые баллы всех участников тестирования находятся на единой шкале, независимо от времени прохождения теста и конкретного набора выполненных заданий  Устанавливаются нормы Подходы к интерпретации результатов Критериальноориентированный Обеспечивает возможность качественной оценки усвоения предметного содержания Разработан ступенчатый вариант шкалы достижений, основанный на интегральных баллах участников тестирования и пороговых значениях, делящих всех участников на группы, соответствующие различным качественным ступеням достижений Оценивание участников тестирования • В качестве модели тестирования используется модель Раша • Тестовые баллы сообщаются на 1000балльной шкале со средним около 500 и стандартным отклонением 50 • Тестовые баллы всех участников тестирования находятся на единой метрической шкале, независимо от времени прохождения теста и конкретного набора выполненных заданий. Оценивание испытуемых Шкала математической компетентности Ступень 3 Ученик A 570 500 430 Задания 3-го уровня Задания 2-го уровня Задания 1-го уровня Ступень 2 Ученик B Ступень 1 Ученик C Ниже первой Ученик D Ожидается, что ученик А выполнит, по крайней мере, 50% заданий 3-го уровня Ожидается, что ученик В выполнит, по крайней мере, 50% заданий 2-го уровня Ожидается, что ученик С выполнит, по крайней мере, 50% заданий 1-го уровня Ожидается, что ученик D не сможет выполнить даже 50% заданий 1-го уровня Интерпретация пороговых оценок Пороги: 570 (граница между 2 и 3 ступенями) 500 (граница между 1 и 2 ступенями) 430 (граница между 0 и 1 ступенями) Формы представления результатов тестирования Три ключевых показателя SAM: • интегральный тестовый балл (отнесение результата к единой метрической шкале) • ступень достижений (отнесение результата к ступенчатой шкале) • трехмерный профиль (соотношение результатов, полученных по трем субтестам) Пример: обследование в одном из регионов РФ Май 2012 года Объем выборки: 4406 учеников 4-го класса (вся генеральная совокупность учащихся 4-го классов региона) 47% мальчики, 53% девочки 72% город, 28% сельская местность Количество учащихся 4406 Количество школ 189 Количество классов 297 Количество населенных пунктов 134 Нормативно-ориентированная интерпретация: региональные статистические нормы (Математика) Среднестатистические индивидуальные нормы Среднее 522 Стандартное отклонение 49 Процентильные индивидуальные нормы 10-ый процентиль 459 90-ый процентиль 581 Среднестатистические групповые нормы Стандартное отклонение 34 Среднее 517 Среднее Социокультурные нормы 561 Профиль по математике для данной выборки учащихся Распределение участников тестирования по ступеням достижений (математика) Распределение учащихся разных школ региона по ступеням достижений (математика) Школы упорядочены по возрастанию среднего значения общих тестовых баллов. Для каждой школы в скобках указан средний тестовый балл учащихся данной школы. Распределение по ступеням достижений учащихся различных классов внутри одной школы (математика) Особенности адаптации и локализации инструмента SAM при использовании в других странах и культурах Что такое адаптация и локализация? • Локализация и адаптация – процесс изменения теста для применения в другой культурной среде • Адаптация. Цель - кросс-культурное сравнение результатов теста (полученных в разных странах) • Локализация. Цель – воссоздание теста на другом языке. Задача сопоставления результатов разных стран не ставится. Мировые практики адаптации и локализации Мировые стандарты: • AERA/APA/NCME (American Educational Research Association, American Psychological Association, National Council on Measurement in Education), 1999. • ITC (International Test Commission), 2010. Особенности локализации SAM При разработке версии SAM на другом языке необходимо учитывать: • • • • • особенности содержания начального образования в стране локализации целевую аудиторию теста (которая может не совпадать по возрасту и/или по классу обучения с российской) культурные особенности страны локализации (в частности, степень знакомства учащихся начальной школы разных стран с тестами, различными формами заданий, используемые учащимися стратегии ответов и т.д.) возможные личностные особенности учащихся в стране локализации (например, отсутствие интереса, мотивации у учащихся, а также у учителей) отличные от российских условия проведения тестирования (например, требуемые ограничения по времени, необходимость делать дополнительные перерывы и т.д.). Процедура локализации • Двойной перевод • Верификация перевода на национальном уровне • Верификация перевода Советом разработчиков SAM • Психометрические исследования по сравнению характеристик заданий в разных языках, выявлению различного функционирования тестовых заданий в разных культурах, обоснованию валидности и доказательству надежности теста План локализации SAM Определение целевой аудитории локализованного инструмента SAM 2. Сопоставление программ обучения по математике в начальной школе России и стране локализации 3. Перевод и адаптация заданий SAM, которые являются общими для России и страны лдокализации 4. Разработка новых блоков заданий 5. Составление теста, обратный перевод, экспертиза, доработка заданий 6. Экспертиза теста экспертами в стране локализации 7. Определение культурных эффектов, которые могут оказать влияние на функционирование заданий и теста в целом 8. Подготовка и проведение клинической апробации 9. Обработка данных клинической апробации и доработка заданий 10. Подготовка и проведение полномасштабной апробации 11. Обработка данных полномасштабной апробации 12. Исследование валидности созданной версии теста SAM 1. Пять главных источников потенциальной несравнимости результатов при кросскультурных исследованиях Различия в измеряемом конструкте Различия в инструментах Различия в процедуре Различия в выборках Различия в стратегиях и поведении испытуемых Спасибо за внимание Карданова Елена Юрьевна ekardanova@hse.ru Центр мониторинга качества образования Институт образования НИУ Высшая школа экономики http://ioe.hse.ru/monitoring/

Обеспечение качества и валидности измерений на примере

Related documents

Products

Support

Обеспечение качества и валидности измерений на примере

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib