Влияние характеристик образовательной среды на результаты обучения в начальной школе (на основе SAM

advertisement
Влияние характеристик
образовательной среды на
результаты обучения в
начальной школе (на основе SAM
- Student Achievement Monitoring)
Карданова Е.Ю.
НИУ ВШЭ
2013
Цели презентации
• Рассказать про SAM
• Представить психометрические характеристики
тестовых заданий и тестов
• Представить свидетельства валидности
• Описать методику оценивания и шкалирования
участников тестирования SAM
• Проанализировать факторы, влияющие на
результаты
Цель SAM:
оценивание предметных
компетенций учащихся
начальной школы по
математике и русскому языку
Отличительная черта SAM :
модель оценивания основана
на теории Л. Выготского и
предполагает оценивание
компетенций учащихся на
трех базовых уровнях:
формальном, рефлексивном и
функциональном
Особенности инструмента SAM:
• SAM выполняет две функции: а) измерения учебной
успешности и б) диагностики уровня освоения
материала
• Для каждого раздела учебного предмета
разрабатываются задачи, соответствующие критериям
трех уровней (формального, рефлексивного и
функционального)
• Каждый такой блок выполняет функцию детектора,
определяющего качественный уровень усвоения
соответствующего раздела учебной программы
• Разработка блоков опирается на систему индикаторов
(типологию задач), соответствующую обобщенным
критериям уровней освоения способа действия
Реализация теоретической модели
SAM
•
•
•
•
•
•
В рамках модели SAM разработаны тесты по двум предметам – математике и
русскому языку – имеющие общую структуру
Тесты рассчитаны на выпускников начальной школы и могут выполняться
учащимися 4-го и 5-го классов.
Тест включает основные разделы содержания, представленные в программах
для начальной школы
Структурной единицей теста является блок из трех заданий (1-го, 2-го и 3-го
уровня), соответствующий одному разделу предметного содержания. Задачи
предъявляются блоками.
Используются задания открытой формы с кратким ответом, закрытой с
выбором одного ответа из 4-5 предложенных, задания на установление
соответствия, требующие построений и другие.
Для оценивания заданий используется дихотомическая оценка: за
правильный ответ ученик получает 1 балл, за неправильный ответ (или
отсутствие ответа) – 0 баллов.
Структура теста
Проверка качества: апробационное
тестирование
• Цель – проверка
функционирования
заданий (анализ тестовых
заданий) и всего теста в
целом, исследование
системообразующих
свойств теста, оценивание
его надежности и
валидности
Характеристики заданий в
классической теории тестирования
• Трудность задания (коэффициент решаемости):
доля испытуемых, выполнивших задание верно
(получивших 1 балл за выполнение задания для
дихотомических заданий определяется)
• Дискриминативность (дифференцирующая
способность задания): способность задания
различать испытуемых с различным уровнем
подготовки.
Связь между надежностью и валидностью
Надежность – характеристика точности и устойчивости
результатов оценки
Валидность – характеристика пригодности оценочной
информации для принятия правильных решений на ее
основе
Анализ данных апробации (весна 2012 г.)
(КТТ, Математика, бланковая форма, более 5000 учащихся)
Число испытуемых
Средний первичный балл
Стандартное отклонение
Коэффициент асимметрии
Коэффициент эксцесса
Средний коэффициент решаемости
Средний индекс дискриминативности
Средний скор. коэф. точ.-бис. корреляции
Показатель надежности (KR20)
Стандартная ошибка измерения
1 вариант
2 вариант
3018
26
8.37
-0.21
-0.56
0.59
0.44
0.39
0.90
2.61
2941
27
8.55
-0.37
-0.36
0.61
0.46
0.39
0.91
2.61
• все задания имеют удовлетворительные показатели
• коэффициенты решаемости заданий находятся в промежутке от 0,16
до 0,98
• 4 задания 1-го уровня обладают низкой дискриминативностью (это
объясняется их легкостью - эти задания выполняют более 90%
испытуемых).
М-С-01-1-1
М-С-01-1-2
М-С-01-1-3
М-С-03-1-1
М-С-03-1-2
М-С-03-1-3
М-M-02-1-1
М-М-02-1-2
М-М-02-1-3
М-М-03-1-1
М-М-03-1-2
М-М-03-1-3
М-М-06-1-1
М-М-06-1-2
М-М-06-1-3
М-М-11-1-1
М-М-11-1-2
М-М-11-1-3
М-R-02-1-1
М-R-02-1-2
М-R-02-1-3
М-R-05-1-1
М-R-05-1-2
М-R-05-1-3
М-G-01-1-1
М-G-01-1-2
М-G-01-1-3
М-D-03-1-1
М-D-03-1-2
М-D-03-1-3
М-D-05-1-1
М-D-05-1-2
М-D-05-1-3
М-D-08-1-1
М-D-08-1-2
М-D-08-1-3
М-R-03-1-1
М-R-03-1-2
М-R-03-1-3
М-С-05-1-1
М-С-05-1-2
М-С-05-1-3
М-М-08-1-1
М-М-08-1-2
М-М-08-1-3
Иерархия заданий по уровню трудности
(математика)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Задания трех уровней, относящиеся к одному блоку,
должны образовывать иерархию по трудности
Коэффициенты решаемости тестовых
заданий в зависимости от их уровня
(математика)
Уровень трудности
Кол-во
заданий
Среднее
значение
Ст.
отклон.
Миним.
значение
Максим.
значение
Задания 1-го уровня
Задания 2-го уровня
15
15
0,86
0,60
0,07
0,09
0,73
0,46
0,98
0,73
Задания 3-го уровня
15
0,30
0,09
0,16
0,45
Всего
45
0,59
0,25
0,16
0,98
Содержательная область
Числа и вычисления
Измерение величин
Закономерности
Зависимости
Элементы геометрии
Весь тест
1-й уровень
2-й уровень
3-й уровень
0,61
0,59
0,59
0,58
0,51
0,91
0,85
0,86
0,85
0,82
0,64
0,58
0,61
0,64
0,49
0,29
0,35
0,29
0,25
0,20
Совместное распределение коэффициентов
решаемости и показателей дискриминативности
(математика, вариант 1)
Анализ дистракторов заданий закрытой
формы с выбором ответа
Задание М-М-03-1-2
Варианты ответов
Распределение
ответов испытуемых
Коэффициент
корреляции
А
Б*
В
Г
11%
-0,22
66%
0,54
7%
-0,29
6%
-0,23
Задание L- F-2-02-1-2
Варианты ответов
Распределение
ответов испытуемых
Коэффициент
корреляции
А
Б
В*
Г
17%
-0,09
8%
-0,29
61%
0,25
12%
0,01
Анализ в современной теории
тестирования IRT
• тесты могут быть признаны существенно одномерными
• тесты оптимальны по трудности и хорошо центрированы
относительно контингента тестируемых
• абсолютное большинство заданий демонстрируют
хорошие психометрические показатели и хорошее
согласие с используемой моделью измерения
Таким образом, тесты SAM могут быть признаны
качественными измерительными инструментами
математической и языковой компетенций учащихся
начальной школы.
Карта
переменных
(математика,
вариант 1)
Характеристические кривые двух заданий
Задание 2-го уровня,
средней трудности
Задание очень трудное, 3-го
уровня (выполнили 19%
участников тестирования)
Выравнивание вариантов
• Метод общих
заданий
• Процедура:
отдельная
калибровка с
фиксацией общих
параметров и
отражением всех
параметров на
общей шкале
Обоснование валидности SAM:
основные направления
• Валидность по содержанию,
• Валидность конструкта
• Критериальная валидность
(текущая и прогностическая)
Характеристика различных
показателей валидности
• показатель валидности по содержанию
характеризует меру адекватности тестовых
материалов проверяемой компетенции
• показатель валидности конструкта
устанавливает меру согласованности
результатов тестирования с психологической
моделью тестируемой способности
• показатель критериальной валидности
фиксирует меру согласованности результатов
тестирования с известными объективными
критериями
Валидность конструкта
• В модели SAM основным конструктом, подлежащим
верификации, является трехуровневая таксономия
освоения учебного содержания, вписанная в возрастной
контекст.
• Этот конструкт связан как минимум с двумя
гипотетическими утверждениями, требующими проверки:
1) Задания трех уровней, относящиеся к одному блоку и отвечающие
теоретически заданным критериям трех уровней, должны
обнаруживать соответствующую иерархию по трудности.
2) В начальной школе предметный материал в норме может и должен
усваиваться на втором (рефлексивном) уровне, т.е. на уровне
понимания. Освоение этого материала на третьем (функциональном)
уровне может и должно происходить в рамках основной школы.
Проверка второй гипотезы
• Исследование проводилось в 2011-2012 гг.
• В 2011 г. тесты по математике и русскому языку
были предложены учащимся 4-х возрастных групп
– 4-х, 6-х, 8-х и 10-х классов (тестировались по две
параллели в каждой школе). Через год, в 2012 г.
те же тесты были предложены тем же учащимся,
которые в тот момент были учащимися 5-х, 7-х, 9х и 11-х классов. Тестирование проходило весной,
в конце учебного года
• Выборка включала около 100 человек в каждой
параллели
Оценивание участников тестирования:
ступени мастерства
• Ниже первой ступени – не освоен даже первый: учащийся
выполняет менее 50% заданий 1-го уровня
• Первая ступень – освоен первый уровень: учащийся
выполняет не менее 50% заданий 1-го уровня
• Вторая ступень – освоен второй уровень: учащийся
выполняет не менее 50% заданий 2-го уровня
• Третья ступень – освоен третий уровень: учащийся
выполняет не менее 50% заданий 3-го уровня
Распределение участников тестирования по
ступеням достижений в зависимости от класса
(математика)
4 grade
16
5 grade
64
10
6 grade
18
60
7
30
55
38
Level 1
7 grade
4
44
53
Level 2
Level 3
8 grade 1
9 grade
29
2
10 grade 1
11 grade 1
0%
70
24
74
17
82
15
10%
84
20%
30%
40%
50%
60%
70%
80%
90%
100%
Распределение участников тестирования по
ступеням достижений в зависимости от
класса (русский язык)
Исследование прогностической валидности SAM
• Исследование проводилось на базе данных апробации тестов SAM в
одном из регионов РФ весной 2011 г.
• Общий объем выборки составил 941 человек из 12 школ.
• Тестирование проходило в конце 4-го класса, т.е. по окончании
начальной школы.
• Были собраны оценки по математике этих же учащихся в 5-м классе (т.е.
через год после проведения тестирования).
•
Распределение
участников
тестирования
по ступеням
достижений
(математика)
Распределение
оценок учащихся в
зависимости от
ступени
достижений
(математика)
Распределение учащихся
по ступеням достижений
в зависимости от оценки
(математика)
Коэффициенты корреляции между тестовым
баллом учащихся и их школьными оценками, а
также между ступенью, к которой был отнесен
учащийся, и его школьной оценкой
соответственно равны 0,6 и 0,56.
Оценивание участников тестирования
• Нормативно-ориентированный подход позволяет сравнить результаты
различных участников между собой, а также с ранее полученными
результатами. С этой целью каждому участнику тестирования в
результате математической обработки результатов присваивается
интегральный тестовый балл. Тестовые баллы всех участников
тестирования находятся на единой шкале, независимо от времени
прохождения теста и конкретного набора выполненных заданий.
• Критериально-ориентированный подход – обеспечивает возможность
качественной оценки усвоения предметного содержания через указание
ведущего типа ориентировки в решении задач. Для его реализации был
разработан ступенчатый вариант шкалы достижений, основанный на
интегральных баллах участников тестирования и пороговых значениях,
делящих всех участников на группы, соответствующие различным
качественным ступеням достижений .
Разработка методики оценивания
участников тестирования
• Выбор модели для оценивания участников тестирования
• Выбор базовой выборки для создания единой шкалы
представления результатов тестирования
• Создание единой шкалы для представления результатов
тестирования
• Установление пороговых оценок (benchmarks) и интерпретация
отдельных уровней достижений
• Выравнивание результатов последующих тестирований
(нанесение всех результатов на созданную ранее единую
шкалу)
• Представление результатов тестирования
Создание единой шкалы для представления
результатов тестирования
• Специальное исследование (объем выборки 939
учащихся)
• Получение оценок мер испытуемых в логитах
• Выбор подходящего линейного преобразования для
перехода на 1000-балльную шкалу
• Все результаты будущих тестирований будут
преобразовываться на эту шкалу с помощью того же
линейного преобразования
Шкала математической компетенции
Ступень 3
Ученик A
570
Задания
3-го
уровня
Ступень 2
Ученик B
500
Задания
2-го
уровня
Ступень1
Ученик C
430
Задания
1-го
уровня
Ниже 1-ой
ступени
Ученик D
Ожидается, что ученик А
выполнит, по крайней
мере, 50% заданий
3-го уровня
Ожидается, что ученик В
выполнит, по крайней
мере, 50% заданий
2-го уровня
Ожидается, что ученик С
выполнит, по крайней
мере, 50% заданий
1-го уровня
Ожидается, что ученик
D не сможет выполнить
даже 50% заданий
1-го уровня
Интерпретация
пороговых оценок
Пороги:
430 (граница между 0 и 1
ступенями)
500 (граница между 1 и 2
ступенями)
570 (граница между 1 и 2
ступенями)
Распределение участников апробации 2012г.
по ступеням достижений (математика,
около 5000 человек)
• В настоящее время установлены следующие пороговые
оценки для математики: переход со ступени 0 на ступень 1
– 430 баллов; со ступени 1 на ступень 2 – 500 баллов; со
ступени 2 на ступень 3 – 570 баллов.
Различная степень достижения ступеней
•
•
•
•
Степень достижения ступени может
быть различной: учащийся может
только-только достигнуть ступени,
«зацепиться» за нее, а может уже ее
освоить, т.е. стоять на ней уверенно.
Ступень считается достигнутой, если, по
крайней мере, 50% заданий данного
уровня выполнены правильно.
Будем считать, что ступень не только
достигнута, но и освоена, если
правильно выполнены не менее 75%
заданий данного уровня.
Такая интерпретация результатов
тестирования позволит выделить
учащихся, уверенно стоящих на ступени
и готовых к переходу на следующую
ступень.
Распределение участников тестирования
по ступеням (математика)
Ступень
Всего
Процент
Степень
человек
освоения
1725
29
2974
50
1124
19
1
2
3
достиг
освоил
достиг
освоил
достиг
освоил
Всего
человек
665
1060
1864
1110
760
364
Процент
от общего
11
18
32
18
13
6
Процент
от ступени
39
61
63
37
68
32
Первичный анализ данных тестирования
- был проведен на базе данных апробации тестов SAM в одном из регионов РФ
весной 2012 г.
- были протестированы практически все учащиеся 4-го класса начальной школы
данного региона: общий объем выборки составил 4406 человек по математике и
4385 по русскому языку.
Распределение
учащихся по ступеням
достижений в
зависимости от
предмета
Профиль образовательных
результатов по математике
для данной выборки
учащихся (средние проценты
решенных задач в зависимости
от уровня).
Нормы выполнения теста
• Среднестатистическая групповая норма – средний по
школам показатель выполнения теста и его стандартное
отклонение
Среднее значение
Математика
517
Стандартное
отклонение
34
Русский язык
499
36
• Социокультурная норма – средний показатель группы
школ-лидеров
Тестовый балл
Математика
561
Русский язык
543
Сравнение показателей школ
РУССКИЙ ЯЗЫК
Descriptives
тестовый балл
МАТЕМАТИКА
тестовый балл
РУССКИЙ
МАТЕМАТИКА
социокультурная
норма
остальные
школы
социокультурная
норма
остальные
школы
558
507
568
504
Std. Deviation
Minimum
Maximum
Mean
29,8
491,5
639,1
31,1
429,1
584,0
20,7
543,0
639,1
27,0
429,1
542,3
549,9
483,3
541,2
486,2
Std. Deviation
Minimum
Maximum
16,6
532,6
606,1
30,3
338,0
531,8
25,9
480,0
606,1
33,8
338,0
576,7
Mean
Распределение
учащихся
разных школ по
ступеням
достижений
(математика)
Некоторые результаты исследования :
• Результат SAM статистически
значимо зависит от типа
населенного пункта:
учащиеся городов и
поселков выполняют тест
лучше, чем учащиеся
сельской местности
• Результат SAM статистически
значимо зависит от пола
участника: девочки
выполняют тест лучше, чем
мальчики
• Результат SAM статистически
значимо зависит от типа
учебного заведения:
учащиеся гимназий
выполняют тест лучше, чем
учащиеся
общеобразовательных школ
Сравнение
достижений
учащихся
различных классов
одной школы
• Русский язык
(вверху)
• Математика
(справа)
Исследование характеристик
образовательной среды
Выборка:
Один регион РФ
весна 2012
Учащиеся 4-го класса:
Математика - 4406
Русский язык - 4385
Размер класса и образовательные
результаты
Распределение учащихся по ступеням (в %)
60
50
40
30
20
10
large classes
small classes <11
students
below 1 *
1 level
2 level
3 level**
* Asymp. Sig. (2-tailed) <0.05
** Asymp. Sig. (2-tailed) < 0.01
• Малые классы более однородны – больший процент учащихся на
ступенях 1 и 2
• Большие классы имеют больший процент в крайних категориях
Педагогические подходы к преподаванию
Traditional
Задания
KR-20 надежность
Среднее значение
Станд. отклонение
Конструктивисткий
22
0,82
1,54
1,075
Традиционный
16
0,69
-,23
,667
Correlation -,204** is significant at the 0.05 (2tailed)
Constructivist
Педагогические подходы и образовательные
результаты
Pearson Correlation
Test score
Test score Below
1 level 2 level 3 level
Russian language Mathematics 1 level
**
Constructivist
,235
Traditional
-,163
*
**
**
,256
-,117 -,226
-,110
,006
*
,138
**
,065 ,294
-,079 -,126
**. Correlation is significant at the 0.01 (2-tailed)
*. Correlation is significant at the 0.05 (2-tailed)
• Конструктивистский подход ассоциируется с лучшими
образовательными результатами
• Традиционный подход имет отрицательную связь или не имеет связи с
результатами
Кластеризация классов
Размер кластера
100
80
60
40
20
0
Ступени внутри кластеров
20
78
75
below 1
15
52
23
1 level
10
2 level
5
Small
classes
1
2
3 level
3
Small
classes
Сравнение кластеров
Кластер
3
2
1
Подход
> Constructivist,
< Traditional
> Constructivist
> Constructivist
> Constructivist
=
Кластер
2
1
Малые классы
1
Малые классы
=
Малые классы
*. The mean difference is significant at the 0.05 level
1
2
3
Благодарю за
внимание!
Карданова Елена Юрьевна:
e_kardanova@mail.ru
Download