- Ульяновский государственный университет

advertisement
РАНГОВЫЙ АНАЛИЗ В ОПРЕДЕЛЕНИИ ВАЛИДНОСТИ ТЕСТОВ
И РЕЙТИНГОВЫХ СИСТЕМ ОЦЕНКИ
Р.В. Гурина, В.В. Бедаш
Ульяновский государственный университет
Ранговый анализ (ценологический = ценозологический подход) применяется для проверки надёжности и валидности (пригодности) олимпиадных, контрольных и тестовых заданий, рейтинга учащихся, учебных заведений и т.п. На
большом статистическом материале доказана необходимость рассмотрения образовательных систем как социальных ранговых систем-ценозов, для которых справедлив гиперболический закон рангового распределения (ЗРР) [1, 2]:
A ,
(1)
W
r

где W – параметр ранжирования объектов системы (рейтинг, успеваемость и
т.п.), r – ранговый номер объекта (r =1, 2, 3…), А – максимальное значение W
при r =1;  – ранговый коэффициент – степень крутизны гиперболы (рис.1, а).
ЗРР (1) описывает ранговые распределения Ципфа.
Рис.1. Графики РР : а) типичного гиперболического РР элементов в социоценозе, кривые 1, 2;
б) нетипичного убывания рейтингового параметра W с ростом ранга: 1 –линейное, 2 - параболическое, 3 – W = CONST = А (все имеют максимальный рейтинг)
Адекватный рейтинг, правильно составленные и правильно проверенные
олимпиадные, тестовые задания приводят к результатам, которые отражаются
гиперболическим ЗРР. Построение графических ранговых распределений (РР)
необходимо: наличие РР в виде списка не даёт информацию о характере убывания – оно может происходить по любому другому закону, например линейному (рис.1, б, график 1) или параболическому (рис.1, б, кривая 2) и т.п.
Закон (1) даёт объяснение того факта, что лучших особей (по терминологии ценологической теории – это «ноева каста») в любом ценозе мало – до 20%
– это зависит от крутизны РР – коэффициента  (рис. 1, а). Основной же «вес»
1
в систематике гиперболического РР принадлежит среднестатистическому
большинству. Если бы убывание шло линейно (рис 1, б., график 1), то число
лучших, средних и слабых составляло бы поровну – по 1/3 в каждой категории.
А по параболическому сценарию убывания W(r) лучших в системе было бы ещё
больше – 2/3. Только графическое изображение табличных данных РР и их аппроксимация к зависимости (1) обеспечивает наглядность и знание о характере
рангового убывания.
Любые недочёты в рейтинговой системе оценки, в оценке валидности и
надёжности тестовых заданий дадут искажения в форме гиперболической кривой РР: выпадение точек из теоретической аппроксимированной кривой, горбы,
хвосты, изломы, отступление РР от гиперболы. Это утверждение верно лишь
при наличии адекватных организационных условиях проведения оценочных
мероприятий – только тогда искажения в кривой (1) можно будет отнести непосредственно к качеству оценочных заданий.
1. Уровни валидности олимпиадных, контрольных и тестовых заданий
Возможно выделение 4-х уровней валидности [2, С. 226]:
1) тест не валидный (0-валидность), графики РР – это прямые, параллельные оси рангов (например, прямые 3 на рис 1, а, б);
2) средний уровень или удовлетворительная валидность (линейный
спад рейтинга (график 1, рис. 1,б) или почти линейный;
3) валидность выше среднего уровня – реальный график W(r) являетcя
гиперболой (1) с очень малой крутизной, т.е. низким значением ;
4) высокий уровень валидности – гипербола со значением  около 1.
На рис 2 приведены примеры РР высокого (рис.2, а) и среднего (рис. 2, б)
уровней валидности олимпиадных и тестовых заданий по физике.
)
W
Рейтинг в баллах
50
а)
40
30
А=46;
β =1,3
20
10
0
0
6
12
18
24
30
r
Рис. 2. Графики РР: а) рейтинга олимпиадных работ по физике учащихся школ Железнодорожного района г. Ульяновска (2005 г.); б) рейтинга студентов 1 курса инженернофизического факультета по результатам теста по физике (1 семестр, 2011 год)
.
Для увеличения валидности надо заменить часть задач более сложными, увеличить число предполагаемых ответов в каждом задании.
2.Определение качества рейтинговой оценки образовательных систем
Ценологический подход позволяет оценить систему критериев, по которой выстраивается рейтинг и определяются лучшие учреждения страны. На рис. 3, а
приведён график РР 100 лучших средних образовательных учреждений (ОУ)
2
России, построенный по данным журнала «Карьера» [3, С. 76-78]. Анализ и выбор лучших средних ОУ проведён на основании 18 показателей. При этом, сначала были выделены лучшие ОУ из 4-х категорий: 41лицеев, 60 гимназий, 44
общеобразовательных школ, 32 негосударственных школ (всего 177). Затем из
четырёх табулированных РР были выбраны 100 лучших. График рис. 3 , а построен по результатам таблицы рейтинга итогового отбора.
Ln W
б)
а)
ln r
Рис..3. Графики РР 100 лучших средних ОУ России в 2000 г. с аппроксимацией W –рейтинг в
баллах; а) Зависимость W(r): А = 816;  = 0,25; б) график LnW (ln r)
Как видно из графиков, эмпирические точки хорошо ложатся на теоретическую кривую аппроксимации (1). Как известно, гипербола спрямляется при
её построении в двойном логарифмическом масштабе (рис. 3, б). Хорошее
спрямление свидетельствует о том, что график рис.3, а есть гипербола. Из вышеизложенного следует, что система критериев и показателей для рейтинговой
оценки 100 лучших средних учебных заведений России, предложенная и реализованная журналом «Карьера» имеет высокий уровень валидности.
На рис 4 представлены графики рейтинга 100 лучших (наиболее эффективных) вузов России в 2012 году. Исследование («Рейтинг ВУЗов России, 2012
г.») провело рейтинговое агентство "Эксперт» [4].
а)
б)
Рис. 4 . РР 100 лучших вузов России 2012 г.по рейтинговому функционалу; а) График
W ( r): А = 5.95; β = 0,27 R^2 = 0.8; б) «спрямлённый» график LnW (ln r).
Из графиков видно, что система рейтинговой оценки вузов не совершенна
и требует доработки. Она может быть охарактеризована средним уровнем ва3
лидности: график W ( r) является искажённой гиперболой с маленькой крутизной (β = 0,27), а график LnW (ln r), который должен быть прямой, имеет большой «горб».
Дополнительно проведённое исследование показало, что выборка данных
рейтингового функционала 100 лучших вузов России слабо соответствует распределению Гаусса (рис.5, а, б). Внешний вид гистограммы слабо соответствует
аппроксимационной кривой. Рис. 5, б. иллюстрирует график спрямления распределения в координатах «вероятность-вероятность». Из рисунка видно, что
эмпирические точки плохо ложатся на аппроксимационную прямую. Однако
совсем негауссовым данное распределение назвать нельзя: критерий Колмогорова-Смирнова имеет значение d = 0,18, т.е. оно невелико (его величина показывает максимальное расхождение эмпирического и нормального распределений).
б)
а)
Рис.5. Проверка выборки данных по рейтингу 100 вузов России на соответствие
гауссовому распределению
Высокий уровень валидности системы критериев рейтинговой оценки образовательных систем должны соответствовать ципфовским (1), негауссовым
распределениям рейтинговых параметров.
Таким образом, ранговый анализ может быть использован для определения
валидности любых тестовых (контрольных) заданий в процессе его предварительной апробации на учебных группах, он также позволяет проводить оценку качества системы критериев и показателей, используемых для рейтинга образовательных учреждений и систем. Ранговый анализ показал: система рейтинговой оценки вузов 2012 г. не совершенна и требует доработки.
Литература
Гурина Р.В. Ранговый анализ образовательных систем (ценологический подход). Методические рекомендации для работников образования Вып.32. «Ценологические исследования». – М.: Технетика. –2006. – 40 с.
2. Р.В. Гурина. Подготовка учащихся физико-математических классов к будущей профессиональной деятельности в области физики: моногр.- Ульяновск: ЗАО
« МДЦ», 2009. – 394 с.
3. Воробьева, И., Трушин, А. Удар в school // Карьера. – 2001. – №4. – С.72-84.
4. http://www.raexpert.ru/rankingtable/?table_folder=/university/2012/main
1.
4
Download