Создание тестов для оценки специальных профессиональных

advertisement
Правительство Ярославской области
УПРАВЛЕНИЕ ГОСУДАРСТВЕННОЙ СЛУЖБЫ И КАДРОВОЙ ПОЛИТИКИ
СОЗДАНИЕ ТЕСТОВ ДЛЯ ОЦЕНКИ
СПЕЦИАЛЬНЫХ ПРОФЕССИОНАЛЬНЫХ
КОМПЕТЕНЦИЙ
Методические рекомендации
Ярославль 2015
2
СОДЕРЖАНИЕ:
1. Введение
2. Профессиональные тесты и их виды
3. Процедура создания теста
I.
II.
III.
Создание первичной формы теста
Проверка теста по основным психометрическим характеристикам
Разработка нормативных оценок
4. Заключение
ВВЕДЕНИЕ
В современной практике все большее значение приобретает
профессиональное тестирование кандидатов на должности гражданской
службы в целях повышения эффективности подбора и расстановки кадров.
Одним из видов профессионального тестирования являются тесты
профессиональных знаний, призванные оценить степень компетентности
кандидата
в
определенной
профессиональной
области.
Тесты
профессиональных знаний позволяют достаточно объективно и за короткий
промежуток времени оценить степень компетентности кандидата/сотрудника и
выразить ее в виде количественной оценки, а также позволяют проводить
массовое обследование, что существенно сокращает временные затраты на
проведение оценки и удешевляет процедуру отбора.
Анализ существующих тестов профессиональных знаний показывает, что
их разработка и применение зачастую не соответствует существующим в
мировой и отечественной психодиагностической практике требованиям.
Разработка тестов, проводимая непосредственно сотрудниками
организаций, с опорой на личный опыт их создателей, создает трудности в
определении общего уровня компетентности кандидата и сопоставлении
результатов разных тестов, особенно в тех случаях, когда проводится
комплексная оценка его знаний в разных профессиональных областях,
диагностируемая разными профессиональными тестами. И наконец, самая
главная слабость стихийно создаваемых тестов заключается в отсутствии их
3
психометрической
проверки,
позволяющей
оценить
трудность
и
различительную способность (дискриминативность) каждого задания теста,
надежность и практическую ценность всего теста в целом, а также установить
нормативные оценки для определения места кандидата среди других людей по
степени компетентности.
Настоящие методические рекомендации описывают используемую в
классической психодиагностике процедуру создания тестов профессиональных
знаний и простейшие способы психометрической проверки тестов.
1. ПРОФЕССИОНАЛЬНЫЕ ТЕСТЫ И ИХ ВИДЫ
Профессиональные тесты относятся к группе так называемых предметноориентированных тестов, которые используются для диагностики знаний,
умений и навыков в различных областях практической деятельности, а также в
разных сферах образования. Первоначально эта группа тестов применялась,
главным образом, в различных педагогических инновациях. Позднее они стали
использоваться в проверках качества обучения, а также проверках
профессиональной квалификации, где оценивается владение небольшим
числом строго определенных навыков и умений.
Основное отличие предметно-ориентированных тестов от традиционных
тестов оценки психологических характеристик (способностей, интеллекта,
личностных черт) заключается в том, что они диагностируют, что
тестируемый знает, может и умеет делать (а не как он выглядит на фоне
других людей по уровню выраженности какой-либо способности или
личностной черты). Поэтому главным требованием к конструированию таких
тестов является четкое определение той конкретной области знаний и умений,
которые предполагается оценить с его помощью.
Другой важной особенностью тестов данного типа является оценка его
выполнения по принципу: «Всё или ничего». Это означает, что результаты теста
показывают - достиг тестируемый работник заранее установленного уровня
владения определенным предметом или нет.
Например,
критерий
для
успешного
прохождения
теста
профессиональных знаний для кандидатов/сотрудников составляет 80 баллов,
чаще всего это означает, что тестируемый должен правильно решить 80
заданий теста (часто это составляет 80% от всех заданий теста). При этом нас
не интересует, почему один тестируемый набрал 79 баллов, а другой - 78
баллов и кто из них лучше. Главным показателем является достижение
4
требуемого критерия - 80 баллов или его превышение. Установленный
критерий может использоваться в разных вариантах. Для поверки базовых
знаний и умений может использоваться уровень совершенного владения, как в
указанном примере – 80 баллов и выше. При более сложных вариантах оценки
возможно применение трехступенчатой шкалы, предполагающей совершенное
владение, невладение и промежуточный (критический) интервал или зону
неопределенности.
В профессиональной деятельности предметно-ориентированные тесты
обычно используются при организации подбора, расстановки и аттестации
персонала. Существуют различные варианты диагностических процедур,
используемых в практике профессионального тестирования.
Одна из наиболее известных процедур предполагает оценку выполнения
работы кандидатом на вакантную должность и заключается в достижении
сходства меду процедурой оценки и реальной работой1.
Одним из способов проверки компетентности и квалификации кандидата
в этом случае будет являться анализ работы, когда тестируемому лицу
предлагается выполнить задачу, фактически являющуюся частью работы,
выполняемой на рабочем месте. Данного вида тесты в основном предназначены
для оценки умений и навыков кандидата2.
К этому типу тестов относится задание, используемое управлением
государственной службы и кадровой политики для оценки базовых
компетенций в IT-сфере.
Сюда же можно отнести группу ситуационных тестов, которые
получили широкое применение при оценке управленческого или
административного персонала. В современной практике организационного
консультирования данный метод широко известен как «метод кейсов» - набор
ситуаций характерных для данного вида управленческой деятельности, которые
предлагается решать тестируемым3.
Наиболее популярной в этом плане является процедура - принятие на работу с
испытательным сроком. Вместе с тем данная процедура имеет ряд существенных
недостатков, которые заключаются в кратковременности испытательного срока и знанием
кандидатом того, что назначение на должность является проверкой, что может повлиять на
поведение тестируемого в целом ряде отношений.
2
Своеобразной разновидностью вышеуказанного метода является моделирование рабочих
функций с помощью разного рода тренажеров.
3
Примером такого типа тестов является широко используемый в зарубежной практике
профессионального тестирования тест «лоток входящих документов». Данная методика
используется в самых разных областях деятельности для тестирования администраторов.
Она представляет собой лоток или корзину для входящих документов, закрепленный на
столе администратора, куда входят тщательно подобранные поступающие письма,
1
5
Данные группы тестов и методик в основном предназначены для
диагностики умений и навыков кандидатов, участвующих в конкурсе, или
аттестуемых работников.
Кроме этого существует и другой вид предметно-ориентированных
тестов – тесты оценки профессиональных знаний, которые также используются
для проверки уровня компетентности работников различных организаций в
целях отбора кандидатов на вакантную должность, при аттестации кадров или
формирования резерва на повышение.
По своей форме этот вид тестов представляет собой набор заданий
(вопросов), касающихся определенной профессиональной сферы деятельности
(знаний).
На
процедуре
разработки
предметно-ориентированных
тестов
остановимся более подробно.
3. ПРОЦЕДУРА СОЗДАНИЯ ТЕСТА
Процедура создания теста профессиональных знаний включает в себя три
основных этапа:
I. Создание первичной формы теста.
II. Проверка теста по основным психометрическим характеристикам.
III. Разработка нормативных оценок.
I. Создание первичной формы теста
Создание первичной формы теста
следующих мероприятий:
а) определение области содержания теста,
б) выбор формы заданий теста,
предполагает
осуществление
служебные записки, докладные, бумаги на подпись и другие аналогичные материалы. Перед
началом тестирования испытуемому предоставляется возможность ознакомиться с вводной
информацией для того, чтобы он мог составить представление о характере гипотетической
работы и сориентироваться в обстановке. Задача собственно теста заключается в том, чтобы
обработать все скопившиеся в лотке материалы и решить все поставленные в них вопросы,
как это бы пришлось сделать испытуемому на реальном рабочем месте. Все его действия
письменно фиксируются. Также могут включать: деловые письма, служебные записки,
резолюции, приказы, планы, передаваемую и получаемую информацию, повестки дня
предполагаемых совещаний или любые другие записи.
6
в) выбор типа шкалы,
г) проведение пилотажного исследования.
Определение области содержания теста
При создании тестов профессиональных знаний первым этапом этого
процесса является определение области их содержания, т.е. той конкретнопредметной области деятельности, которую осуществляет сотрудник
(государственный гражданский служащий). Это означает, что задания теста
должны полностью отражать ту область профессиональных знаний, которая
подвергается тестированию, т.е. наш тест должен дать ответ на вопрос: «Что
должен знать кандидат на должность для того чтобы эффективно
исполнять обязанности по данной конкретной должности?»
В процессе определения области содержания теста, описания работы
неопределенными утверждениями общего характера, которые применимы к
большинству работ, абсолютно недопустимы. Итогом данного процесса должна
стать четкая формулировка требований, отличающих данный вид
профессиональной деятельности от других. Например, работника, отвечающего
за контроль и надзор по использованию животного мира от государственных
служащих, отвечающих за технический надзор и состояние самоходных машин.
Для достижения этой цели необходимо всесторонне проанализировать
несколько источников информации. Это могут быть все нормативные
документы, необходимые для осуществления профессиональных функций,
должностные инструкции, специальная литература, которую должен знать
работник, официальные отчеты о выполнении определенных видов работ,
опубликованные руководства по обучению конкретной профессии и т.п.
Анализ разного рода литературы должен подкрепляться консультациями
и оценкой со стороны экспертов, которыми могут выступать опытные
работники, непосредственные руководители, инструкторы центров подготовки
кадров и т.п.. Они могут оценить формулируемые задания с точки зрения
полноты охвата всей предметной области профессиональных знаний, равной
представленности отдельных тем, необходимое количество заданий по каждой
теме и т.п. Для формализации этой процедуры можно составить специальную
анкету для экспертов, куда включить критерии оценки и попросить экспертов
оценить эти показатели по какой-либо шкале.
Пример: Группе экспертов предлагается оценить разрабатываемый
тест по 5-ти бальной шкале по параметрам:
7
Показатели теста
Степень полноты охвата всей области знаний
Равная представленность отдельных тем области знаний
Однозначность понимания заданий
Достаточность количества заданий по каждой теме
….
0
0
0
0
0
1
1
1
1
1
Баллы
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
Каждый эксперт оценивает предлагаемые показатели независимо от
других, а затем определяется степень согласованности мнений экспертов.
На заключительном этапе определения области профессиональных
знаний необходимо указать все те источники, которые были использованы при
создании первичных заданий теста, а также данные по экспертам. В частности,
следует сообщить число и характер проанализированных при подготовке теста
программ, документов, учебно-методической литературы с указанием года
издания и прочих выходных данных. Если в процессе конструирования теста
принимали участие специалисты, следует указать их количество,
профессиональную квалификацию, а также их замечания и предложения и
степень согласованности мнений по каждому критерию.
Выбор формы заданий теста
Следующим этапом при создании теста профессиональных знаний
является определение формы задания в соответствии с характером ответа. Это
значит, что мы должны определить каким способом должен отвечать
тестируемый на задания теста.
В практике психодиагностики существует два больших класса заданий,
которые подразделяются на открытые и закрытые.
Открытые задания предполагают отсутствие заранее заданных
вариантов ответов, и предоставляют полную свободу тестируемому лицу.
Пример: Открытое задание для кандидатов на должности в
департамент по охране и использованию животного мира может быть
сформулировано следующим образом: «Именная разовая лицензия – это…».
Данный тип заданий имеет ряд недостатков. Главным из них является
большое разнообразие индивидуальных ответов. Это создает трудности для их
количественной оценки. Кроме того необходимо четко сформулировать
критерии правильного ответа, поскольку тестируемые лица могут не дать
8
абсолютно точного ответа/определения, но смогут передать его смысл другими
словами. Здесь необходимо определить, что важнее – строгое
соблюдение/знание формулировки или понимание смысла.
С одной стороны, большое количество открытых вопросов в тесте –
облегчает процесс разработки методики, с другой - создает дополнительные
трудности в плане обработки результатов и получения количественной оценки
по тесту.
Закрытые задания предполагают наличие заранее заданных вариантов
ответа, из которых тестируемому лицу необходимо выбрать правильный
вариант. Данный тип заданий является наиболее популярным и часто
используемым в тестах разного рода, в том числе и тестах профессиональных
знаний. Существует несколько вариантов заданий закрытого типа,
применяемых в тестах профессиональных знаний.
- Задания с альтернативными ответами по принципу «верно» или «не
верно».
Пример: «Президент РФ является главой законодательной власти»: а)
верно; б) неверно.
Данный тип заданий отличается простой, но имеет и ряд существенных
недостатков:
 вероятность случайного угадывания составляет 50%;
 трудность в формулировке заданий с альтернативным ответом,
поскольку два варианта зачастую не исчерпывают всего многообразия
ответов;
- Задания с несколькими вариантами выбора. Это наиболее часто
встречающийся тип заданий в разных типах тестов, в том числе и в тестах
профессиональных знаний. Данный тип заданий имеет несколько преимуществ
перед предыдущим способом составления заданий.
Во-первых, существенно повышается надежность каждого задания. Вовторых, вероятность угадывания снижается до 20-30%.
Для того чтобы задания с несколькими вариантами выбора были
эффективны необходимо соблюдать ряд правил их составления:
1. Задания должны быть относительно простыми и четко
сформулированными в соответствии с нормами и правилами русского языка.
2. Задания не должны быть длинными по формулировке. Тестовое
задание не должно содержать более 20 слов, а в ответах не более 5-7.
3. Все предлагаемые варианты ответов должны быть равновероятны по
выбору.
9
4. Только один из предложенных вариантов ответа может быть
правильный. Допускается присутствие несколько правильных вариантов. В
этом случае необходимо предупредить тестируемых об этом и указать признаки
такого задания. Например, такое задание может иметь другую условную
символику (вместо кружочков напротив каждого варианта ответа в заданиях с
одним правильным ответом, в таких заданиях ставятся квадратики).
5. Ответ на один вопрос не должен давать ключа к ответам на другие
задания теста. Не следует использовать варианты из одного задания теста в
перечне других заданий.
6. В качестве приема, повышающего точность оценки уровня знаний
субъекта, и для разнообразия теста можно использовать прямую и обратную
формулировки вопросов.
Пример:
прямой вопрос: К органам местного самоуправления относятся
(возможно несколько вариантов ответа): 1) мэрия (администрация) города, 2)
департамент дорожного хозяйства субъекта РФ, 3) законодательное
собрание муниципального образования, 4) администрация сельского поселения,
5) администрация муниципального образования.
обратный вопрос: Мэрия города Ярославля, это: 1) орган
исполнительной власти, 2) орган местного самоуправления, 3) орган
законодательной власти.
7. Необходимо
учитывать,
что
дословное
воспроизведение
формулировки/названия документа в задании (вопросе) тестирует, прежде
всего, «узнаваемость» материала, т.е. иконическую память субъекта, а не
знания.
8. Желательно избегать тестировать тривиальное (избегать слишком
простых вопросов).
Пример: Основной закон нашей страны:
а) Указы Президента РФ;
б) Постановления Государственной Думы;
в) Конституция РФ.
- Задания на восстановление последовательности. Данный тип
заданий в тестах профессиональных знаний применяется реже первых двух и
обычно используется в тех случаях, когда нужно выяснить знание динамики
какого-либо процесса или процедуры. Например, для выяснения знаний у
10
работников избирательных комиссий о последовательности процедуры
организации выборов можно в качестве задания дать им в случайном порядке
основные
этапы
этого
процесса
и
предложить
восстановить
последовательность, расставив их в порядке очередности и пометив
соответствующими цифрами.
- Задания на восстановление соответствия. Данный тип заданий не
часто встречается в тестах профессиональных знаний, но его можно
использовать для придания форме теста большей степени разнообразия.
Задания на восстановление соответствия представляет собой два списка и
необходимо восстановить соответствие между ними. Тестируемый должен
определить, какому элементу из первого списка соответствует элемент из
второго списка. Одним из главных недостатков данного вида заданий является
вероятность случайного угадывания. Для его устранения необходимо, чтобы
первый список был короче второго списка, из которого выбираются ответы.
Второй список удлиняют за счет включения ложных ответов. Лучше, если
количество элементов первого списка будет не менее 3.
Пример: Укажите, пожалуйста, какие должности гражданской
службы относятся к каждой из приведенных групп должностей в категории
«специалисты»:
1. Советник/помощник
а) Старшая группа
2. Начальник отдела
б) Ведущая группа
в) Младшая группа
3. Специалист 1-й категории
4. Главный консультант
5. Ведущий специалист
6. Главный специалист
При конструировании теста можно использовать все предложенные
варианты заданий, что сделает тест более разнообразным по форме.
Выбор типа шкалы для оценки ответов
Данный этап не представляет особой трудности. Обычно каждый
правильный ответ оценивается в один балл, а потом подсчитывается
суммарный балл по всему тесту. Если тест содержит несколько тематических
разделов, то можно подсчитать балл по каждому разделу, чтобы выяснить
степень компетентности тестируемого субъекта в разных предметных областях.
Предметно-ориентированные тесты обычно проводятся с ограничением
11
времени, которое устанавливается опытным путем в зависимости от величины
теста. Обычно время выполнения теста не превышает 1,5 часов4.
Проведение пилотажного исследования
Любой тест профессиональных знаний должен пройти психометрическую
проверку с целью корректировки заданий, а также для того, чтобы посмотреть
устойчивость результатов теста во времени (надежность теста) и его
способность предсказывать будущую эффективность деятельности (валидность
теста).
Первичной статистической процедурой при разработке теста является
анализ каждого заданий теста. Для его проведения необходимо набрать
(сформировать) выборку испытуемых, т.е. провести реальное тестирование.
Количественный состав выборки подчиняется традиционному правилу: «чем
больше, тем лучше». Минимальный количественный состав выборки для
анализа заданий теста – 50 человек. Гораздо важнее качественный состав
выборки, который должен соответствовать той профессиональной группе, для
которой создается тест. Это могут быть как уже работающие профессионалы,
хорошо знакомые с предметной областью теста, так и индивиды, делающие в
этой сфере «первые шаги». Привлечение в выборку лиц, совсем незнакомых с
предметной областью теста на этапе разработки первого варианта
нежелательно, поскольку не позволит провести адекватную оценку тестовых
заданий.
II. Проверка теста по основным психометрическим характеристикам
Анализ теста по психометрическим показателям предполагает проверку
каждого задания теста и теста в целом, как измерительного инструмента. К
основным психометрическим показателям относят: индекс трудности,
дискриминативность (корреляцию с общим баллом), валидность и надежность.
Первые два показателя относятся к заданиям теста, два последних – к тесту в
целом.
Обычно расчет психометрических показателей производят в специальных
статистических программах, но можно его произвести и «вручную».
Необходимо учитывать, что в процессе выполнения заданий теста у тестируемых
накапливается усталость, развивается утомление. Это может оказать значительное влияние
на результаты выполнения заданий. Поэтому, если целью тестирования не является оценка
работоспособности субъекта, время тестирования целесообразно ограничить. Утомление, как
правило, развивается после часа работы.
4
12
Индекс трудности
Показателем трудности отдельного задания теста является доля лиц из
выборки, правильно решивших и не решивших данное задание - индекс
трудности (Ит), который определяется по формуле:
Ит = 100 (1- Nп / N)
где, Ит – индекс трудности в процентах; Nп – число лиц правильно
решивших данное задание; N – общее количество лиц в выборке.
Индекс трудности каждого задания должен находиться в пределах от 16%
до 84%.
Пример: Если Ит отдельного задания
составляет 10%, это
означает, что данное задание слишком трудное для тестируемых и его, скорее
всего, нужно исключить из теста. Аналогичным образом, индекс трудности
95% показывает, что данное задание слишком легкое и тривиальное и оно
тоже должно быть исключено из теста.
Основная задача анализа трудности заданий теста заключается в выборе
оптимальных по трудности заданий. Обычно задания в тесте располагают по
степени возрастания индекса трудности - более легкие задания в начале теста, а
более трудные - в конце теста. Это делается для того, чтобы тестируемый не
тратил слишком много времени на трудные задания и, в результате, не смог бы
вовремя решить более легкие, что создало бы неверное представление об
уровне его профессиональной компетентности.
Коэффициент дискриминативности
Второй
характеристикой
анализа
пунктов
теста
является
дискриминативность или различительная способность каждого задания.
Основным показателем дискриминативности является коэффициент
дискримнативности, который показывает, насколько хорошо данное задание
выделяет людей, имеющих высокие баллы по тесту в целом от лиц, имеющих
низкие баллы по тесту в целом. Например, если в группе лиц, имеющих
высокий балл по тесту в целом задание № 1 правильно решили 80%
тестируемых, а в группе лиц с низкими баллами по тесту данное задание
решили правильно 20% тестируемых, то можно говорить о хорошей
дискриминативности данного задания. Если же задание №1 в группе лиц с
высоким баллом по тесту правильно решили 50% испытуемых, а в группе с
низким баллом по тесту данное задание тоже правильно решили 50%
13
испытуемых, то данное задание обладает плохой различительной силой и его
необходимо будет из теста исключить.
Существует несколько способов проверки дискриминативности задания:
1. Вычисление коэффициента корреляции между ответами испытуемого
на каждый отдельный пункт опросника и итоговым баллом по всему тесту или
того раздела теста, в который входит данное задание. Коэффициент
дискриминативности должен быть статистически значимым, поскольку в этом
случае данный коэффициент корреляции отражает тот факт, что данное
конкретное утверждение способно измерять тот же самый конструкт, что
измеряет вся шкала в целом, в которую, естественно, входит данный пункт.
Коэффициент дискриминативности, как и любой коэффициент корреляции,
может принимать значение от -1 до +1.
Значимый
положительный
коэффициент5
дискриминативности
свидетельствует о том, что данное задание направлено на измерение того же
параметра личности, который измеряет вся шкала в целом, кроме того, это
говорит о хорошей способности данного задания в плане дифференциации
испытуемых на «успешных» и «неуспешных». В свою очередь, значимое
отрицательное значение данного коэффициента говорит о том, что проверяемое
задание направлено на измерение параметра личности, противоположного
тому, который измеряет вся шкала6 теста.
В том случае, если коэффициент дискриминативности не является
значимым, это говорит о том, что данное задание не выполняет свою
диагностическую задачу, поскольку измеряемое им свойство личности никак не
связано с тем свойством личности, которое измеряет вся шкала в целом.
2. Другим способом вычисления коэффициента дискримативности
является использования «тетрахорического» или «четырехпольного» квадрата.
Данный способ является одним из наиболее простых, может осуществляться
вручную и не требует компьютерной обработки. Рассмотрим его на примере.
Тест профессиональных знаний был проведен на выборке N человек.
После проведения, ранжируем испытуемых по общему балу по тесту от
испытуемого с самым низким баллом по тесту до испытуемого с самым
высоким баллом по тесту. Затем с каждого края данного ряда требуется взять
Значимость коэффициента корреляции определяется по специальным таблицам.
Отметим, что значимое отрицательное значение данного коэффициента далеко не всегда
говорит о том, что такое задание подлежит немедленному исключению из опросника,
поскольку так называемые «обратные задания» должны иметь именно отрицательные и
значимые коэффициенты дискриминативности.
5
6
14
Успешные
Неуспешные
Решившие
A
B
Решившие
Нерешившие
C
D
Нерешившие
по 17% испытуемых, которые образуют две крайние группы: группу лиц с
низким баллом по тесту (условно названных «неуспешными» и группу лиц с
высоким баллом по тесту, условно названных «успешными»). После этого
строится четырехпольный квадрат для каждого задания теста.
Успешные
Неуспешные
A – количество лиц в группе «успешных» правильно решивших задание.
B – количество лиц в группе «неуспешных также правильно решивших задание.
C – количество лиц в группе «успешных» неправильно решивших задание.
D – количество лиц в группе «неуспешных» также неправильно решивших
задание.
После проводится вычисление индексов: P, Q, V и M, где P=A+B;
Q=C+D; V=A+C; M=B+D.
Затем полученные значения подставляются в формулу:
r 
AD  BC
PQ  VM
Полученное значение коэффициента дискриминативности - r сравнивается с помощью статистических таблиц со статистическим значением
на соответствующем уровне значимости и если оно больше табличного, то
коэффициент дискриминативности считается значимым.
После проведения анализа заданий (айтем-анализа) простейшая
процедура их отбора заключается в следующем:
1.
Первоначально
выбираются
задания,
удовлетворяющие
статистическим критериям по дискриминативности и трудности, т.е. задания с
индексом трудности от 16% до 84% и значимым коэффициентом
15
дискриминативности. Однако может сложиться ситуация, когда после данной
процедуры в тесте останется слишком мало заданий. Традиционно считается,
что для достижения удовлетворительной надежности измерения минимальное
количество тестовых заданий – 20. Для того чтобы избежать указанной выше
ситуации необходимо заранее определить какое количество заданий в тесте
должно быть представлено, а в первичную форму теста включить заданий в 1,5
– 2 раза больше требуемого (планируемого). Это делается для того, чтобы после
проведения айтем-анализа можно было безболезненно исключить из состава
теста задания, не удовлетворяющие статистическим критериям.
2. Проверяется содержание отобранных заданий. Например, тесты для
юристов предполагают знание ими самых разнообразных документов и
соответственно могут быть тематически разделены по направлениям (сферам).
В этом случае необходимо удостовериться, что в тесте присутствует примерно
равное количество заданий, относящихся ко всем разделам диагностируемой
предметной области. Если оставшиеся в тесте задания не охватывают все тем
(сфер) предметной области, то проводится дополнительный анализ
исключенных заданий, которые почти удовлетворяют статистическим
критериям. При наличии небольшого числа таких заданий их вводят в тест.
Если таких заданий нет, то возможно два варианта: либо эти задания вместе с
отобранными не образуют однородного по составу теста, либо они неудачно
сформулированы. После переформулировки заданий их можно включить в тест,
но в этом случае анализ заданий теста проводится повторно.
3. На заключительном этапе вновь подсчитывают количество заданий и
определяют – охватывает ли тест все разделы предметной области. Если тест
удовлетворяет всем указанным требованиям, то далее он подвергается проверке
по следующим психометрическим характеристикам – надежности и
валидности.
Проверка надежности теста
В самом общем понимании смысл понятия надежности основывается на
том положении, что результаты, получаемые при применении любого
измерительного инструмента, никогда нельзя считать АБСОЛЮТНО точными
и достоверными, поскольку любая измерительная процедура всегда
предполагает наличие некоторой погрешности - ошибки измерения.
Поэтому и психологический тест, являющийся одним из видов измерительных
инструментов, как бы тщательно он ни был разработан, также обладает этим
свойством.
16
Отметим, что погрешность любого измерительного инструмента
обусловлена наличием разного рода побочных факторов, так или иначе
влияющих на инструмент. Иногда воздействие побочных факторов носит
случайный характер, и в этом случае, предсказать их влияние на работу
измерительного инструмента бывает практически невозможно. В этом случае
об измерении лучше забыть.
При этом существует ряд факторов, воздействие которых на работу
измерительного инструмента носит систематический характер7 и уровень
такого воздействия можно определить достаточно точно. Одним из
характерных факторов подобного рода можно считать фактор времени.
Пример: Важным вопросом, возникающем при оценке работы такого
измерительного инструмента, как обычные наручные часы, будет вопрос о
том, насколько хорошо эти часы будут работать в течение длительного
периода времени. Если в течение нескольких лет часы работают без заметных
сбоев, то мы говорим, что наши часы достаточно надежны.
Отметим, что основная задача оценки надежности измерительного
инструмента заключается в том, чтобы определить те границы погрешности
измерения, в пределах которых этой погрешностью можно пренебрегать, а
значит расценивать получаемые результаты как относительно достоверные и
считать измерительный инструмент достаточно надежным.
В приведенном выше примере с часами эта задача состоит в том, чтобы
определить, сколько лет часы должны работать нормально, чтобы мы могли
сказать, что они достаточно надежны в работе.
При определении степени надежности психологического теста, как
разновидности измерительной процедуры, с точки зрения влияние фактора
времени, прежде всего, необходимо решить насколько значительно результаты
тестирования должны подвергаться каким-либо изменениям с течением
времени, или другими словами, насколько устойчивыми должны быть эти
результаты во времени.
Применительно к тестам профессиональных знаний этот вопрос
заключается в том, чтобы решить могут ли быть профессиональные знания
достаточно устойчивыми во времени, или запас этих знаний с течением
В этом случае ошибка измерения носит систематический характер, что позволяет
вычислить величину этой ошибки, а показания инструмента – скорректировать на величину
ошибки.
7
17
времени заметно меняется. С одной стороны, мы понимаем, что с
приобретением профессионального опыта запас профессиональных знаний
человека постоянно пополняется, а это значит, что с течением времени он
действительно подвержен определенным изменениям. Но с другой стороны,
можем ли мы говорить о том, что запас этих знаний, может значительно
измениться, например, в течение одного месяца, если за это время индивид не
проходил никакого дополнительного обучения. В этом случае, мы можем
считать, что запас профессиональных знаний субъекта значительно измениться
не должен, а это значит, что по тесту профессиональных знаний этот человек
должен получить примерно такой же результат, как и за один месяц до этого. В
том случае, если наш тест покажет, что в течение месяца уровень
профессиональных знаний субъекта значительно изменился, то такой результат,
скорее всего, не будет отражать реального положения дел, что, в свою очередь
говорит о том, что наш тест имеет низкую надежность во времени.
При определении продолжительности временного интервала, через
который необходимо проводить повторное тестирование следует помнить, что
этот промежуток не должен быть слишком коротким. Поскольку испытуемые
просто могут вспомнить те ответы, которые давали в первом случае и дать
точно такие же (в этом случае получится, что мы проверили не знания, а память
субъекта).
Учитывая все это, наиболее оптимальный временной интервал при
проверке надежности теста профессиональных знаний составляет 1 – 2 месяца.
Процедура проверки теста на надежность во времени включает в себя
первый и второй этапы тестирования, и корреляционный анализ подученных
данных. В том случае, если коэффициент корреляции между результатами двух
тестирований статистически значимый и положительный – это свидетельствует
о том, что результаты первого и второго тестирований связаны между собой
(чем выше корреляция – тем лучше). Исходя из этого, делается вывод, что
разработанный тест отвечает требованиям надежности во времени и может
использоваться в качестве измерительного инструмента.
Если коэффициент корреляции между результатами двух тестирований
нулевой или отрицательный – это означает, что результаты тестирований
между собой не связаны или связь отрицательная (отрицательный коэффициент
корреляции). В этом случае необходимо провести анализ причин такого
положения дел. Возможно, испытуемые не поняли инструкцию, состояние
тестируемых во время тестирований сильно различалось, испытуемые прошли
переподготовку в период между двумя тестированиями, были использованы
18
шпаргалки и т.п. Другими словами, прежде всего, необходимо убедиться, что
внешние (по отношению к тесту) факторы, оказавшие значительное влияние на
результаты тестирования, отсутствовали. В случае если влияния внешних
факторов на процесс тестирования установить не удалось – придется признать,
что созданный опросник не соответствует требованиям надежности,
предъявляемым к измерительным инструментам, и начать разрабатывать новый
тест8.
Если были выявлены факторы, которые могли оказать значительное
влияние на результаты хотя бы одного из двух тестирований – необходимо еще
раз провести проверку теста на надежность. Желательно это сделать на другой
выборке испытуемых.
Проверка валидности теста
В самом общем смысле, валидность теста показывает, насколько хорошо
разработанный тест выполняет свою основную функцию, т.е. насколько
правильно он определяет реальный уровень выраженности того или иного
свойства человека. Именно поэтому оценка валидности, является крайне
необходимой и важной частью проверки диагностической пригодности теста.
Что касается тестов знаний и умений, то здесь валидность показывает,
насколько правильно тест определяет реальный уровень запаса знаний и
умений человека в той или иной области профессиональной деятельности.
Другими словами, информация о валидности теста знаний, позволяет нам
ответить на вопрос: выявляет ли наш тест уровень владения человека именно
теми знаниями, которые нас интересуют.
Оценка валидности теста обязательно предполагает использование
процедур статистического анализа данных. Это позволяет выразить уровень
валидности в числовых значениях, что дает возможность объективно оценить
степень диагностической пригодности теста.
Основным видом валидности, которая оценивается при разработке тестов
знаний, является внешняя валидность. Смысл ее заключается в том, что
показатели выполнения теста определенной группой испытуемых сравниваются
с каким-либо критерием (объективный жизненный показатель), который в той
или иной мере может определять степень овладения человеком теми знаниями,
на диагностику которых тест направлен. Основная задача разработчика теста
на данном этапе состоит в том, чтобы определить этот критерий и выдвинуть
Приступая к разработке нового теста, не обязательно отказываться от всех заданий,
использованных в первом варианте. Можно оставить те вопросы, которые по результатам
обоих тестирований дали хорошие показатели по трудности и дискриминативности.
8
19
предположение о том, каким именно образом он может быть связан с теми
профессиональными
знаниями,
объем
которых
должен
выявлять
разработанный тест9.
Одним из критериев (жизненных показателей) для оценки
профессиональных знаний может служить стаж работы по специальности.
Выбирая данный показатель в качестве внешнего критерия, разработчики теста
профессиональных знаний предполагают, что стаж работы человека по данной
специальности будет определять объем и глубину его профессиональных
знаний. Другими словами это предположение можно выразить так: «Чем
больше стаж работы по данной специальности, тем больше у человека
профессиональных знаний в этой области».
Наряду со стажем работы, в качестве внешнего жизненного показателя
при оценке валидности теста профессиональных знаний могут выступать
также: уровень профессионального образования, прохождение курсов
повышения квалификации, успеваемость при обучении, форма получения
образования, наличие изобретений, ученой степени и т.п.
Поскольку наиболее часто употребляемым (и наиболее простым) для
использования показателями внешней валидности тестов профессиональных
знаний можно считать стаж работы, то саму процедуру оценки внешней
валидности теста профессиональных знаний мы рассмотрим на примере этого
показателя.
Процедура оценки внешней валидности по критерию стажа работы
1 этап
На первом этапе работы необходимо правильно сформировать выборку
испытуемых. Данную выборку нужно подобрать таким образом, чтобы ее
представители имели достаточно большой разброс по показателю стажа работы
по данной специальности (например, от 2-х до 20 лет), т.е. в данную выборку
должны войти испытуемые, имеющие различный стаж работы. Для получения
более обоснованных результатов, необходимо сделать так, чтобы в данной
выборке, количество испытуемых, имеющих примерно равный стаж работы,
было бы сравнительно одинаковым (т.е. лиц с малым и большим стажем работы
должно быть примерно одинаково).
Например, количество ошибок в диктанте – традиционный критерий уровня знаний того
или иного языка (сам диктант в данном случае выступает в роли измерительного
инструмента).
9
20
2 этап
На втором этапе необходимо провести разрабатываемый тест на
сформированной выборке испытуемых и подсчитать количество правильных
ответов для каждого испытуемого.
3 этап
На третьем этапе работы составляем итоговую таблицу полученных
результатов. В данную таблицу для каждого испытуемого вносятся как
количество правильных ответов, так и показатель стажа его работы.
Пример:
Испытуемый
Петров
Иванов
Николаев
Васильева
Андреев
…
Красин
Воробьева
Кол-во правильных
ответов
25
16
28
13
16
21
19
Стаж работы (лет)
8
6
13
18
17
3
5
4 этап
На четвертом этапе следует внести итоговую таблицу полученных
результатов в программу обработки статистических данных и подсчитать
коэффициент корреляции между оценкой по тесту и стажем работы.
5 этап
На пятом этапе проводиться анализ полученного результата. В том
случае, если полученный коэффициент корреляции является положительным и
статистически значимым, можно делать вывод о том, что оценка по тесту и
показатель стажа работы между собой взаимосвязаны. Эта взаимосвязь, в свою
очередь свидетельствует о том, что стаж работы действительно оказывает свое
влияние на объем профессиональных знаний, а значит разрабатываемый тест
достаточно валиден.
Качественный и количественный состав выборки валидизации
Подбирая выборку испытуемых для валидизации необходимо учитывать
тот факт, что на результаты оценки валидности теста может оказывать влияние
не только тот единственный критерий, по которому формируется выборка, но и
целый ряд других факторов, воздействие которых не всегда можно предугадать
и принять во внимание. Среди таких факторов могут оказаться: пол, возраст
21
испытуемых, их социальный статус, качество полученного ими образования и
ряд других. Исходя из этого, при формировании выборки валидизации
необходимо стремиться к тому, чтобы в максимальной степени снизить
влияние подобных трудноучитываемых факторов на результаты оценки
валидности теста. Этого можно добиться путем выравнивания выборок
валидизации по всем подобным показателям, за исключением того показателя,
который определен в качестве жизненного критерия внешней валидности теста.
Пример: При формировании выборки валидизации по критерию стажа
работы необходимо стремиться к тому, чтобы в данную выборку вошло
примерно равное количество испытуемых, имеющих различный уровень
образования, или чтобы они имели одинаковый уровень образования. При этом
желательно, чтобы количество мужчин и женщин в данной выборке было
примерно одинаковым.
Количественный состав выборки валидизации во многом определяется
теми практическими возможностями, которые имеются у разработчика теста в
каждом отдельном случае. Однако, при этом, разработчик теста должен
понимать, что чем большее количество испытуемых будет включено в
выборку, тем более обоснованными будут результаты оценки валидности теста.
Это связано с тем, что в соответствии с основной статистической
закономерностью,
увеличение
объема
выборки
всегда
повышает
статистическую значимость получаемых результатов.
III.
Разработка нормативных оценок
Как правило, большинство тестов дают непосредственные числовые
даныне об исполнении человеком теста. Такую оценку в тестовой диагностике
принято называть «сырым» баллом. Для личностных тестов она выражается в
количестве заданий, на которые испытуемый ответил в соответствии с
«ключом». Для тестов знаний и достижений «сырой» балл показывает
количество правильно решенных заданий. На первый взгляд может показаться,
что именно «сырой» балл и отражает уровень выраженности той
характеристики, которую тест диагностирует. НО, «сырой» балл по тесту,
полученный каждым отдельным испытуемым фактически не несет в себе
никакой
информации
об
уровне
выраженности
диагностируемой
22
характеристики. Получить информацию об этом зможно только после
сравнения индивидуального результата с результатами выполнение этого теста
другими людьми. Проиллюстрируем это на примере:
Пример: По тесту знания правил дорожного движения тестируемый
правильно выполнил 10 заданий из 20-ти возможных. Первый вывод, который
кажется очевидным, заключается в том, что этот человек обладает средним
уровнем знаний правил дорожного движения. Но представим, что по данному
тесту было протестировано 100 человек, и ни один из них не решил правильно
более 9 заданий и это означает, что наш тестируемый выполнил тест лучше
всех остальных испытуемых. Можем ли мы в этом случае сказать, что он
обладает средним уровнем знаний правил дорожного движения?
В процессе сравнительного анализа результатов выполнения теста
группой лиц (выборкой) мы должны ответить на вопрос: какая разница в баллах
теста отражает разницу в уровне знаний испытуемых? 12 правильных ответов
на вопросы теста и 13 правильных ответов – это свидетельствует об
одинаковом уровне знаний или нет? Для того чтобы ответить на этот вопрос
проводится процедура нормирования результатов теста (процедура
нормализации).
Основная задача
нормирования
результатов
заключается в том,
чтобы
рассчитать
интервалы
распределения «сырых»
баллов
по
тесту,
каждый из которых
соответствовал
бы
определенному уровню
выраженности
диагностируемого
качества.
Процедура
разработки
норм
Рис. 1. Кривая нормального распределения
связана
с
23
использованием одного из основных законов статистики – законом
нормального распределения (рис. 1). Графически нормальное распределение
выглядит в виде кривой нормального распределения. Кривая нормального
распределения показывает взаимосвязь количества испытуемых с количеством
правильных ответов по тесту. Согласно нормальному распределению
наибольшее количество испытуемых в середине распределения, где количество
правильных ответов соответствует половине вопросов теста, и постепенно
спадает к ее краям. Кривая нормального распределения симметрична и имеет
единственный пик в центре. Другими словами субъектов, которые дали малое
количество правильных ответов, как и тех, которые дали большое количество
правильных ответов, - меньше, нежели тех, кто правильно выполнил примерно
на половину заданий теста.
Для вычисления интервалов распределения «сырых» баллов по тесту,
соответствующих уровню выраженности диагностируемого качества
используются два статистических показателя: среднее арифметическое по
выборке и стандартное отклонение по ней (вычислить данные показатели
можно в любом стандартном пакете программ, предназначенных для
статистической обработки данных, в том числе и в Microsoft Excel), т.е.
необходимо завести все результаты тестирования в программу и произвести
расчет.
Величина стандартного отклонения (сигма), которая в численном
выражении представляет собой количество «сырых» баллов, является наиболее
простым критерием определения уровня выраженности диагностируемого
качества – в данном случае мы получаем 7-ми бальную шкалу от «-3» до «+3»
(нормированная шкала Z-оценок)10: «-3», «-2», «-1», «0», «+1», «+2» и «+3».
При переводе «сырых» баллов в нормированную (стандартную) шкалу
оценок каждому значению «сырого» балла приписывается какое-либо значение
шкалы стандартных оценок.
Приведем пример.
Кроме шкалы Z-оценок существует несколько шкал стандартных оценок: стандартная
десятка, стандартная девятка, Т-баллы и некоторые другие. Все эти шкалы объединяет то,
что средний арифметический балл и стандартное отклонение имеют в этих шкалах то или
иное фиксированное значение. Поэтому при использовании шкал стандартных оценок,
высчитывать каждый раз значения этих показателей необходимости нет. Шкалы
стандартных оценок также предполагают отнесение какого-либо «сырого» балла к
определенному интервалу, соответствующему уровню выраженности диагностируемой
характеристики.
10
24
Пример: Распределение оценок по тесту знаний, содержащему 20
заданий, соответствующее нормальному распределению будет иметь вид:
Количество правильных ответов:
Количество испытуемых:
Количество правильных ответов:
Количество испытуемых:
1
10
11
45
2
12
12
40
3
15
13
38
4
18
14
32
5
20
15
27
6
25
16
25
7
31
17
21
8
40
18
19
9
45
19
15
10
50
20
10
Для приведенного примера среднее значение количества правильных
ответов по выборке будет приблизительно равно 10.5, а значение
стандартного отклонения будет приблизительно равно 4.5. Исходя из этого,
соотношение Z-оценок и сырых баллов будет следующим:
Z-оценка
-3
-2
-1
0
+1
+2
+3
Сырые баллы
0-2
3-5
6-8
9-11
12-14
15-17
18-20
4. ЗАКЛЮЧЕНИЕ
Тесты профессиональных знаний, получившие достаточно большее
распространение в качестве метода оценки профессиональных компетенций
персонала, можно считать важным источником информации, необходимой для
правильного подбора и расстановки кадров. Использование этого метода
облегчает работу кадровых служб, а также помогает в достаточно короткий
срок получить объективную информацию о реальных профессиональных
возможностях кандидата на работу.
Вместе с тем, практическое применение тестов профессиональных знаний
далеко не всегда может обеспечить достаточно полной и точной информацией о
реальных и потенциальных возможностях кандидата. Чаще всего, это бывает
обусловлено недостаточным пониманием того, что тест профессиональных
знаний, как и любой инструмент психологической диагностики, до его
практического применения обязательно должен пройти проверку своих
диагностических возможностей. Только в этом случае, использование теста на
практике будет давать достоверные результаты. При этом сама процедура
разработки и проверки теста должна быть проведена в соответствии с
общепринятыми в области психологического тестирования стандартами.
Download