статью в формате docx.

advertisement
Компьютерное тестирование как эффективный способ контроля знаний:
математические основы тестов и современное состояние электронного
тестирования
ФИО: Нигматуллин Рамиль Наилович
Должность: учитель физики, математкики и информатики
Место работы: МБОУ СОШ с углубленным изучением отдельных
предметов села Большой Кукмор Кукморского муниципального района
Республики Татарстан (РФ)
Одной из задач модернизации образовательного процесса является
создание и внедрение современных средств контроля качества образования
на всех уровнях и ступенях системы образования. На сегодняшний день,
пожалуй, самой распространённой формой контроля является тестирование.
Главное преимущество тестов состоит в объективности результатов контроля
знаний тестируемых.
С начала XXI в. в образовании при проведении тестирования стали
широко применяться компьютеры. В педагогических инновациях появилось
отдельное направление – компьютерное тестирование, при котором
тестирование
проводится
в
форме
диалога
между
испытуемым
и
компьютером. Успешное развитие этого направления обусловлено в первую
очередь созданием новых программных продуктов конструирования тестов,
которые обеспечивают высокое качество педагогических измерений. [1]
Одним из элементов системы качества образования является обеспечение
контроля качества образования на основе использования современных
методов тестирования, современных компьютерных средств и ресурсов.
Тем не менее, вопросы компьютерного тестирования остаются слабо
разработанными.
Проведение компьютерного тестирования в повседневной практике
связано с рядом проблем.
Во-первых, внедрение компьютерного тестирования в практику
наталкивается на определенный психологический барьер. Чувствуется
некоторая осторожность к использованию электронных тестов. При этом за
рубежом
компьютерное
тестирование
уже
много
лет
эффективно
используется при контроле знаний и повышении уровня обучения. [2]
Во-вторых, весьма актуальным является проблема приобретения
лицензионного программного продукта для конструирования компьютерных
тестов. На западе рынок тестовых оболочек сложился давно. Наиболее
продвинутой средой компьютерного тестирования является пакет программ
FasTestProfessional. В последнее десятилетие в нашей стране также начали
разрабатывать тестовые оболочки, которые позволяют создать и провести
тестирование, сбор и анализ результатов, выставление оценки по указанной
шкале. Подобными продуктами являются MyTest, TestMaker.
В-третьих,
недостаточность
нужного
количества
работающих
компьютеров для проведения контроля также усугубляет ситуацию.
Приходится проводить контроль, ставя учеников в очередь. При этом,
несомненно, происходит распространение правильных результатов между
обучающимися. По мнению Сафарова Р.Х., «с совершенствованием
электронно-коммуникационной техники удивляет своей фантазией уровень
шпаргализации». Для решения этой проблемы требуется увеличение
количества работающих компьютеров или же использование расширенной
локальной сети. [2]
Профессионально сделанный тест отличается от простой совокупности
заданий тем, что является научно обоснованным, соответствующим
определенным дидактическим, психологическим требованиям и математикостатическим методам. Тесты могут осуществлять диагностику знаний,
умений, навыков, обучаемости, развития навыка. Также тестирование
поможет в проверке усвоенных способов деятельности, осуществит проверку
развития способностей.
Сложнее всего оценить с помощью тестов творческий подход при
решении задач. Трудно оценивать уровень подготовки испытуемого и
уровень сложности задания теста. Следовательно, остается открытым вопрос
«Какова объективность тестовых оценок?». Эта проблема остается не
решенной при использовании классической теорий тестов. Однако ответ на
этот вопрос даётся в рамках современной теории тестов. [3]
Классическая теория тестирования основывается на пяти постулатах:
1. Тестовый балл может отличаться от истинного, соответствующего
знаниям учащегося:
𝑋 = 𝑇 + 𝐸,
где X – оценка полученных результатов, T – истинный результат, а Е –
погрешность (ошибка) измерения.
2. Истинный тестовый балл определяется как математическое
ожидание полученного тестового балла:
𝑇 = 𝑀(𝑋)
3. Корреляции между истинным баллом Т и погрешностью E не
существует:
𝜌𝑇,𝐸 = 0
4. Истинный компонент одного теста Т1 с ошибочным компонентом
параллельного (любого другого) теста Е2 не кореллируют:
𝜌𝑇1,𝐸2 = 0.
5. Погрешности двух параллельных тестов Е1 и Е2 независимы друг от
друга:
𝜌𝐸1 ,𝐸2 = 0.
Центральным понятием этой теории является понятие «надежности»
результатов тестирования и их устойчивость к действию случайных
факторов. Из классической теории теста следует, что надежность теста есть
𝑆𝐸2 𝑆𝑇2
𝑟 = 1 − 2 = 2,
𝑆𝑥 𝑆𝑥
где 𝑆𝑥2 , 𝑆𝑇2 , 𝑆𝐸2 – дисперсии полученного балла, истинного балла и
погрешности измерения, соответственно. Эти дисперсии связаны между
собой соотношением
𝑆𝑥2 = 𝑆𝑇2 + 𝑆𝐸2 .
Дисперсия тестовых баллов находится согласно формуле
𝑛
𝑆𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2 ⁄(𝑛 − 1),
𝑖=1
где 𝑥𝑖 −индивидуальный балл испытуемого, который получается
суммированием всех единиц, полученных за правильно выполненные
задания, 𝑥̅ − среднее арифметическое индивидуальных баллов учащихся.
Приняты следующие показатели надёжности тестов:
Таблица 1. – Показатели надёжности тестов.
Класс теста
Показатель
надёжности
1
0.97
2
0.95
3
0.8
Следовательно, надежность лучших тестов составляет 0.8–0.9.
Надёжность теста можно увеличить следующими способами:
•
анализ каждого задания теста по соответствию его формы и
содержания основам тестовой теории;
•
определение необходимого числа заданий различных типов по
сложности и установление времени выполнения теста;
•
удаление из теста тех заданий, которые плохо различают
подготовленных и неподготовленных учащихся;
•
подбор соответствующих форм для тестовых заданий.
Было отмечено, что повсеместное использование выборочного типа
ответов привело к резкому падению качества контроля знаний. Создавалось
ложное представление о том, что компьютерный тест состоит только из
вопросов закрытой формы. [1] Закрытая форма недостаточна для выявления
умений и творческих способностей учащихся, для этого необходимо
использовать задания открытой формы. [2]
Тест еще должен быть валидным (англ. valid – действительный,
пригодный, имеющий силу). Валидность – это важнейшая характеристика
теста,
без
указания
инструментом.
которой,
Анализируя
его
нельзя
сложную
считать
ситуацию
измерительным
с
валидностью
педагогических тестов, Е.Михайлычев отмечает [4], что педагогу трудно
разобраться в том, что же такое валидность. Ниже приведу несколько
определений валидности теста.
Валидность означает пригодность тестовых результатов для той цели,
ради чего проводилось тестирование (В.Аванесов) [5].
Валидность
–
это
характеристика способности
теста
служить
поставленной цели измерения (М.Челышкова) [5].
Валидность определяет, насколько тест отражает то, что он должен
оценивать (А.Майоров) [6].
Различают несколько типов валидности: валидность по содержанию,
валидность по различающей способности и т. д. Классическая теория тестов
позволяет вычислить их на основе результатов тестирования. Тестовое
задание, для которого значение характеристик не удовлетворяет требуемому
уровню, должно исключаться из списка заданий и заменяться более
эффективным заданием. В результате этого улучшаются составляющие
валидности тестовых заданий и повышаются надежность и эффективность
теста.
Для повышения валидности сначала необходимо рассчитать значения
показателя валидности задания по содержанию и по различающей
способности заданий:
1) показатель валидности задания по содержанию:
𝑣сод
̅В −𝑀
̅𝐻
𝑀
=
√𝑝𝑗 𝑞𝑗 ,
𝑆𝑥
̅В − средний арифметический балл по всему тесту у успешно
где 𝑀
̅𝐻 − средний арифметический балл по
ответивших учеников на j-задание, 𝑀
всему тесту у не ответивших на j-задание, 𝑝𝑗 = 𝑅𝑗 ⁄𝑚 − относительная
частота правильных ответов, 𝑅𝑗 − число правильных ответов на j-задание, m
– число тестируемых, 𝑞𝑗 = 𝑄𝑗 ⁄𝑚 − относительная частота неправильных
ответов, 𝑄𝑗 = 𝑚 − 𝑅𝑗 − число неправильных ответов на j-задание.
2) самым простым образом показатель различающей способности D
вычисляется как разность между долей испытуемых из «высокой» группы,
правильно выполнивших задание, и долей испытуемых из «низкой» группы,
тоже правильно выполнивших задание. Данный показатель вычисляется по
формуле
𝐷=
𝑛1 𝑛2
− ,
𝑁1 𝑁2
где 𝑁1 и 𝑁2 – количество испытуемых, попавших соответственно в
«высокую» и «низкую» группы; 𝑛1 и 𝑛2 – количество испытуемых, правильно
выполнивших задание, соответственно из "высокой" и "низкой" групп.
Затем, выявив задания, не удовлетворяющие соответствующим
критериям, исключают их из теста. [3] Исключение этих невалидных заданий
приводит к одновременному повышению надёжности теста. А критерии
таковы:
1) 𝑣сод ≥ 0.4 − задание считается правильным, балл по заданию
коррелирует с общим баллом по предмету,
𝑣сод < 0.4 − задание рекомендуется убрать;
2) 𝐷 = 1 − задание
обладает
максимальной
различающей
способностью,
𝐷 = 0 − задание совершенно не различает испытуемых, овладевших и
не овладевших учебным материалом,
𝐷 = 1 − задание различает испытуемых, но инверсировано: правильно
отвечают не овладевшие материалом, а овладевшие материалом отвечают
неправильно. Существование таких заданий может свидетельствовать о
своеобразной неадекватной структуре знаний у учащихся.
Тестирование
достигает
максимальной
результативности,
когда
трудность заданий соответствует уровню подготовки экзаменуемого. Не
стоит задавать слабо подготовленному учащемуся трудные вопросы и,
наоборот, хорошо подготовленному легкие вопросы. Вследствие этого
возникает
необходимость
определения
таких
скрытых
(латентных)
параметров, как уровень подготовки испытуемого θ и трудность тестового
задания β. Для выявления этих латентных параметров построен сложный
аппарат современной теории тестов. Современная теория теста Item
Response Theory (IRT) основана на модели Г. Раша [3]. В основе
формирования баллов ЕГЭ также лежит модель Раша. IRT обладает целым
рядом важных достоинств, которые отсутствуют в классической теории:
•
относительная инвариантность θ от трудности заданий,
•
устойчивость и объективность оценок параметров θ и β,
•
оценка трудности тестовых заданий не зависит от выборки
испытуемых, на которых она была получена;
•
оценка уровня подготовленности испытуемых не зависит от
используемого набора тестовых заданий;
•
возможность определять точность полученных результатов
измерения;
•
возможность извлекать из матрицы ответов дополнительную
информацию об испытуемых и заданиях теста;
•
возможность измерения значений параметров θ и β в одной и той
же шкале, имеющей свойства интервальной. Возможно выравнивание на
единой шкале результатов измерения разных групп испытуемых разными
вариантами теста. [3]
Основу IRT составляет сложный математико-статистический аппарат.
Многих это пугает, и совершенно зря. Потому что при обработке результатов
теста особых знаний по математике не нужно. Главное – понять и осознать
принцип
математико-статистической
Дляпроведениянаучно
требуется
сложное
правильный
выбор
обоснованного
программное
заданий,
обработки
тестов.
компьютерного
обеспечение,
тестирования
которое
нацелено
математико-статистическую
на
обработку
результатовтестирования. При этом интерпретации этих данных и задания
выбираются в зависимости от ответов на предыдущие задания. Такое
тестирование называется адаптивным.
Итак,
компьютерное
перспективных
методов
тестирование
контроля
и
является
одним
повышения
из
знаний.
самых
Главное
преимущество компьютерного тестирования заключается в том, что оно
позволяет
провести
объективную
оценку
уровня
усвоения
знаний
учащимися. При компьютерном тестирований учащийся чувствует себя
более свободно перед компьютером, чем перед преподавателем, меньше
волнуется, что позволяет достичь сравнительно лучших результатов, а при
выставлении оценки исключить субъективный фактор. Всё это приводит к
удовлетворению результатами своего труда самих обучаемых и стимулирует
их стремление к приобретению новых знаний. В итоге оживляется учебный
процесс, повышается динамизм, служащий стимулом для достижения
лучших результатов. Постоянный контроль уровня усвоения знаний
учащимися
посредством
совершенствованию
компьютерного
учебного
тестирования
способствует
Собранная
информация
процесса.
используется для совершенствования процесса обучения.
Однако существуют серьёзные проблемы, которые встречаются на пути
развития компьютерного тестирования в отечественном образовании:
психологический
барьер,
недостаточное
компьютерного
тестирования,
математических
расчетов,
лицензионных
технологические
финансовые
программных
понимание
продуктов
трудности
для
эффективности
трудности,
при
создания
боязнь
приобретении
и
проведения
полноценных компьютерных тестов. Для совершенствования компьютерного
тестирования при проверке уровня усвоения требуется целенаправленная
подготовка специалистов в этой области.
Список литературы
1. Талызина Н.Ф. Теоретические основы контроля в учебном процессе.
– М: «Знание», 1983. – 96 с.
2. Сафаров
Р.Х.
Состояние
и
пути
развития
компьютерного
тестирования в профессиональном образовании // Вестник ТГГПУ. – 2010. –
№4(22). – С. 328-332.
3. Сафаров Р.Х. Математико-статистическая обработка результатов
тестирования на базе EXCEL. Практикум: учебное пособие для студентов
педагогических вузов. – 2010. – 87с.
4. Михайлычев Е.А. Дидактическая тестология. – М.: «Народное
образование», 2001. – 432 с.
5. Аванесов B.C. Композиция тестовых заданий. Учебная книга для
преподавателей вузов, учителей школ, аспирантов и студентов педвузов. –
М.: «Адепт», 1998. – 217 с.
6. Майоров А.Н. Теория и практика создания тестов для системы
образования. – М.: «Интеллект-центр», 2001. – 296 с.
Download