Кузьминова А.В. Модели и алгоритмы прогнозирования оценки

advertisement
Федеральное государственное автономное образователъное
учреждение высшего профессионального образования
"Национальный исследовательский ядерный университет "МИФИ"
На правах рукописи
КузьминовА Аллд ВлддимировнА
модЕли и ллгоритмы прогнозировАниrI оцЕнки кАчЕствА
ОБЪЕКТОВ СИСТЕМЫ ВЫСШЕГО ОБРАЗОВАНИrI НА ОСНОВЕ
рЕтроспЕктивной,
05.13.10
тЕкущвй
- Управление
и экспЕртной
в соци€rльньIх
инФормАции
и экономических систем€лх
,.Щпссертация на соискание 1.rеной степени кандидата технических наук
Том I
Научные руководители:
д.т.н., профессор
опов Iо.л.
к.т.н., доцент Гуров В.В.
Москва
20 15
2
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ .........................................................................................................5
1 СОСТОЯНИЕ ПРОБЛЕМЫ ПРОГНОЗИРОВАНИЯ ОЦЕНКИ
КАЧЕСТВА В ОРГАНИЗАЦИОННЫХ СИСТЕМАХ .................................15
1.1 Основные понятия системы менеджмента качества в сфере образования .............15
1.1.1 Обоснование выбора показателей образовательного процесса для анализа
разнородной информации ............................................................................................17
1.1.2 Анализ показателей образовательного процесса ............................................19
1.2 Применение информационных систем для анализа уровней качества ...................22
1.2.1 Анализ современных информационных систем................................................22
1.2.2 Принципы разработки и построения ИС .........................................................25
1.2.3 Идентификация и выбор источника знаний.....................................................26
1.3 Прогнозирование уровней качества подготовки специалистов...............................28
1.3.1 Оценка качества в сфере высшего образования ..............................................30
1.3.2 Анализ результатов приобретения знаний, оценка полученных знаний........31
1.3.3 Модели прогнозирования уровней подготовки специалистов.........................32
1.4 Методы анализа текстов ..............................................................................................36
1.4.1 Прикладные исследования письменной речи .....................................................39
1.4.2 Модели индексов текстовой информации........................................................41
1.4.3 Компьютерные программы для анализа текстов ...........................................42
1.5 Схема построения разрабатываемой информационной системы ............................46
1.6 Постановка задач исследования..................................................................................48
Основные результаты и выводы по главе 1 .....................................................................50
2 РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ ПРИ УПРАВЛЕНИИ
ИНФОРМАЦИОННЫМИ СИСТЕМАМИ В СИСТЕМЕ ВПО ...................52
2.1 Входные параметры информационной системы .......................................................52
2.1.1 Показатели академической успешности..........................................................53
2.1.2 Формулы академической успешности...............................................................54
2.2 Разработка модели текста ............................................................................................58
2.3 Классификационные границы уровней качества ......................................................60
2.3.1 Модель классификации, созданная с применением регрессионного анализа.61
2.3.2 Математическая модель классификационной границы, основанная на
использовании метода максимального правдоподобия............................................66
Основные результаты и выводы по главе 2 .....................................................................71
3
3 РАЗРАБОТКА АЛГОРИТМОВ И МЕТОДИК ДЛЯ
ПРОГНОЗИРОВАНИЯ УРОВНЕЙ КАЧЕСТВА ПОДГОТОВКИ
СПЕЦИАЛИСТОВ ...........................................................................................72
3.1 Методика проведения исследования параметров определения уровней качества
подготовки специалистов ..................................................................................................72
3.2 Алгоритмы создания информационной модели текста ............................................73
3.3 Алгоритмы построения математических моделей ....................................................75
3.3.1 Алгоритм нахождения классификационной поверхности МГрР ...................77
3.3.2 Алгоритм нахождения классификационной поверхности МГрВ ...................78
3.4 Информационная модель системы учета и анализа уровней качества
специалистов.......................................................................................................................80
3.5 Анализ характеристик качества моделей ...................................................................81
Основные результаты и выводы по главе 3 .....................................................................83
4 РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ МОДЕЛЕЙ И АЛГОРИТМОВ
ПРОГНОЗИРОВАНИЯ УРОВНЕЙ КАЧЕСТВА ПОДГОТОВКИ
СПЕЦИАЛИСТОВ ...........................................................................................84
4.1 Выявленные источники знаний при построении функциональной модели
организационной системы .................................................................................................84
4.1.2 Анализ извлеченной информации........................................................................86
4.1.3 Анализ данных экспертной информации ..........................................................88
4.1.4 Анализ параметров рукописного текста .........................................................92
4.2 Разработка интерфейса пользователя .........................................................................96
4.2.1 Создание БД .........................................................................................................96
4.2.2 Идентифицирующий материал базы данных текстов ..................................98
4.3 Реализация моделей классификационных границ уровней качества при создании
информационной системы...............................................................................................103
4.3.1 Практическое использование регрессионной модели ....................................104
4.3.2 Практическое использование математической модели на основе метода
максимального правдоподобия..................................................................................112
4.3.3 Интерпретация аргументов модели МГрВ3\ 5 ............................................115
4.3.4 Анализ классификационных границ между различными прогнозируемыми
уровнями качества .....................................................................................................115
4.4 Анализ разработанных моделей прогнозирования уровней качества...................117
4.4.1 Апробация разработанных моделей и алгоритмов........................................118
4
4.5 Верификация разработанных моделей .....................................................................123
Основные результаты и выводы по главе 4 ...................................................................125
ЗАКЛЮЧЕНИЕ...............................................................................................127
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ .................131
СПИСОК ЛИТЕРАТУРЫ ..............................................................................132
ПРИЛОЖЕНИЕ...............................................................................................144
5
Введение
Актуальность темы исследования и степень ее разработанности
Ускоренный информационный рост во всех сферах деятельности
общества порождает лавинообразно увеличивающийся поток информации [1],
не
позволяющий
современному
человеку
качественно
воспринять
необходимые данные, обработать, понять, сохранить и создать новые знания
[1]. В условиях существующей ситуации информационного кризиса [2], для
того, чтобы человек нашел свое место в сфере материального и
социокультурного производства, особая нагрузка должна быть перенесена на
сферу образования. Современные проблемы [3, 4] повышения качества
подготовки специалистов все больше приобретают значимый характер [5-8].
Что
показывает
актуальность
и
востребованность
диссертационного
исследования в данном направлении.
В настоящее время вопросам управления качеством образования,
построению систем менеджмента качества, уделяется значительное внимание
на разных уровнях управления [9-12]: федеральном, ведомственном,
отдельного вуза.
В Федеральной целевой программе развития образования [13] на 20112015
годы
в
качестве
одной
из
приоритетных
поставлена
задача
формирования механизмов оценки качества образования, решение которой
требует развития систем оценки качества образования. В расширении
Программы до 2020 г. отмечается [14], что для повышения эффективности
образовательного процесса необходимо внедрять «системы мониторинга
образовательных траекторий студентов». В результате на повестку дня все
чаще будет выноситься вопрос об индивидуальной тьютор-навигации
обучающегося. При её определении будут учитываться не только особенности
специализация студента, но и психологические личностные характеристики.
6
Повысить учет и анализ качества подготовки специалистов возможно,
опираясь на установленные требования по оценке образовательных процессов,
описанные в национальном стандарте ГОСТ Р 52614.2-2006 «Системы
менеджмента качества. Руководящие указания по применению ГОСТ Р ИСО
9001-2001 в сфере образования» [15]. Проблемы качества образования
решаются в ходе измерения, анализа и улучшения процессов системы
образования. Этими процессами могут быть и процессы обучения студентов,
и определение качества процесса, и итоговая оценка уровня усвоения
материала учебной дисциплины. Для решения этой проблемы требуется
создание системы прогнозирования оценки качества подготовки студента.
Существующие на сегодняшний день информационные системы (ИС)
применяются в различных профессиональных областях. Но в тоже время
практически не существуют ИС, учитывающие и анализирующие уровни
качества подготовки специалистов. Предлагается разработать ИС, в которой
используются входные данные, состоящие из двух взаимосвязных потоков.
Это, во-первых, экспертная информация, представленная экзаменационными
оценками, полученными студентом в период обучения. И, во-вторых,
характеристики рукописных текстов, созданных обучаемым и отражающие
психологические
черты
его
личности
[16,
17].
Актуальность
диссертационного исследования подтверждается значительным количеством
отечественных и зарубежных работ в этом направлении.
Степень разработанности темы исследования. Во всех высших
учебных заведениях страны ведется работа в области управления качеством
образования. Проведенный анализ источников информации показал наличие
большого количества научно-исследовательских работ как отечественных
(Татур Ю.Г., Зимняя И.А., Якунин В.А., Беспалько В.П., Талызина Н.Ф.,
Чекмарев В.В.,
Поспелова
Л.Я.,
Селезнева
Н.А.,
Берестнева
О.Г.,
Леонова Н.М., Марухина О.В. и др.) [18-32], так и зарубежных авторов
близких по тематике диссертационного исследования. Это показывает
7
актуальность и востребованность диссертационного исследования в данном
направлении.
В то же время принятию решений на основе прогноза академической
успешности не уделено достаточного внимания. Хотя в ряде трудов
(Гальтон Ф., Кеттелл Дж., Бине А., Амтхауэр Р., Спирмен Ч., Терстоун Л.,
Айзенк Г., Анастази А. и др.) данный вопрос затрагивается, но эти
исследования направлены, в основном, на получение результата при
тестировании, как будущих студентов, так и обучающихся или поступающих
в аспирантуру [33-37].
Некоторые
российские
авторы
[38,
39],
стремясь
повысить
эффективность системы менеджмента качества в вузе, проводят прогноз
уровня качества обучения, применяя в моделях разнообразные по характеру
предикторы. Проводились прикладные исследования системных связей и
закономерностей
функционирования
объектов
системы
образования,
ориентированные на повышение эффективности управления в сфере
образования, в которых в качестве объектов системы рассматривались
обучаемые в вузе. Как показал анализ литературных источников, по
параметрам, используемым в диссертационном исследовании, разработки
никогда до этого не осуществлялись.
Тема исследования, представленная в данной диссертационной работе,
находится на стыке разных научных дисциплин и до сегодняшнего времени ее
никто четко не обозначал, что объясняет её слабую разработанность.
Целью диссертационной работы является разработка и применение
методов совершенствования управления и механизмов принятия решений в
организационных системах высшего профессионального образования по
ретроспективной, текущей и экспертной информации.
Для достижения поставленной цели необходимо решить следующие
задачи:
1.
Разработать методы и алгоритмы получения и обработки
информации для задач управления процессом принятия решений о
8
прогнозировании
уровня
качества
подготовки
специалистов
в
вузе.
Разработать критерии академической успешности на основе ретроспективной
экспертной информации.
2.
Разработать модели и алгоритмы прогнозирования оценки
качества подготовки специалистов на основе экспертной информации
ретроспективной персональной информации.
3.
Разработать
и
провести
анализ
математических
моделей
прогнозирования уровней академической успешности, определяемой как
показатель качества подготовки специалистов.
4.
Создать информационную систему поддержки принятия решений
для прогнозирования оценки качества подготовки специалистов в вузе.
5.
Провести
экспериментальное
исследование
разработанных
моделей и алгоритмов учета и анализа уровней качества подготовки
специалистов с использованием выборки данных обучения в образовательном
учреждении высшего профессионального образования.
Научная новизна работы состоит в том, что:
1.
Разработан алгоритм прогнозирования оценки качества объектов
системы высшего образования на основе ретроспективной, текущей и
экспертной информации.
2.
Разработан
алгоритм
получения
критерия
академической
успешности, создания показателя академической успешности, на основе
ретроспективной экспертной информации.
3.
Разработан
алгоритм
создания
текстовых
индексов
-
трансформационных параметров текста; создана база данных параметров
текста на основе ретроспективной текстовой информации - БД «Свиток»,
прошедшая государственную регистрацию в Роспатенте.
4.
Разработаны математические модели определения границы между
уровнями качества подготовки специалистов, созданные с применением
методов:
˗
регрессионного анализа и
9
˗
максимального правдоподобия,
позволяющие прогнозировать оценку качества объектов системы высшего
профессионального образования на основе ретроспективной и текущей
информации.
Объектом исследования является
образовательный процесс в
социально-экономической системе – высшем учебном заведении. Предметом
исследования являются параметры образовательного процесса, влияющие на
повышение эффективности и надежности его функционирования.
Практическая значимость работы заключается в следующем:
˗
созданный
показатель
академической
успешности
«среднесеместровый усеченный балл», выбранный из разработанных ПАУ,
позволяет проводить исследования наиболее объективно, что повышает
эффективность управления;
˗
использование
разработанных
математических
моделей
определения границы между уровнями качества подготовки специалистов
дает возможность эффективно определять такие границы, что позволяет более
точно выстраивать траекторию их обучения с учётом особенностей
многоступенчатого образования и способствует эффективному и надежному
принятию решений.
Практическое использование результатов подтверждено тремя актами
о внедрении. Результаты работы внедрены в учебный процесс НИЯУ МИФИ:
кафедры «Компьютерные системы и технологии», кафедры «Военная
подготовка»; РГРТУ кафедры САПР ВС. Получено свидетельство о
государственной регистрации базы данных № 2015620568 на разработанную
БД «Свиток» синтаксических параметров текста.
Методология и методы исследований. При выполнении исследований
и разработок в диссертационной работе были использованы методы
системного анализа; квалиметрической оценки; методы получения и
обработки информации для задач управления; методы статистического
анализа и обработки данных.
10
Положения, выносимые на защиту.
1.
Модель информационной системы поддержки принятия решений
в вузе для прогнозирования оценки качества подготовки студентов вуза.
2.
Математическая
модель,
алгоритмы
и
методика
создания
информационной системы, прогнозирующей границы между уровнями
качества подготовки специалистов, с применением множественной линейной
регрессии.
3.
Математическая
модель,
алгоритмы
и
методика
создания
информационной системы, позволяющей прогнозировать границы между
уровнями качества подготовки специалистов, с применением метода
максимального правдоподобия.
4.
Результаты экспериментального исследования разработанных
математических моделей прогнозирования оценки качества подготовки
специалистов на основе ретроспективной, текущей и экспертной информации
студентов НИЯУ МИФИ.
Степень обоснованности и достоверности научных положений и
выводов, представленных в диссертационной работе, обеспечивается высоким
уровнем совпадений теоретических выводов с результатами экспериментов, а
также апробацией на научно-технических конференциях и семинарах и
практической реализацией разработанных моделей, методов и алгоритмов.
Апробация результатов. Основные результаты диссертационного
исследования представлены, докладывались и обсуждались на ежегодных
научных сессиях НИЯУ МИФИ: 2001, 2002, 2003, 2008, 2009, 2011, 2015 гг.
(Россия, г. Москва); IV и V Международных научных конференциях РАЕ
«Современное образование. Проблемы и решения», 2007 г. (Таиланд, г.
Паттайя); XVII, XVIII и XX Международных научно-технических семинарах
«Современные технологии в задачах управления, автоматики и обработки
информации», 2008, 2009, 2011 гг. (Украина, г. Алушта); ХХ всероссийской
научно-технической конференции студентов, молодых ученых и специалистов
11
«Новые информационные технологии в научных исследованиях», 2015 г.
(Россия, г. Рязань).
Публикации. Основные положения диссертации отражены в 20
печатных работах. Из них пять работ представлены в периодических научных
изданиях, включенных в перечень российских рецензируемых научных
журналов и изданий, рекомендованных ВАК России для опубликования
основных научных результатов диссертации на соискание ученой степени
кандидата наук. Получено одно свидетельство о государственной регистрации
базы данных. Три работы опубликованы без соавторов. Результаты,
изложенные в остальных работах, получены при определяющем личном
участии автора. Личный вклад автора в каждой работе, выполненной в
соавторстве, составляет 70-90%. Опубликована одна статья в журнале,
входящем в базу цитирования Scopus.
Соответствие паспорту специальности. Содержание диссертационной
работы соответствует паспорту специальности 05.13.10 - «Управление в
социальных
и
экономических
системах»:
п.
6
«Разработка
и
совершенствование методов получения и обработки информации для задач
управления социальными и экономическими системами»; п. 7 «Разработка
методов
идентификации
в
организационных
системах
на
основе
ретроспективной, текущей и экспертной информации»; п. 11 «Разработка
методов и алгоритмов прогнозирования оценок эффективности, качества и
надежности организационных систем».
Структура работы
Работа состоит из введения, четырех глав, заключения, списка
литературы и приложения. Основной материал изложен на 126 страницах и
содержит 44 рисунка, 24 таблицы. Приложение содержит 38 страниц, 5
таблиц, 6 рисунков, копии документов о внедрении результатов работы и
оформлено в отдельный том II. Список библиографических записей
документов,
использованных
при
работе
над
темой,
наименований отечественной и зарубежной литературы.
содержит
170
12
Во введении обоснована актуальность темы диссертации, определена
цель и содержание поставленных задач исследования, представлены основные
положения диссертационной работы, выносимые на защиту.
В первой главе проведен обзор состояния проблемы прогнозирования
оценок качества в организационных системах, рассмотрены модели, методы
анализа для построения информационных систем, осуществляющих учет и
анализ уровней качества подготовки специалистов. Анализ проводился по
результатам работ отечественных и зарубежных экспертов в рассматриваемой
области. Описан перечень исследовательских задач. Проведен анализ
существующих математического обеспечения систем управления и принятия
решений в социальных системах. Выявлена наиболее актуальная задача прогнозирование уровня качества при обучении. Объектом управления в
системе высшего образования определен обучающийся, будущий специалист,
дипломированный выпускник учебного учреждения. Предложена общая
постановка
решения
специалистов.
задачи
Проведено
прогноза
уровней
рассмотрение
качества
литературных
подготовки
источников,
наибольший интерес был вызван информационными системами (ИС)
организационных систем управления. Поскольку при разработке подобных
ИС роль и влияние эксперта на инженера по знаниям малы за счет
использования экспертных знаний, накопленных в архивных документах.
В диссертационном исследовании входными данными ИС определены
данные архивной информации. Из неё выделены два рассматриваемых
информационных потока - экспертная информация (результаты экзаменов за
все сессии) и параметры рукописных текстов письменных вступительных
экзаменов по русскому языку.
Вторая глава посвящена описанию разработки математических моделей
при создании ИС для задач управления процессами в вузе.
Рассмотрены
количественные
показатели
определения
уровня
академической успешности (АкУсп) обучающегося. Показано, что средний
балл обучающегося за весь период обучения не может служить объективным
13
показателем оценки успешности овладения им материалом за время обучения
и, следовательно, отнесения обучающегося к числу высокоуспешных или
слабоуспешных студентов. В результате анализа экспертной информации
установлен параметр В – «среднесеместровый усеченный балл».
Разработана модель текста, использующая информационные показатели
текста – синтаксические параметры текста.
В результате поиска классификационных границ для решения задач
управления и принятия решений в системе ВПО разработаны алгоритмы и
математические модели прогнозирования уровней качества: 1) созданная с
применением методов регрессионного анализа – МГрР; 2) основанная на
применении методов максимального правдоподобия и факторного анализа –
МГрВ.
Третья глава содержит описание разработки алгоритмов и методик
учета и анализа уровней качества подготовки специалистов с использованием
разработанных
математических
моделей.
Построена
схема
алгоритма
нахождения границы между двумя классами АкУсп. Разработан алгоритм
создания модели текста. Описана методика анализа разработанных моделей
классификационных границ. Рассмотрены критерии анализа характеристик
качества разработанных математических моделей.
В четвертой главе на основе разработанных в диссертационном
исследовании алгоритмов, моделей и методик для создания информационной
системы учета и анализа уровней качества подготовки специалистов,
предложена функциональная модель ИС в нотациях IDEF0 и декомпозиция
контекстной
диаграммы
функциональной
модели
А0.
Описаны
информационные и функциональные модели системы. Разработана модель
текста, применяя которую создана база данных «Свиток» синтаксических
параметров текста.
В результате проведенного анализа разработанных математических
моделей классификационных границ уровней качества выбрана модель МГрВ,
обладающая большей эффективностью прогнозирования по сравнению с
14
моделью МГрР.
Построенные классификационные границы между всеми выявленными
уровнями АкУсп показали, что результат, прогнозируемый с помощью
разработанных математических моделей МГрВ для различных границ уровней
АкУсп, совпал с реальными результатами от 73 до 89% случаев для различных
уровней качества подготовки специалистов.
В заключении подведены итоги и отражены основные результаты и
выводы исследований, полученные в данной диссертационной работе,
описаны перспективы дальнейшей разработки темы.
В разделах приложения приведены экспериментальные данные и
результаты теоретического и практического исследования, копии документов
о внедрении результатов работы.
1 СОСТОЯНИЕ ПРОБЛЕМЫ ПРОГНОЗИРОВАНИЯ
ОЦЕНКИ КАЧЕСТВА В ОРГАНИЗАЦИОННЫХ
СИСТЕМАХ
Прогнозирование на ранних стадиях обучения, еще при поступлении в
вуз, уровня качества усвоения обучающимся учебных программ даст
возможность заранее сформировать комплекс уже решенных вопросов.
Например, таких как прогноз количества мест в магистратуре, аспирантуре,
численность преподавательского состава, оплата труда и пр.
Переход на многоуровневое образование в России обязательно породит
вопрос об индивидуальной тьютор-навигации [13] обучающегося, созданием
службы академических консультантов [15] – организации помощи в выборе
его уникальной траектории движения в образовательном пространстве, когда
необходимо будет учитывать не только особенности его специализации в
процессе обучения, но и психологические личностные характеристики.
1.1 Основные понятия системы менеджмента качества
в сфере образования
Качество — сумма характеристик объекта, относящихся к его
способности удовлетворить установленные и предполагаемые потребности в
соответствии
с
его
назначением.
Система
качества
–
совокупность
организационной структуры, методик, процессов и ресурсов, необходимых
для
общего
руководства.
С
1987
года
существуют
разработанные
международные стандарты на системы качества – International Organization for
Standardization серии ISO 9000.
Проблемы качества образования решаются в ходе измерения, анализа и
улучшения
процессов
системы
образования.
В
соответствии
с
разработанными международными стандартами (прежде всего, ISO 9000, 9001
16
и 9004) в Европе развиваются системы контроля и оценки образовательной
деятельности в образовательных учреждениях, анализируются процессы
предоставления образовательных услуг.
На сегодняшний день национальный стандарт Российской Федерации, в
котором
содержатся
«руководящие
указания
для
учреждений,
предоставляющих образовательные услуги, по внедрению результативной
системы менеджмента качества (СМК), соответствующей требованиям ГОСТ
Р ИСО 9001-2001» – это ГОСТ Р 52614.2-2006 «Системы менеджмента
качества в сфере образования» [40].
В нем определены основополагающие понятия, в том числе:
а) образовательный
процесс
–
процесс
создания
образовательной
продукции (предоставление образовательной услуги);
б) образовательная услуга (продукция) – услуга (продукция) связанная с
образованием;
в) поставщик образования – лицо, предоставляющее (поставляющее)
образовательную услугу обучающимся.
Также в ГОСТе утверждается, что повысить результативность и
эффективность учебного процесса возможно, опираясь на установленные
требования по оценке образовательных процессов. Этими процессами
образовательных учреждений, предоставляющие образовательные услуги,
могут быть и «процесс обучения студентов и его оценка» и «итоговая оценка с
присвоением
обучающемуся
академической
степени,
присуждаемой
в
соответствие с дипломом».
Подчеркивая важность процессного подхода в модели системы
менеджмента
качества,
схема
которой
представлена
на
рисунке
1,
предлагается применять его для «достижения результатов выполнения
процессов и их результативности» и «постоянного улучшения процессов,
основанного на объективном измерении» [40]. Кроме того определена
необходимость фиксировать записи о результатах, полученных на каждом
17
«этапе учебно-педагогического процесса (представления образовательных
услуг)».
Рассмотрено
место
в
системах
менеджмента
качества
«оценки
достижений обучающихся» для выполнения поставленных образовательных
целей. Среди выходных данных могут присутствовать и «приобретенные
знания и навыки обучающихся».
Рисунок 1 – Модель системы менеджмента качества
Подробно описывая разнообразные характеристики учебных процессов:

количественные
(время
обучения,
интенсивность
отчислений
и
увольнений, надежность и валидация экзаменационных оценок и др.)

качественные (степень взаимодействия родителей или предпринимателей
с образовательным учреждением и др.),
в
стандарте
утверждается
результативности
и
необходимость
эффективности
«стремиться
процессов»
к
улучшению
жизненного
цикла
предоставления образовательных услуг в образовательном учреждении.
1.1.1 Обоснование выбора показателей образовательного
процесса для анализа разнородной информации
Применяя процессный подход, описанный в ГОСТ Р 52614.2-2006, в
данной исследовательской работе рассматривается объект системы высшего
18
образования, подсистема «обучающийся» как элемент системы образования,
получающий образовательные услуги в высшем учебном заведении [40]. Или,
как представлено на рисунке 1, «Продукция» – на выходе модели
менеджмента качества. Выделены выходные показатели образовательного
процесса: результаты экзаменов, как изображено на рисунке 2.
Рисунок 2 – Подсистема «обучающийся» образовательной системы
Используя системный анализ подсистемы «обучающийся» между
выбранными для исследования и анализа выходными данными возможно
определить связь. Разработав математическую модель, которая будет
описывать изучаемое явление, выявится понимание функционирования
организационной системы ВПО, что даст возможность управлять ею.
Результат анализа корреляций между параметрами экзаменов при значимых
результатах даст возможность повысить эффективность функционирования
образовательной системы.
Специалистами выявлено, что при сдаче экзаменов студент проявляет
индивидуальные
особенности
передачи
информации,
личностные
особенности психики [41] и мышления [42], поскольку в процессе любого
экзамена личность находится в условиях экстремальной стрессовой ситуации
[43]. Эта ситуация примечательна тем, что экзаменуемый, прежде всего,
обладает строго ограниченным отрезком времени, необходимым для
выполнения экзаменационного задания, и персональный экзаменационный
вопрос становится известен только непосредственно на экзамене. И, кроме
того, экзаменаторы и место проведения теста, экзамена, чаще всего
неизвестны и незнакомы.
19
1.1.2 Анализ показателей образовательного процесса
Проблема качества обучения включает в себя задачи контроля и оценки
качества обучения и задачи управления качеством обучения (ISO 9004). При
рассмотрении понятия «качество обучения» с точки зрения различных
субъектов управления (студент, преподаватель, образовательное учреждение,
министерство, работодатель) создаются различные подходы [40] к описанию
его смысла.
СМК в образовании предлагает выделять и анализировать выходные
данные
«планирования
качества
продукции»
на
каждом
из
этапов
«жизненного цикла» продукции. Следовательно, в виде одного из показателей
качества образовательного процесса возможно использовать данные об
академической успешности студента [35-38, 44, 45], как показатель качества
уровня усвоения учебного материала (дисциплин) объектом обучения.
Успешность – способность и умение достигать успеха. Успешность в
любом процессе – это означает удачно достичь поставленной цели. Считается,
что степенью успешности усвоения учебных предметов учащимися является
успеваемость как степень полноты, глубины, сознательности и прочности
знаний, умений и навыков, усвоенных учащимися в соответствии с
требованиями учебной программы. Для студента – это получение знаний,
умений, навыков, профессиональной компетенции [18, 31], степень которых
устанавливается
федеральными
государственными
образовательными
стандартами – ФГОСами – стандартами высшего образования, официально
подтверждаемые выдачей диплома высшего учебного учреждения.
Академическая успешность (АкУсп) студента, «успешность обучения»
(Б. Ананьев), академическая успеваемость определяется в процессе обучения
в высшем учебном заведении [36, 37]. Она имеет обязательную часть:
постоянную и непрерывную проверку полученных знаний, которая может
быть текущей, контрольной и пр. [38, 39].
20
Результаты академической успеваемости: итоги зачетов, отметки,
оценки, баллы, полученные в процессе сдачи проверочных работ
(контрольных, семестровых зачетов, экзаменов и т.д.), строго фиксируются в
официальных документах учебного заведения.
Исследованием проблемы «учебной успешности» [19, 23, 27, 37, 45]
занимались специалисты различных направлений. В таких областях, как
педагогика и психология, широко известны работы Б. Ананьева, В.
Дружинина, Н. Кузьминой, Н. Довгалевской, Н. Мешкова, Л. Образцовой и
др. Также ими рассматривались влияние интеллекта на учебную деятельность,
в том числе изучалось и такое явление, как неуспеваемость обучаемых.
Исследователями использовались разнообразные описания понятия «учебная
успеваемость», при его введении анализируя чаще всего профессиональные
компоненты узко специфической направленности (В. Блинов, И. Зимняя, В.
Беспалько и др.).
Изучаются различные факторы, которые оказывают влияние на
академическую
психологические,
успеваемость.
так
и
Рассматриваются
разнообразные
социально-демографические
как
характеристики
обучаемых: семейное положение, пол, здоровье, мотивации, умственные
способности, личностные качества [30, 38, 44, 17] и прочие особенности.
Российская система образования исторически имела разнообразные
подходы к атрибуции уровня знаний. Отметка необходима для утверждения
степени усвоения образовательного стандарта по конкретному предмету.
Отметка – это зафиксированный в баллах результат обучения. Часто для
поиска критерия успешности проводятся исследования, используя средний
экзаменационный балл [25, 45-47] по конкретным предметам или за весь цикл
обучения или за определенный временной отрезок, например за год.
Соотнесение фактических результатов с установленными нормативами,
производится отдельными людьми, экспертами в сфере образования,
например, преподавателем, или коллегиальным органом экспертов (например,
21
членами
государственной
аттестационной
комиссии
(ГАК)).
Такое
оценивание качества знаний в той или иной степени субъективно [48-51].
Считается, что методика, применяя которую диагност минимально
оказывает влияние – это тесты интеллекта, способностей и достижений, а также
опросники и пр. [52]. Наиболее распространенные – тесты интеллекта, по
которым определяют «уровни… мышления, памяти…» [33-35]. Эта группа
тестов относится к тестам общих способностей. Они являются достаточно
сложными и длительными, поскольку состоят из ряда субтестов. И часто
предполагают использование совокупности методик, предназначенных для
измерения отдельных черт интеллекта (Ф. Гальтон, Дж. Кеттелл, А. Бине,
Т. Симон, Р. Амтхауэр, Ч. Спирмен, Л. Терстоун, Г. Айзенк и др.).
Для диагностики умственного развития выпускников средней школы и
абитуриентов авторским коллективом психологов ПИ РАО был разработан
Тест Умственного Развития Абитуриентов и Старшеклассников – АСТУР [36,
53]. С помощью 9 субтестов имеется возможность прогнозировать успешность
последующего обучения старшеклассников в различных по профилю
факультетах (вузах), применяя корреляционный анализ между результатами
теста и величинами проходных баллов в вуз [37].
Американские профессионалы широко применяют тесты, которые чаще
всего используются для оценки успешности по конкретному курсу или по
целостной учебной программе. Так для определения уровня обучения в
институте, на который должен быть зачислен абитуриент, применяют
специальные тесты SAT II [33] – Scholastic Aptitude Test, а для поступления в
магистратуру, аспирантуру – тесты GRE Subject Tests [34] – Graduate Record
Examination, которые оценивают достижения выпускников вузов в различных
научных дисциплинах.
Также широко используются и эмпирические методы. Одним из наиболее
доступных и самым широко применяемым диагностическим методом в
образовательном процессе – метод анализа продуктов деятельности (творчества)
обучающихся: изобразительного творчества, музыки, текстов, а именно
22
«ученических изложений, сочинений, конспектов, комментариев…» [19].
Тем не менее, существуют проблемы использования тестов. Часто
школьник, который хорошо пишет тесты, не всегда оказывается способным
студентом и наоборот. Между тем и у тестов, и у экзаменов как одного из вида
тестирования есть общие недостатки:
–
«привыкаемость»
при
повторных
тестированиях
(система
репетиторства, «натаскивания» по предмету экзамена);
– существование сильной зависимости между измеряемой величиной и
самой процедурой измерения этой величины;
– субъективность (экзаменаторов - экспертов).
При этом указано на существование реальных сложностей для широкого
распространения объективного тестирования [56]. Крупным недостатком
тестов, который сдерживает их широкое применение, является дороговизна
как создания самих тестов, организации проведения, так и дальнейшей
интерпретации специалистами полученных результатов. Вследствие чего
массовое использование психологических тестов имеет место исключительно
в развитых странах мира, где тесты рассматриваются как «орудие
государственной политики» [35]. В современной отечественной практике
психодиагностика осуществляется только в тех сферах, где не допускаются
ошибки профессионального отбора или исключительно в научных целях.
1.2 Применение информационных систем для анализа
уровней качества
1.2.1 Анализ современных информационных систем
Для
приобретения
и
передачи
распределения
информации
предпочтительно создавать информационные системы, системы, работающие
совместно со связанными организационными ресурсами, такими как
человеческие. Для конкретной предметной сферы деятельности формируются
23
специфические системы, результатом работы которой является формирование
новой информационной продукции.
На сегодняшний день выделяются в хорошо различимый кластер
специальные программы – экспертные системы (ЭС), использующие выводы
из баз знаний, созданных из человеческих экспертных знаний. Диапазон,
решаемых ЭС стандартных задач, широк и многообразен: от извлечения
информации из первичных данных и распознавания дефектов до структурного
анализа сложных систем.
Количество разработанных баз знаний информационных систем с
каждым годом активно растет. Наиболее удачные системы совершенствуются
и на их базе могут создаваться модификации, применяемые и в других
областях знания. Так параллельно с MYCIN [55, 56] в Стэнфордском
университете была разработана система PROSPECTOR, благодаря работе
которой были открыты новые месторождения полезных ископаемых.
Российскими специалистами из Института систем информатики в
Новосибирске в конце 90-х годов была создана DI-GEN [57] – система,
применяемая как в медицинской области, так и при оценке технического
оборудования.
В настоящее время количество существующих информационных систем
превысило
сотни
тысяч.
Предметные
области
их
применения,
инструментальные средства разработки всевозможные [57-60], но все
экспертные системы, одного из вида информационных систем, как показал
проведенный анализ литературных источников, можно проанализировать по
классификационным
признакам,
выбранным
в
результате
анализа
и
приведенным на рисунке 3.
Как показал анализ спектра существующих информационных систем в
областях обучения и прогнозирования, они широко применяются и активно
развиваются. Наиболее всего – при тестировании, диагностике ошибок,
проверке и контроле знаний [61, 62].
24
Экспертные
системы
Области
применения ,
типы решаемых
задач
Проблемные
области
Интерпретация
данных
Медицина
Безопасность
Диагностика
Геология ,
металлургия
Мониторинг
Транспорт
Конструирование
Нефте- и газовая
промышленности
Проектирование
Космос
Контроль
Энергетика
Прогнозирование
Военное дело
Отладка
Химия
Планирование
Финансы ,
банковское дело
Инструктаж
Образование
Обучение
Вычислительная
техника,
телекоммуника ции и связь
Управление
Языки
программиро вания
Представление
знаний
По связи с
реальным
временем
Модели
Обычные
Специальные
Логические
модели
(таблица
решений )
Pascal
LISP, CLIPS,
COOL
Динамические
Продукционные
модели
Java
Python
Квазидинамические
Семантические
сети
C++
SQL
Статические
Фреймы
Рисунок 3 – Классификация экспертных систем
25
Кроме того, выявлена редкость использования в ЭС архивных данных
для анализа скрытых закономерностей, позволяющие выявить тенденции,
неочевидных простому глазу. Применение ЭС в области мониторинга и
прогнозирования качества подготовки специалистов наиболее востребовано
[63].
1.2.2 Принципы разработки и построения ИС
Процесс разработки ИС – это многоэтапный процесс, базовый этап
которого для ЭС, описан подробно в работе [64]. В классической системе при
разработке используются знания эксперта – лица, обладающего «экспертными
знаниями в определенной области», имеющего специальные знания и навыки,
которыми обладают далеко не все люди. Инженер по знаниям, ведя диалог с
экспертом (или экспертами), как представлено на рисунке 4, проводит
формализацию
знаний
–
«переводит»
профессиональные
знания
специалистов, определения, ими используемые, и высказывания на язык,
доступный пониманию компьютера – разрабатывает базу знаний ЭС.
Диалог
Эксперт -человек
Инженер по
знаниям
Явно
выраженные
знания
База знаний ЭС
Рисунок 4 – Процесс разработки экспертной системы
По связи с реальным временем классическая ЭС как правило, имеет в
составе основные модули, изображенные на рисунке 5:
– база данных - для хранения исходных и промежуточных данных (фактов);
– база знаний - для хранения долгосрочных данных (правил);
– диалоговый компонент (инженера по знаниям с базами).
Пользователями системы являются и инженер по знаниям, и конечный
пользователь системы.
26
Система, проходя в своем развитии общие этапы от техникоэкономического обоснования проекта через создание прототипа системы,
достигает после исправления ошибок последнего этапа жизненного цикла
(ЖЦ) – проведения оценки готовой системы. Эти процессы элементарно
описываются, используя классическую модель процессов ЖЦ программных
средств [65] – каскадную модель ЖЦ развития ПО, или её модификацию –
спиральную.
Рисунок 5 – Структура экспертной системы
Создавая прототип ИС, в который входит и базы данных и другие
подсистемы, применяется первоначальный цикл спиральной модели ЖЦ,
включающий последовательно этапы: планирование, приобретение знаний,
кодирование знаний и оценку прототипа экспертной системы [64].
1.2.3 Идентификация и выбор источника знаний
Для повышения надежности и эффективности передачи данных в
информационную систему, выявив и выбрав источник знаний, необходимо
проанализировать результаты приобретения знаний и осуществить оценку
полученных знаний.
При выборе архивных документов обучающихся, которые хранятся в
отделе кадров учреждения, анализируется задокументированная экспертная
информация по качеству подготовки специалистов. Используя этот источник,
27
упрощается этап взаимодействия инженера по знаниям с экспертами, и
уменьшается время сбора предварительной информации, необходимой для
создания БЗ. Таким образом, повышается эффективность и надежность
процессов обработки и передачи данных и знаний в информационной системе.
Несомненно, проще создать систему, такую как представленную на рисунке 6,
в которой «знания получены от многих людей, из документов» [64] архивных источников.
Рисунок 6 – Структура экспертной системы без явного эксперта
Рассматривая экспертную информацию, которая зафиксирована в
документах отдела кадров, определяются параметры результатов экзаменов
как вступительных, так и семестровых. Также в этих документах присутствует
и дополнительная информация: параметры других, а именно письменных,
экзаменов,
которые
имеют
экспертную
двухуровневую
оценку
(положительная или отрицательная: письменная работа зачтена или не
зачтена).
В
диссертационном
исследовании
выдвигается
гипотеза
о
существовании связи между результатами экзаменов, как схематично
представлено на рисунке 7.
28
Рисунок 7 – Связь результатов экзаменов
Для ее подтверждения необходимо провести анализ экспертных данных
и параметров других экзаменов и выявить неявные закономерности между
ними и разработать математическую модель или модели, которые лягут в
основу создания прототипа информационной системы учета и анализа
уровней качества специалистов.
1.3 Прогнозирование уровней качества подготовки
специалистов
Разработка
экспертными
математических
данными
и
моделей,
параметрами
выявляющих
текстов,
связь
даст
между
возможность
спроектировать и разработать модуль анализа и прогнозирования, создав тем
самым оболочку ЭС прототипа экспертной системы.
Благодаря использованию информационной системы будет возможно,
еще на стадии поступления в вуз, установить с определенной степенью
достоверности, к какой категории выпускников (уровню качества обучения)
будет относиться абитуриент по будущим результатам обучения в вузе.
Таким образом, возникает задача построения информационных систем
способных
провести
специалистов.
учет
и
анализ
уровней
качества
подготовки
29
Выявляемые параметры экзаменов, обнаруживающие абитуриентом ещё
на стадии поступления в вуз, позволят заблаговременно дать прогноз таких
важных
для
любого
высшего
учебного
заведения
показателей
как
необходимое количество мест в магистратуре и аспирантуре, численность
преподавательского состава, оплата труда и пр.
При сдаче экзаменов студент проявляет индивидуальные особенности
передачи информации, врожденный психотип высшей нервной деятельности,
личностные особенности психики и мышления, поскольку в процессе любого
экзамена личность находится в условиях экстремальной стрессовой ситуации.
В данном диссертационном исследовании считается, что экзамен, как
правило, это стрессовая ситуация, в которой студенту предлагается решить за
ограниченный, небольшой отрезок времени одну или несколько задач
достаточно высокого уровня сложности, чтобы по результату решения этих
задач можно было бы оценить объем и глубину знаний по предмету.
Собственно, сама успешность сдачи экзамена слагается из двух
компонент – студент обязан знать, из чего строится результат ответа на
экзаменационные задачи (вопросы), и должен уметь этот результат достигать
в экстремально ограниченное время – времени подготовки на вопросы
экзаменационного билета и времени ответа на дополнительный вопрос.
Совсем
не
обязательно,
что
«оптимальные»
пропорции
между
декларативными и процедурными знаниями [54] должны быть одинаковыми
для всех студентов. Одному студенту, скажем, с хорошей памятью легче к
экзамену заучить (механически запомнить – «зазубрить») как базовые
определения, так и множество вариантов решений. Другому студенту, легко
выполняющему процедурные операции, достаточно знать необходимый
минимум, а промежуточные результаты он успевает на экзамене в короткие
сроки найти, быстро комбинируя варианты. Третьего же студента «не
подводит интуиция», и он «угадывает» путь решения задачи, не затрачивая
сил на комбинаторику.
Следовательно, успешный студент – тот, кто способен проявить свои
30
лучшие индивидуальные качества в экстремальных условиях экзамена.
1.3.1 Оценка качества в сфере высшего образования
Проблемы качества образования решаются в ходе измерения, анализа и
улучшения процессов системы образования. В Европе развиваются системы
контроля и оценки образовательной деятельности в образовательных
учреждениях, анализируются процессы предоставления образовательных
услуг.
Качество в терминах системы менеджмента качества ГОСТ ISO 9000
определяется
как
«степень
соответствия
совокупности
присущих
характеристик требованиям». Оно обладает градацией: «класс, сорт, категория
или разряд, соответствующий различным требованиям к качеству продукции,
процессов или систем» [66]. Это сумма характеристик объекта относится к его
способности удовлетворить установленные и предполагаемые потребности в
соответствии с его назначением.
На сегодняшний день национальный стандарт Российской Федерации, в
котором
содержатся
«руководящие
указания
для
учреждений,
предоставляющих образовательные услуги, по внедрению результативной
системы менеджмента качества (СМК), соответствующей требованиям ГОСТ
Р ИСО 9001-2001» в сфере образования, – это ГОСТ Р 52614.2-2006 [67].
В нем отмечается, что повысить результативность и эффективность
учебного процесса возможно, опираясь на установленные требования по
оценке образовательных процессов. Этими процессами могут быть и «процесс
обучения студентов и его оценка» и «итоговая оценка с присвоением
обучающемуся академической степени, присуждаемой в соответствии с
дипломом». Также проводится описание характеристики учебных процессов:
количественные (время обучения, интенсивность отчислений и увольнений,
надежность и валидация экзаменационных оценок и др.) и качественные
(степень
взаимодействия
родителей
или
предпринимателей
с
31
образовательным учреждением и др.).
1.3.2 Анализ результатов приобретения знаний, оценка
полученных знаний
Проблема качества обучения включает в себя задачи контроля и оценки
качества обучения и задачи управления качеством обучения [68]. СМК в
образовании предлагает выделять и анализировать выходные данные
«планирования качества продукции» на каждом из этапов «жизненного
цикла» продукции. Следовательно, в виде одного из показателей качества
образовательного процесса допустимо применять данные об академической
успешности
студента,
академических
достижений
обучающегося
как
показателя качества уровня усвоения учебного материала (дисциплин).
Успешность в любом процессе – это степень достижения поставленной
цели. Считается, что степенью успешности усвоения учебных предметов
учащимися
является
успеваемость
как
степень
полноты,
глубины,
сознательности и прочности знаний, умений и навыков, усвоенных
учащимися в соответствии с требованиями учебной программы. Для студента
– это получение знаний, умений, навыков, профессиональной компетенции
[31, 39], степень которых устанавливается федеральными государственными
образовательными стандартами, ФГОСами, официально подтверждаемые
выдачей
диплома
высшего
учебного
учреждения.
Эти
данные
по
академической успешности выставляются экспертами, специалистами –
преподавателями,
Академическая
оценивающими
успешность
результат
студента,
ответа
«успешность
на
экзамене.
обучения»
[49],
академическая успеваемость определяется в процессе обучения в высшем
учебном заведении [32, 69].
Также изучаются и различные факторы, которые оказывают влияние на
определение академической успеваемости. Анализируются разнообразные как
психологические,
так
и
социально-демографические
характеристики
32
обучаемых: семейное положение, пол, здоровье, мотивации, умственные
способности, личностные качества и прочие особенности.
1.3.3 Модели прогнозирования уровней подготовки
специалистов
При анализе закономерностей исследователи используются не только
статистические методы, но и другие или их комбинации. Некоторые
разработанные
модели
прогнозирования
успеваемости
обучающихся
представлены в таблице 1.
Прогнозирование успеваемости при обучении студентов, как показал
анализ литературных источников, проводится чаще всего с использованием
регрессионных моделей, учитывающие разнообразные предикаты. Широко
используется метод пошаговой регрессии.
Также интенсивно применяются нейронные сети. Либо на основе
тестирования по разработанным за рубежом технологиям в области
психодиагностики.
Таблица 1 –Методы, модели и учитываемые факторы
Методы
Прогнозные модели
Прогноз успеваемости по дисциплинам
Регрессионный
анализ [38]
парная корреляция
Отметки по дисциплинам:
y  0,6139  0,1389 Х 1  0,2919 Х 2 - 0,0512 Х 4 Х – математика, Х – физика, Х – теоретическая механика,
1
2
3
- 0,3792 Х 6 - 0,0801 Х 3  0,4637 Х 5 
Х4 – сопромат, Х5 – детали машин, Х6 – электротехника,
 0,0578 Х 7  0,5036 Х 8
Х7 – технология конструкций _1, Х8 – технология конструкций_2
Пошаговая
регрессия,
Независимые переменные
успеваемости студентов
Х1 – средний балл за ЕГЭ, F2– занятие после учебы, F3 – место
Прогнозирование успеваемости студентов
проживания, F4 – финансовое положение, F5 – «умение использовать
y  2,563  0,03  X 1  0,451  F4
знания других», F6 – цель обучения, F7 – здоровье студента,,
[30]
F8 – романтическое увлечение
- место жительства;
Нейронные сети
[44]
Прогноз принадлежности
классу «перспективных студентов» или
классу «студентов с низким рейтингом»
- номер школы, выпустившей абитуриента;
- выпускная оценка по физике при окончании школы;
- выпускная оценка по математике;
- профессия родителей;
- сведения о семейном доходе
- размер букв;
Психодиагностика
текста [17]
Прогнозирование успеваемости при обучении
- размашистость и сила нажима;
студентов по признакам почерка
- наклон букв;
- характер написания слов и т.д.
34
В практике современной высшей школы все академически успешные
студенты, т.е. студенты, успешно завершившие обучение (получившие
диплом) в вузе, официально делятся на две категории: «Отличники»,
получившие «красный диплом» - диплом с отличием, и «Остальные».
Исследуя уровни академической успеваемости, можно применять заранее
заданную трехуровневую порядковую шкалу, как, например, предложено в
работе [45].
По этой шкале получаются следующие уровни качества:

если средний балл за всё время обучения превышает 4,5,
обучающийся относится к категории  A . Это не обязательно отличник, но
выпускник с академической успешностью выше средней;

если средний балл за всё время обучения ниже 3,5, обучающийся
относится к категории  С . Это выпускник с академической успешностью
ниже
средней,
как
правило,
сдававший
большинство
экзаменов
на
минимальную положительную отметку;

если средний балл за всё время обучения находится в диапазоне от
3,5 до 4,5, то такой выпускник принадлежит к категории  B . К этой категории
относят
выпускников,
показавших
средний
уровень
академической
успешности.
Однако, как считается в диссертационном исследовании, подобное
конкретное задание границ разделения категорий выпускников величинами
3,5 и 4,5 не всегда адекватно передает динамику процесса успешного
обучения [70].
Кроме того, определенные подобным способом фиксированные границы
в значительной степени соответствуют лишь явно выраженным «отличникам»
(явно выраженным «троечникам»): такие выпускники вуза от семестра к
семестру стабильно сдавали экзамены в основном на «5» баллов –  A
(соответственно, на «3» балла – С ).
Напротив, если выпускник отнесен к категории  B , то при среднем
35
балле за весь период обучения в «4» балла возможно четыре принципиально
различных сценария динамики его академической успешности, как показано
на рисунке 8:
5,0
Средний балл за семестр
5
А
2
4,5
1
В
4,0
4
3,5
3
С
6
3,0
1
2
3
4
5
6
7
8
9
Номер семестра
Рисунок 8 – Сценарии динамики успеваемости студентов для возможных категорий
качества обучения: 1 –  B1 , 2 –  B 2 , 3 – B3 , 4 –  B 4 , 5 –  A , 6 – С
1)
стабильное его обучение в среднем на «4» балла от семестра к
семестру(  B1 );
2)
постепенное повышение успеваемости от «3» к «5» ( B 2 );
3)
постепенное снижение успеваемости от «5» к «3» ( B 3 );
4)
некоторый «случайный» характер динамики оценок (  B 4 ).
Итак, в случае использования рассмотренной выше трехуровневой
шкалы, при варианте  B 2 студент-старшекурсник может быть отнесен к
категории  A , напротив, при варианте  B 3 – к категории С . Остальные
студенты, относящиеся к категориям  B1 и  B 4 , являются представителями
области, разделяющей расширенные таким образом категории  A и С .
Таким образом, делая вывод, в диссертационном исследовании
36
считается, что для чёткого разделения категорий обучающихся  A и С
недостаточно статического показателя среднего балла за весь период
обучения. Вследствие этого возникает необходимость исследовать динамику
изменения среднесеместровых баллов в процессе обучения.
Помимо вышесказанного, требуется уточнение границы, разделяющей
категории выпускников  A и  B , и границы, отделяющей категорию
выпускников  B от категории выпускников С .
Учет динамики позволит оценить, насколько студент качественно
освоил не только общие дисциплины, но и специальные, что, безусловно,
важно особенно для старших курсов, когда работодатели предъявляют
повышенные требования к качеству выпускников.
1.4 Методы анализа текстов
Специалистами было установлено, что отличие высокоуспешного
учащегося (балл за экзамен - 5) от слабоуспешного (экзаменационный балл 3) объясняется различием способов мышления, разницей в «мыслительных
навыках» [71-75] и процессах «кодирования и декодирования речевой
информации» [72], которые и определяют характер письменной речи.
Анализируя литературные источники, было выявлено, что одним из
наиболее доступных и самым широко применяемым диагностическим
методом в образовательном процессе считается метод анализа продуктов
деятельности (творчества) обучающихся: изобразительного творчества,
музыки, текстов, а именно «ученических изложений, сочинений, конспектов,
комментариев...» [19].
Вследствие этого в дополнении к экспертным оценкам уровней качества
образования, академической успешности, правомерно рассматривать параметры
письменных работ тех же студентов для проведения анализа уровней качества
подготовки специалистов на основе анализа их письменной речи.
Как известно, получив задание на письменную экзаменационную
37
работу, экзаменующийся подсознательно оценивает параметры внешних
стимулов, например, время, отпущенное на экзамен, сложность темы
изложения, ее делимость на части и т.д. Абитуриент реализует свойственный
ему механизм решения задач. В соответствии с этим у него формируется
мнение о том, какую наилучшую структуру должна иметь письменная работа.
Ему необходимо представить из скольких слов, предложений и абзацев (фраз)
должен состоять текст. Кроме того, необходимо выбрать уровень сложности
предложений, которыми экзаменующийся считает возможным для себя
воспользоваться. Последнее немаловажно, поскольку абитуриенту, кроме
раскрытия темы, нужно не допускать грамматические и прочие ошибки,
снижающие вероятность удачного прохождения экзамена.
Изучения рукописных текстов, письменной речи (ПсРч), применительно
к образовательному процессу, имеют широкий спектр [72-76], в том числе
освоения второго (иностранного) языка (Б. Беляев, А. Леонтьев, И. Зимняя,
И. Халеева) и разрешение логопедических проблем коррекций нарушения
письменной речи [77].
Исследователями было установлено, что речевая деятельность человека
тесно связана с его сознанием [78-80], интеллектуальной деятельностью
(познанием, творчеством и т.д.) и психоэмоциональными особенностями.
Индивидуальные
характеристики
речи
имеют
корреляцию
с
психофизиологическими особенностями личности, таким как темперамент,
память, внимание. Также было выявлено, что проявление психологического
аспекта личности [81, 82] в речи обусловлено тем, что речь, образованная в
нормальных эмоциональных условиях, отличается по строению от речи,
созданной при нестандартных ситуациях.
Как было показано исследователями, язык тесно связан с мышлением.
Человеческая речь, возникшая как психосоциальное орудие, была необходима
для организации существования личности в сообществе, как средство для
передачи мысли в информативных целях или побудительной к действию [83,
84]. Исследователями считалось, что язык – «проявление человеческого духа»
38
(В. Гумбольдт), а «логика мысли отражается и в логике языка» (Р. Декарт).
Несмотря на обилие различных методик [85] измерения и анализа
данных, практически всеми разработчиками методик построения тестов
отмечается [52], что при создании и последующем использовании тестов
достижений из всех психических функций оказываются задействованными,
прежде
всего,
функции
долговременной
и
кратковременной
памяти,
процедурной и декларативной памяти [53, 54]. При этом подчеркивается, что
кратковременная
память
человека
является
устойчивой
личностной
характеристикой [86], по которой можно судить об интеллектуальных
возможностях человека. В частности, имеется ряд экспериментальных фактов,
подтверждающих
«связь
объема
кратковременной
памяти
с
общими
психометрическими показателями интеллекта» [16]. Кроме того выявлено
подобие поведения параметров памяти законам информационных показателей
[87], например, характер и способы обработки, хранения и воспроизведения
человеческим мозгом информации, знаний («волшебное число 7±2» Миллера
[88]).
В науке о речевой деятельности различают несколько видов речи,
выделяя чаще всего три основных типа: внутренняя, устная и письменная
(Л. Выготский и др.) [73, 74, 83, 84, 89]. Каждая из видов речи
характеризуется своим способом реализации действия и специфическими
законами формирования [90], поэтому существуют «отличия в порождении и
восприятии» [91] человеком каждой из них.
Авторская письменная речь изучается в виде текста – законченного
высказывания. Как определяют лингвисты, текст – это макроединица языка, и
он состоит из иных психолингвистических единиц языка и грамматических
единиц речи: слов, словосочетаний, фраз и др. [91, 92]. Описывая лексикограмматический строй, исследователи применяют и другие единицы:
морфема, словоформа, синоним, словосочетание, синтаксема и т.д.
Разработчики лингвистических продуктов при анализе графической
речи, как «продукта речевой деятельности» [91], используют различные
39
модели и определения текста. Так, по подсчетам Ю. Сорокина [93],
существует около 250 различных определений понятия «текст». Эта же
неоднозначность
относится и
к
определениям
составляющих
текста,
например, «синтагме».
Психологи изначально отмечали то, что для того, чтобы выразить
мысль, оформить высказывание, нужен анализ не просто множества ключевых
слов, но и дополнительный анализ такой единицы языка, которая отражает
связь нескольких слов, поскольку её свойство – «создавать целое предложение
или высказывание» [92], – синтагмы.
У специалистов в настоящее время имеется ряд различных подходов к
описанию
термина
«синтагма»,
предложенного
в
практику
русского
языкознания И. Бодуэном де Куртене [94]. Так, например, в работе [95] под
синтагмой понимается основная синтаксическая единица в процессе речимысли, выражающая единое смысловое целое. А в работах [96-99] синтагмой
считается группа слов между грамматическими разделителями внутри
предложения.
Таким образом, синтагма может состоять и из слова, и словосочетания и
даже из группы словосочетаний. Каждый из исследователей независимо
выбирает то или иное описание синтагмы [100], которым он однозначно
оперирует далее в своих научных изысканиях.
Письменная речь является самой доступной для количественного
анализа, поскольку в ПсРч пунктуационные средства легко зафиксировать
документально и использовать их для анализа письменной речи.
1.4.1 Прикладные исследования письменной речи
В современных прикладных исследованиях письменной речи [101-103]
существует множество направлений. Они сформировались в специфические
разделы лингвистики. Это и текстология [104], и стилометрия: атрибуция
анонимных и псевдонимных текстов, в том числе атрибуция литературных
40
произведений (установление автора источников) (Г. Хетсо и др.) [105, 106] и
лингвокриминалистика, и юридическая экспертиза [107] и др.
И каждое из направлений – со специфическими методами и средствами
анализа текстового материала.
В частности, членами российской гильдии лингвистов-экспертов по
документационным
и
информационным
спорам
(ГЛЭДИС),
в
текстометрических исследованиях часто подчеркивается, что надежность
использования психолингвистических индексов зависит от размеров текстов.
Так в работе [107] указывается на нижнюю границу объема текста в 150 слов,
что обеспечивает достоверную атрибуцию психоэмоционального состояния
автора и степень подготовленности (спонтанности) письменной речи. Другие
исследователи [82] приводят значения минимального объема в 250 слов.
Современные
речеведы
рекомендуют
использовать
для
психолингвистического анализа тексты в авторской орфографии и пунктуации
[108].
Одной из центральных работ в области языкознания и исследования
моделей текстов является работа Н. Хомского [90]. Многими исследователями
делаются в разной степени успешные попытки развить концепцию ХомскогоОсгуда [109] «трансформационных грамматик» для анализа естественных и
ряда искусственных (компьютерных) языков.
Параллельно предложены и другие модели, в том числе основанные на
вероятностных подходах [110], таких как цепи Маркова [106]. Они, как
правило,
используются
для
построения
автоматизированных
систем
обработки текстов.
Чаще
всего,
анализ
текстов
сводится
к
изучению
частотного
распределения ключевых слов. В основе предложенных моделей лежит
гипотеза, что для любого класса текстов можно выделить ключевые слова,
встречающиеся со статистически значимой большей частотой. В результате, в
настоящее
время
реализовано
множество
адаптивных
процедур
переоценивания значимости терминов, в которых вводятся характеристики,
41
отражающие «различительную силу» ключевого слова [111], особенно это
получило распространение с развитием информационно-поисковых систем,
интернета. Однако вследствие большой размерности словарей естественного
языка разработчики автоматизированных систем обработки текстовой
информации
неминуемо
сталкиваются
с
проблемами
определения
необходимого и достаточного состава словарей ключевых слов [112, 113].
1.4.2 Модели индексов текстовой информации
Еще до возникновения компьютеров на основе найденных зависимостей
между основными параметрами текста и их отношений (встречаемость
парных буквосочетаний, количество односложных слов в тексте и пр.) были
разработаны текстовые индексы [107, 114-119]. Используя их, возможно
определить не только индивидуальные показатели самого автора текста, но и
аудиторные компоненты.
В
частности,
индекс
Флеша
(The
Flesh
Index)
f
k

FFlesch  206,835   1,015  84,6  , доказательно применялся военными
k
s

психологами после окончания второй мировой войны для установления
авторства анонимных документов на Нюрнбергском судебном процессе.
Индекс Флеша-Кинкейда в настоящее время применяют при определении
возможности публичного опубликования правительственных документов
США.
Индекс
туманности
Ганнинга
FGanning  w  0,4l
помимо
оценки
удобочитаемости теста позволяет определить возраст читателя, которому
будет понятен конкретный текст.
В индексах используются различные параметры текстов, но чаще всего
– указанные на рисунке 9, где
w – средняя длина предложения в словах;
k – общее количество слов в тексте;
42
f – общее количество слогов в тексте;
x – общее количество символов в тексте;
l – среднее количество «длинных» слов (более трех слогов) в тексте;
s – количество предложений в тексте;
L – количество «длинных» слов в тексте.
Рисунок 9 – Используемые параметры текстов в текстовых индексах
В
рамках
современных
исследований
интенсивно
развиваются
разработки количественных индексов текстов и используются более широко
уже проверенные временем. Тем не менее, отдельными авторами [107, 114]
утверждается, что ряд индексов, применяемых для анализа англоязычных
текстов, в силу специфических отличий славянских языков, трудно
адаптируются на письменную русскую, украинскую и белорусскую речь.
1.4.3 Компьютерные программы для анализа текстов
Изначально индексы текстов рассчитывались по данным, «снятым» с
43
ПсРч вручную, поэтому процесс их нахождения был несложным, но
трудоемкими. С развитием информационных технологий были созданы
разнообразные компьютерные программы (некоторые из них представлены в
таблице
7),
которые,
с
одной
стороны
позволяют
оценивать
психолингвистические характеристики того или иного текста, с другой –
способствуют
созданию
текстов
определенной
психоэмоциональной
направленности, некоторые из них представлены в таблице 2. Например, с
помощью
лингвистической
программы
Prostyle
[107]
выявляются
индивидуальные психологические особенности автора текста.
Создатели
отечественных
психолингвистических
компьютерных
инструментов, в частности, экспертной системы ВААЛ, располагая большой
статистической базой, применяя компьютерное моделирование, показали, что
особенности ПсРч конкретного человека, сродни его «индивидуальному
почерку» (В. Белянин) [120]. Разработчики системы считают, что имеют
возможность дать описание индивидуума (его характер, жизненное воззрение,
степень образованности), а также его психоэмоциональное состояние на
момент написания текста
Отмечено, что, проводя описание в моделях смысловой составляющей
текста,
исследователи
указывают
на
необходимость
введения
дополнительного синтагматического уровня членения текстов ПсРч. В этих
случаях в моделях текстов опираются на частотный анализ «ритмики» всей
совокупности языковых структур (синтагм, предложений, фраз).
На
подобных
принципах
группой
профессора
Ю.Попова
были
построены алгоритмы психолингвистического анализа письменной речи
человека, которые реализованы в программном комплексе «Синтаксический
Анализатор Ритмики Текста» – ПК САРТ [96-99], любезно предоставленной
разработчиками компьютерной программы автору диссертационной работы.
44
Таблица 2 –Экспертные системы, определяющие компоненты текста
Название
Определяемые параметры
программы
Предназначение анализа, что определяется
– показатель частотности страдательных
конструкций;
– кол-во лексических единиц, слов в тексте;
– процент сложных слов по префиксам,
Prostyle (США)
суффиксам, количеству слогов;
– средняя длина предложения, прямо
коррелирующая с уровнем образования автора;
– кол-во погрешностей письменного стиля в
В реальном режиме времени анализ вводимого текста и определение
факторов, позволяющие провести статистический анализ значения любых
расхождений в двух исследуемых текстах.
Показатель словарного запаса автора. Степень легкости текста для
понимания. Индексы FOG и Флеша - Кинкейда
Выявление индивидуальных психологических особенностей автора текста.
тексте
IEA (Intelligent
Essay Assessor)
ЛИНГВА-
выявление по заданным семантическим
критериям стилистических ошибок и полноты
Для оценки студенческих работ (эссе) — сочинений на заданную тему.
раскрытия темы
речевое произведение в виде трехзвенной
ЭКСПРЕСС [93] эмпирической модели
Раскрытие психологического содержания. Выявление особенностей
речевого поведения, глубинных психических свойств или характера автора
текста и переживаемых им (в момент порождения текста) состояний.
Определение направленности и степени воздействия текста на читателя.
ВААЛ [120]
лексические элементы текста
Атрибуция личности автора текста. Психологические особенности на момент
написания текста.
Диатон, Аскан
[121]
САРТ [133-135]
лингвистический анализ
количество лексических единиц, частотный
анализ
Проведение анализа текста или создание текстов, предназначенных для
восприятия определенной аудиторией.
Параметрическая оценка текста. Совместимость в группах субъектов.
Определение психоэмоционального типа личности.
45
Авторами этой методики при анализе текстов применяются базовые
параметры: значения количества слов в синтагмах, синтагм в предложениях
и предложений во фразе (абзаце). Исследуя эти показатели, а также величины
их дисперсий, создатели методики строят так называемые «параметрические
портреты текста», позволяющие им оценить характеристики структуры
личности
[97,
122].
Параметрические
портреты
текста
имеют
и
геометрическое представление в виде трехуровневых фигур – триграмм,
некоторые из возможных представлены на рисунке 10.
Рисунок 10 – Триграммы текстов различных авторов
Путем
накопления
статистического
материала
авторами
этой
технологии удалось выдвинуть и подтвердить гипотезу о связи типового вида
триграмм с психоэмоциональными и деятельностными особенностями
авторов изученных текстов. В ходе анализа триграмм текстов различных
авторов исследователями была предложена классификация, указывающая на
возможность существования 13 различных типов психоэмоциональных
состояний
индивидуумов,
и
согласующаяся,
по
их
мнению,
с
психодиагностической схемой Юнга психологических типов человека [123].
Используя 17 разработанных параметров письменной речи, разработчики
программного комплекса САРТ утверждают, что результаты анализа текстов
конкретного человека должны отражать предрасположенность личности к
важнейшим
видам
деятельности:
теоретической,
организационной
и
практической.
Применяя ПК САРТ при рассмотрении исследовательских задач
диссертационной работы, возможно провести анализ текстовой информации.
46
1.5 Схема построения разрабатываемой
информационной системы
Рассмотрение приведенных выше компьютерных программ показало,
что, несмотря на их многообразие и широкий спектр областей применения, ни
в одной из них не ставится вопрос о возможности прогнозирования уровней
качества подготовки специалистов на основе анализа по их письменной речи.
В результате чего в качестве основы для дальнейших исследований была взята
методика ПК САРТ, т.к. она наиболее полно учитывает частотные
характеристики текста, необходимые для создания БЗ разрабатываемой ЭС.
После анализа параметров ПК САРТ текстов письменных работ абитуриентов,
если
они
не
смогут
удовлетворить
каким-либо
критериям
анализа,
необходимо разработать новые количественные текстовые индикаторы.
Таким образом, для создания прототипа ИС, используя структуру
рисунка 4, рассматриваем роль инженера по знаниям. Как видим, при этом
возможно провести анализ экспертной информации, данных качества
обучения, не прибегая к общению с экспертами, поскольку необходимая
информация зафиксирована в официальных архивных документах.
В результате, заносят экспертную информацию и результаты её анализа
в базу данных отметок (БДОтм). И производится рассмотрение, применяемых
в ПК САРТ, текстовых индексов тех же обучаемых, но на стадии абитуриента
– письменных работ по русскому языку. Проверяется нормальность
распределения данных, и, в случае отрицательного результата, проводится
модификация параметров. Текстовые индексы заносятся в Базу Данных
Текста (БДТкст).
Определив структуру ИС и ее виды (функциональная, информационная
и пр.) и спроектировав основные структурные компоненты ИС, устанавливая
для каждого элемента правила организации и функционирования, описав их
47
взаимодействие в течение жизненного цикла системы, будет решена задача
проектирования архитектуры разрабатываемой системы.
Выбранный в исследовании подход построения архитектуры ИС
предполагает создание разработки структуры системы с описанием ее
элементов и их объединение, и их взаимодействие через интерфейсы. Схема
взаимодействия
элементов
системы,
описываемая
этими
принципами,
структура ИС схематично представлена на рисунке 8.
Начало
Архивные
документы
Информация
Экспертная
информация
Текстовая
информация
1
База Данных
Отметок
Модель
Текста
Математичес
кие модели
Анализ
данных
W, S, P, F
Анализ
моделей
Анализ
данных
Выбор
эффективной
модели
Кластерный
анализ
Нормальное
распределение?
да
Конец
нет
Классы
уровней
качества
Модификация
параметров
ПК САРТ
База Данных
Текста
1
Рисунок 11 – Схема взаимодействия элементов системы
48
В результате кластерного анализа определяются классы уровней
качества. А из Базы Данных Текста получают данные текста, по которым
разрабатываются математические модели для построения ИС учета и анализа
уровней
качества
подготовки
специалистов.
Таким
образом,
задача
построения подобной информационной систем будет решена.
1.6 Постановка задач исследования
Итак, в результате анализа работ не выявлено применение в нашей
стране использование семестровых балльных показателей качества обучения и
параметров текста для учета и определения уровней подготовки специалистов.
Предварительно необходимо решить задачу определения показателей
академической успешности.
При этом необходимо решить следующие подзадачи.
а.
Можно допустить, что существует возможность разделить поток
абитуриентов на тех, кто будет успешно и не столь успешно обучаться на
протяжении всего срока обучения. Если это предположение окажется верным,
то следует определить границу между этими двумя группами абитуриентов,
характеризующие
прогнозируемые
предположить,
что
уровни
прямой
качества.
зависимости
Естественно
«семестровый
экзамен» → «конкретная оценка за семестровый экзамен по конкретному
предмету» не может быть обнаружена.
б.
Установить связь между характеристиками письменной речи и
показателями академической успеваемости.
К решению этой задачи можно подойти посредством использования
критериев, характеризующих качество процедуры прогнозирования. В этом
случае целесообразно использовать критерии, основанные на измерении
ошибок первого и второго рода [125-131].
В результате такой постановки получается следующая схема оценки
эффективности
процедуры
прогнозирования
уровней
академической
49
успешности.
На первом этапе методами группирования данных [132, 133], например,
методами кластерного анализа, необходимо произвести разбиение данных
исследований с выделением классов студентов различных по уровню
академической успешности. Такой подход использовался в [29, 134].
На втором этапе возможно применение различных методов обработки
данных, которые рассматриваются как методы классификации объектов,
представляемых геометрическим образом в виде некоторой точки в
многомерном пространстве (в виде вектора признаков классификации).
Следственно, используя параметры анализа текста и экспертные знания,
можно
построить отображения типа:
«исходные тексты
письменных
экзаменов» → «векторы признаков» (результаты обработки индивидуальных
текстов) → «уровни академической успеваемости», найдя классы качества
обучения студентов (из числа успешно завершивших обучение, получивших
диплом, или отчисленных за академическую неуспеваемость).
В такой постановке получается классическая задача распознавания
образов и построения границ разделения классов [47, 129, 134, 135].
Существует ряд подходов к решению подобных задач классификации.
1)
В одноклассовых постановках задач классификации используются
только реализации из обучающей выборки, относящиеся к выборке,
выделенному классу K , без учета текстов, не принадлежащих этому классу.
В этих постановках основанием для классификации нового объекта
является наличие устойчивых (например, корреляционных, причинноследственных, ассоциативных, информационных) связей между элементами
векторов [136, 137].
2)
Наиболее
естественны
и
распространены
двухклассовые
постановки задач классификации. В них обучающая (LEARN) выборка
объектов
LEARN
W K
LEARN
W 
разделяется на два непересекающихся множества:
– множество положительных (принадлежащих исследуемому
50
классу) обучающих примеров и
обучающих
примеров
(по
LEARN
W K
данным
– множество отрицательных
объектов,
не
принадлежащим
исследуемому классу объектов).
Известно, что оптимальным двухклассовым классификатором является
байесовский классификатор [127, 138], но для его построения необходимо
знать априорное распределение вероятностей классов объектов K и условное
распределение вероятностей представителей каждого класса в пространстве
рассматриваемых признаков.
Поэтому часто используются непараметрические методы, такие как
метод ближайшего соседа (метод ближайших n-соседей) [125, 133], метод
потенциалов, методы локальной аппроксимации [139], методы штрафных и
барьерных функций [127] и другие. Поиск решения поставленной задачи с
использованием этих методов связан, главным образом, с оптимизацией
критериев, рассчитываемых из оценок мер схожести объектов как элементов
пространства признаков [140-142].
3)
Решение многоклассовой задачи классификации (например, в
случае, когда студенты окажутся сгруппированными более чем в два
представительных
класса)
наиболее
естественно
проводить
путем
параллельного решения двухклассовых задач.
Также необходимо решить какими именно показателями текста
(рукописного документа, созданного при сдаче вступительного экзамена по
русскому языку) возможно будет провести его анализ.
Основные результаты и выводы по главе 1
1.
Проведен анализ существующих информационных систем и
принципы разработки ИС. Составлена классификация экспертных систем.
Определено кто является экспертом в образовательной системе при
определении уровней усвоения знаний студентами.
51
2.
Описано проведение этапа оценивания полученных знаний после
выявления и выбора источника знаний при управлении в системе высшего
образования. Показана необходимость проведения анализа экспертных
данных
и
параметров
других
экзаменов
для
выявления
неявных
закономерностей между ними и разработки математических моделей
функционирования элементов системы, которые лягут в основу создания
прототипа ИС.
3.
Рассмотрено
применение
в
социальных
системах
информационных систем для анализа уровней качества подготовкип
специалистов и его прогнозирования. Выполнен аналитический обзор,
несмотря
на
наличие
большого
количества
всевозможных
научно-
исследовательских работ, близких по тематике диссертации, выявлена
недостаточная
изученность
вопросов
прогнозирования
академической
успешности. Учитывая слабую степень разработанности темы исследования,
предложено провести идентификацию и выбор источника знаний для
построения
информационной
системы
необходимой
при
управлении
социальной системой, этапов функционирования образовательного процесса
вуза. Было предложено использовать архивные документы, включающие
данные экспертной информации.
4.
Осуществлен обзор существующих методов анализа и моделей
для построения информационной системы поддержки принятия решений для
прогнозирования оценки качества подготовки специалистов в вузе.
5.
Проведено рассмотрение методов анализа текстов, моделей
индексов текстовой информации, созданные и существующие экспертные
системы
анализа текстов. Описан перечень исследовательских задач
диссертации.
52
2 РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ ПРИ
УПРАВЛЕНИИ ИНФОРМАЦИОННЫМИ СИСТЕМАМИ
В СИСТЕМЕ ВПО
Используя экспертную информацию о качестве обучения и данные
архивных источников знаний, необходимо провести их анализ и разработать
математические модели для прогноза уровней качества, которые будут
использоваться при создании прототипа системы.
2.1 Входные параметры информационной системы
При изложении модели классификации АкУсп и при описании таблиц
далее используются следующие разработанные формулы и обозначения:

i – индекс выпускника в экспериментальной базе данных отметок;

H [i ] – номер личного дела i-го выпускника в архиве отдела кадров
МИФИ;
Вместе с индексом i
выпускника.
Индекс
i
номер H [i ] является уникальным для каждого
введен
для
невозможности
осуществить
идентификацию личности выпускника вне экспериментальной базы данных.

K [ji ]
K
[i ]
j
 3; j  1,..., n

–
количество
экзаменов
(где
j–
количество семестров, n – максимальный номер семестра);

a[ji,]k
 j  1, ..., n; k  1, ..., K 
[i ]
j
– отметка i -го выпускника в j -м
семестре по k -му по порядку в базе данных экзамену;

S [ji ]
 j  1, ..., n 
[i ]
– сумма баллов, набранных i -м выпускником в
j -м семестре за K j экзаменов:
53
S [ji ] 

T j[ i ]
 j  1, ..., n 
K [ji ]
 a [ji,]k ;
(2.1.1)
k 1
– сумма баллов, набранных i -м выпускником в
j -м семестре за все K [ij ] экзаменов за вычетом одной самой лучшей и одной
самой худшей отметки в семестре:
 
 
Tj[i ]  S[ji ]  max a[ji,]k  min a[ji,]k .
k
Применение
подобного
k
усечения
(2.1.2)
экспериментальных
данных
способствует сглаживанию случайных выбросов [47] данных эксперимента,
связанных с субъективностью проставления отметок. Это может возникать изза разного подхода преподавателя к качеству оценочной деятельности:
склонностью завышать или занижать оценки [143], что объясняется
различным стилем преподавательского руководства. Также это может
возникать и из-за психологической составляющей в системе отношений
«преподаватель-студент».

A[ji ]
 j  1, ..., n  – средний балл i -го выпускника в
j -м семестре
A[ji ]  S [ji ] K [ji ] ;

B [ji ]
 j  1, ..., n 
(2.1.3)
– средний балл i -го выпускника в
j -м
семестре с учетом вычитания наилучшей и наихудшей отметки в каждом j -м
семестре
B [ji ]  S [ji ] K [ji ]  2 .
(2.1.4)
2.1.1 Показатели академической успешности
Используя
данные
для
каждого
i -го
выпускника,
автором
диссертационного исследования предложено рассчитать ряд альтернативных
статических показателей его академической успешности (ПАУ) за весь цикл
обучения ((2.1.5) – (2.1.8)), представлены в таблице 8.
54
Таблица 3 – Описание показателей академической успешности
Формула
ПАУ
Обозначение
Описание показателей
академической успешности
нахождения
показателей
академической
успешности
n
средний балл (средняя
ПАУ-
A[i ]
1
успеваемость) i – го обучающегося
A[ i ] 
за весь цикл обучения
ПАУ-
B [i ]
2
данным, использованным при
вычислении T j[i ] )
C
3
[i ]
i – го обучающегося за весь цикл
обучения
K
[i ]
j
j 1
n
n
B[i ] 
T
(2.1.5)
j 1
[i ]
j

[i ] 
  K j   2n
 j 1

n
средняя среднесеместровая отметка
ПАУ-
[i ]
j
j 1
средний балл i – го обучающегося
за весь цикл его обучения (по
S
n
C [i ] 
A
[i ]
j
j 1
(2.1.6)
(2.1.7)
n
средняя среднесеместровая отметка
i – го обучающегося за весь цикл
ПАУ-
D
4
[i ]
его обучения (по данным,
использованным при вычислении
n
D[i ] 
B
[i ]
j
j 1
(2.1.8)
n
T j[i ] )
Показатель ПАУ-5 (2.1.11) описан ниже.
2.1.2 Формулы академической успешности
Статистические показатели академической успешности (ПАУ) будем
называть формулами статистики академической успешности обучающегося
(ФАУ).
55
Таблица 4 – Формулы академической успешности
ФАУ
Обозначение
" 345"
ФАУ-1
" 345" [ i ]
L
ФАУ-2
" 345"
ФАУ-3
Первая
из
них
Государственной
K [i ]
–
" 345"
K [i ]
аттестационной
обычно
комиссии
M [i ]
озвучивается
секретарем
на
выпускной
защите
квалификационной работы в виде: «Средний балл дипломника равен A[i ] ; за
все время обучения получено

"345"
В
K [i ] 
"3"
" 3"
K [ i ] троек,
" 4"
K [ i ] четверок, "5" K [ i ] пятерок».
диссертационной
работе
определяется
K [i ] ,"4"K [i ] ,"5"K [i ] как кортеж сводных данных об успеваемости i -
го обучающегося за весь цикл обучения,
" q"
K [i ]
q  3, 4, 5
- количество
троек, четверок и пятерок, соответственно.
Этому кортежу отвечает отметка академической успешности A[i ] .
Легко убедиться, что:
A 
[i ]
Во второй ФАУ
"3"
K [ i ]  3  "4" K [ i ]  4  "5" K [ i ]  5
.
"3" [ i ]
K  "4" K [ i ]  "5" K [ i ]
(2.1.9)
" 345" [ i ]
L не учитываются пары отметок. То есть формула
представляет собой обобщение n семестровых испытаний за вычетом крайних
отметок – по одной паре за каждый семестр.

В исследовании устанавливается
"345" [i ]
L 
"3" [i ] "4" [i ] "5" [i ]
L , L , L
как
кортеж сводных данных об успеваемости i -го студента за весь цикл его
обучения
" q" [ i ]
L
(по
данным,
использованным
при
вычислении
T j[i ] )
q  3, 4, 5 – количество троек, четверок и пятерок, соответственно.
Так же, как и для A[i ] , легко убедиться, что:
56
B 
[i ]
L  3  "4" L[i ]  4  "5" L[i ]  5
.
"3" [ i ]
L  "4" L[i ]  "5" L[ i ]
"3" [ i ]
Третья формула
" 345"
M [ i ] , подобно
(2.1.10)
" 345" [ i ]
L , не содержит данных о n
«наибольших» и n «наименьших» отметках за весь цикл обучения без
попарной привязки к семестрам.

Определяется
" 345"
M [i ] 
" 3"
M [ i ] ," 4"M [ i ] ,"5"M [ i ] как кортеж сводных
данных об успеваемости i -го студента за весь цикл обучения, полученных
«вымыванием» (удалением) из
" 345"
K [i ] n наилучших и n наихудших отметок.
Производная от кортежа это – ПАУ-5 – E [i ] – отметка с «вымыванием»:

E [i ] – средний балл (средняя успеваемость) i -го обучающегося за
весь цикл обучения, рассчитанный по данным
E 
[i ]
"3"
" 345"
M [i ] :
M [i ]  3  "4" M [i ]  4  "5" M [i ]  5
.
"3"
M [i ]  "4" M [i ]  "5" M [i ]
(2.1.11)
Как видно из определений ФАУ, по сравнению с отметкой A[i ] , и
отметка E [i ] и отметка B [i ] имеют преимущество в том, что при их
использовании значительно отсеиваются низкие отметки, проставленные за
группы «нелюбимых» дисциплин. Также не используются и высокие отметки,
выставленные за группы специальных предметов на старших курсах, когда
преподаватели выпускающих кафедр субъективно «завышают» отметки
студентов по теоретическим курсам, поскольку наблюдают успешность
студентов при выполнении ими практических учебно-исследовательских
работ, производственной (преддипломной) практики и др. Кроме того, ПАУ
B [i ] также характерен лучшей объективностью, поскольку позволяет отсечь в
каждом семестре пару «строгих-снисходительных» баллов или полученные за
«любимые-нелюбимые» дисциплины.
Далее
необходимо
провести
анализ
показателей
академической
57
успешности A[i ] , B [i ] , C [i ] , D [i ] , E [i ] для выделения значимого параметра из
множества ПАУ на основе ранговой корреляции Спирмена. Для этого
используя данные ПАУ, путем упорядочивания значений параметров по
возрастанию (или убыванию) – произвести ранжировку. Определить ранги
показателей успешности: rA[i ] , rB [i ] , rC [ i ] , rD [i ] , rE [i ] . На основе попарного
анализа значений этих рангов, получают границы изменения рангов.
Полученные квадраты величин ширины диапазона изменения оценок
используются для расчета выборочного коэффициента ранговой корреляции
Спирмена [128]:
N
S  1
6   di
i 1
2
N  N  1
2
(2.1.12)
,
где d i – разность рангов для двух сравниваемых последовательностей
рангов по признакам показателей успешности, N – объем выборки.
В результате этого анализа параметров АкУсп выделяется наиболее
весомый параметр.
Для анализа данных выделенного параметра АкУсп применяется
кластерный анализ временных рядов баллов выпускников как вектор nмерного пространства.
Для
кластеризации
между
данными
показателей
академической
успешности выпускников выбраны параметры кластерного анализа [132, 133]:
евклидово расстояние, вычисляемое по нестандартизированным данным, и
метод ближайшего соседа (одиночное связывание). В результате подобной
классификации образовываются кластеры, принадлежащие разным классам
АкУсп, получают дендрограмму последовательной группировки точек в
кластеры.
58
2.2 Разработка модели текста
Для построения модели классификационной границы между данными,
относящимся к разным классам АкУсп, необходимо ввести дополнительные
параметры процесса обучения Х j . Для этого производится анализ параметров
рукописных текстов (результаты вступительных экзаменационных работ по
русскому языку).
В данной исследовательской работе принята базовая технология
кодирования текстов, письменной речи, на основании работ профессора Ю.А.
Попова [96-99], применяемая в программном комплексе Синтаксический
Анализатор Ритмики Текста (ПК САРТ). Базовыми составляющими её
показателями считаются 4 основные психолингвистические единицы текста
(см. раздел 1.5): фразы (абзацы) – F, предложения – Р, синтагмы – S, слова –
W. Синтагмой считается группа слов между разделителями (знаками
препинания – запятая, двоеточие, тире и пр.) в предложении.
Если при использовании компьютерной программы САРТ и применении
анализируемых ею параметров не удастся получить классифицирующую
функцию,
то,
следовательно,
диссертационного
исследования
для
решения
необходимо
поставленных
предложить
новые
задач
или
модифицировать уже известные показатели текста.
Произвольный письменный текст может состоять из томов, глав,
параграфов (разделов), страниц. Минимальной единицей, отражающей
некоторый составной смысл, является абзац (фраза), который состоит из
предложений (лексических единиц, имеющих смысл). Синтагмы могут
рассматриваться как смысловые идеограммы, а слова – как атрибуты (атомы)
этих идеограмм.
Согласно
основателю
теории
информации
К.
Шеннону
[144],
информация в тексте, с точки зрения синтаксиса, может быть оценена
количеством двоичных сигналов, использованных при написании текста.
59
Известно, что в однородных совокупностях текстов сохраняются
средние затраты на написание символов алфавита (частота встречаемости
букв устойчива) и наблюдаются устойчивые средние значения длин слов,
измеряемых в символах. Так в 1000 знаках русской литературной письменной
речи встречается в среднем 170 пробелов [145], и средняя длина слова
составляет L  830
 5 символов. Таким образом, информация в тексте
170
может быть измерена количеством использованных слов W .
В
программе
САРТ,
аналогично
длине
L,
применяются
информационные показатели текстов (таблица 5), которые являются базовыми
параметрами (раздел 1.4.3):
Таблица 5 – Информационные показатели текста
Показатель текста
Что характеризует
Количество слов в синтагме
сложность иероглифа
Количество синтагм в предложении
Количество предложений во фразе
сложность выражения
простого смысла
сложность составного
смысла
Формула
X W
Y S
Z P
S
P
F
Считается [42, 101, 146], что в особых, экстремальных условиях, на
первый план выдвигаются, прежде всего, врожденные механизмы высшей
нервной деятельности человека. Проявляется привычный для психотипа образ
мышления.
Эти
приемы
являются
устойчивыми
характеристиками
индивидуума. И привычно используются далее и в последующем периоде
обучения, когда испытуемый уже является студентом.
Согласно закону Г.Фехнера [147] субъективные ощущения человека
пропорциональны логарифму интенсивности внешних воздействий. Т.е.
человеком воспринимаются не сами величины единиц текстовой информации,
а их логарифмы. На основе этого закона в диссертационном работе проведена
модификация параметров ПК САРТ анализа текстов:
60
w  log W , s  log S , f  log F , p  log P
(2.2.1)
Поскольку реальные экзаменационные задания неодинаковы для разных
лет и разных экзаменационных потоков, естественно предположить, что
информативными будут относительные показатели текстов (таблица 11) –
трансформационные параметры текстов.
Таблица 6 – Трансформационные параметры текста
Формула
Относительные показатели текста
x  ws
логарифм среднего количества слов в синтагме, x  log X
y  s p
логарифм среднего количества синтагм в предложении, y  log Y
z p f
логарифм среднего количества предложений во фразе, z  log Z
Фактические
x
[i ]
значения
w
[i ]
, s [ i ] , p [ i ] , f [ i ] ,
а,
следовательно,
и
, y [ i ] , z [ i ]  индивидуальны для каждого i -го студента.
На основе разработанных трансформационных индикаторов x, y, z,
которые
являются
определенными
по
информационными
ритмической
параметрами
структуре
письменной
теста,
речи,
разработана
информационная модель текста.
2.3 Классификационные границы уровней качества
Выбрав и описав входные параметры системы, проведя выделение
кластеров по ПАУ, переходят к решению задачи разработки модели
прогнозирования по параметрам текстов уровней качества подготовки
специалистов [148], модели границы прогнозируемых уровней качества [149153].
Поиск границы, разделяющей данные, принадлежащие всевозможным
классам АкУсп, можно проводить, используя разнообразные [152, 154,
61
приложение А] и известные [125, 129, 130, 132, 134, 135, 155-164, 168-170]
модели классификации. Считается, что количество подобных моделей
порядка сотни. Выбираем некоторые из них, сравниваем и избираем лучшую.
Например,
А)
посредством
использования
множественных
линейных
регрессионных моделей МГрР с малым количеством параметров по типу
моделирования
функций
полезности
–
функций,
принимающих
положительные значения на точках из T  и отрицательные значения на точках
из T  ;
Б)
использованием
параметры
математической
классификатора
определяются
модели
МГрВ,
методом
в
которой
максимального
правдоподобия.
2.3.1 Модель классификации, созданная с применением
регрессионного анализа
Рассмотрим модель классификации типа А – математическую модель
границы между уровнями качества подготовки специалистов, создаваемую с
применением регрессионного анализа – МГрР.
В классификационной модели в качестве функции регрессии применена

функция трех переменных f x , y , z , A как функция полинома степени s

s  N  , где A  As 00 ,, A001 , A000  – искомые параметры модели.


Переменными являются трансформационные параметры текста ( x, y , z ) ,
которые образуют области, характеризуемые разным уровнем качества,
разной «раскраской», мастью точек.
В описании модели, использующей три предиктора, применяется
полином:
x  y  z s 

As t1 , t2 , t3  x t1 y t 2 z t 3 ,
где
набор
целых
t1  t 2  t 3  s
неотрицательных
чисел
t1 ,
t2 , t3  ,
по
которому
осуществляется
62
суммирование, определяется:
3
tj  s.

j 1
Множественная регрессионная модель степени s имеет вид:

Qrgs  f x, y , z, A  A000  A100 x  A010 y  A001 z  A200 x 2  A110 xy  A101 xz 


 A020 y 2  A011 yz  A002 z 2  А300 x 3  ...  А421 x 4 y 2 z  ...  А00 s z s

В этой классификационной модели
f x, y , z, A параметры модели

A  As 00 ,, A001 , A000  устанавливаются


методом наименьших квадратов
(МНК) из условия минимизации функции Е следующего вида:
E


2
2
1    



f
x
y
z
A
S
f
x
y
z
A
S
,
,
,


,
,
,



1
2   min (2.3.1)
а
а
а
с
с
с
N а 
N с 


Здесь
Tа  x а , y а , z а   T 



– точки из множества положительных
примеров, где а – количество точек этого множества (для определенности
будем
считать,
что
они
соответствуют
экспериментальным
данным
выпускников категории  A ),
а Tс  xс , y с , z с   T  – точки из множества отрицательных примеров
(соответствующих экспериментальным данным выпускников, например,
категории С ).
N  – количество точек из множества T  с положительными данными, а
N  – количество точек из множества T  с отрицательными данными.
Неотрицательный
параметр

0    1
отражает
уровень
относительной важности точек из области T  и области T  . Близость

f x , y , z , A к S1 интерпретируется как принадлежность к классу  A , а

близость f x, y, z, A к S2 – как принадлежность к классу С .


Функция f x, y, z, A – линейная функция относительно параметров A .






Таким образом, поиск оптимума функции Е сводится к построению
разделяющей гиперплоскости – поверхности в трехмерном пространстве.
Отметим, что при   1 поиск минимума E эквивалентен решению
задачи минимизации ошибок классификации I-го рода, а при   0
63
минимизации ошибок II-го рода при использовании регрессионной модели
(рисунок 12).
observed
1
Область ошибок I рода
0
Область ошибок II рода
-1
-2
0
-1
1 predicted 2
Рисунок 12 – Области ошибок I и II рода
Решения Е   (2.3.1) при фиксированном значении  совпадают с
решениями задачи:


2
2
~
E     f x а , y а , z а , A  1   2  f x с , y с , z с , A  1 ,

 

а
 
(2.3.2)
с
где параметр  2 :
 1    N
0      
 N  

2

   .

(2.3.2а)
Решая известными методами задачу (2.3.2), для каждого  2 , определяем
A*   и совокупности значений регрессионных функций на массивах
экспериментальных данных
f x , y , z , A  
*
а
а
а
и
f x , y , z , A  ,
*
с
с
с
где
а  1, , N  и с  1, , N  соответственно.
Как известно [135, 155], МНК не гарантирует построения несмещенных

оценок f  0 в случае негауссовых распределений. И в зависимости от

выбора положения смещения разделяющей поверхности f   (рисунок 13)
для каждого значения  2 определяется пары значений функций ошибок –
64
ошибок I и II рода O1  f  и O2  f  соответственно:
N

f  
–
N 
N+
Рисунок 13 – Поверхность, разделяющая области разнотипных данных
O1  f   
N  
f   ;
N


O2  f   
N 
f   ,
N


(2.3.3)
области T  с положительными

значениями данных модели со значением f xа , yа , zа , A*   , имеющих

значение меньше f   ,
где N   – количество точек из


области T  со значениями
N   – количество точек из


f xс , yс , zс , A*   , превышающими f   .


При анализе зависимостей O1 f   и O2  f   представляют интерес


пороговые величины регрессионных функций f   ; 0
( f   ; 0 ), при
и




которых исчезают ошибки I рода – рисунок 14.а (и, соответственно, для
ошибок II рода – рисунок 14.б).
Из рассмотрения вышеописанной модели можно сделать вывод, что для

выбора параметров A и построения поверхностей разделения классов  A и
 С целесообразно использовать статистические пороговые значения, и при
различных значениях  2 определить изменения  .
На
основе
анализа
регрессионных
значений
следует
отдать
предпочтение подходящему варианту [158] j-й регрессионной модели МГрРj,
когда в качестве критерия берут ошибку распознавания – отношение
правильных
ответов
распознавания.
к
общему
их
числу,
определяющее
качество
65
N

f  
–

f

 , 0
N 
N

N+
а)

f   , 0
N

f  
–
N 
N

N+
б)

Рисунок 14 – Пороговые функции f
 ; 0 и

f   ; 0
Регрессионная модель при s=1 имеет вид линейной функции:
Qrg1  A000  A100 x  A010 y  A001z .
Исследуя нелинейные по параметрам регрессионные модели, когда
степень полинома s  2 , необходимо перейти к линейному виду полинома.
Полиномиальные
регрессии
для
других
случаев
имеют
вид:

при s=2 это квадратичная нелинейная функция трех переменных f x, y, z, A :


Qrg 2 = A000  A200 x 2  A110 xy  A101 xz  A020 y 2  A011 yz  A002 z 2 
 A100 x  A010 y  A001 z .
Так модель, использующая кубическую степень полинома, имеет вид:
Qrg 3 = A000  A300 x 3  A030 y 3  A003 z 3  A210 x 2 y  A201 x 2 z  A120 xy 2  A021 y 2 z 
 A102 xz 2  A012 yz 2   A111 xyz  A200 x 2  A110 xy  A101 xz  A020 y 2  A011 yz 
 A002 z 2  A100 x  A010 y  A001 z .
Для регрессионной модели четвертого порядка s=4:
Qrg 4 = A400 x 4  A040 y 4  A004 z 4  A310 x 3 y  A301 x 3 z  A220 x 2 y 2  A202 x 2 z 2 
 A211 x 2 yz  A121 xy 2 z  A112 xyz 2  A130 xy 3  A031 y 3 z  A103 xz 3  A013 yz 3  A022 y 2 z 2 
 A300 x 3  A030 y 3  A003 z 3  A210 x 2 y  A201 x 2 z  A120 xy 2  A021 y 2 z  A102 xz 2  A012 yz 2 
66
 A111 xyz  A200 x 2  A110 xy  A101 xz  A020 y 2  A011 yz  A002 z 2 
 A100 x  A010 y  A001 z  A000
Введя
новые
фиктивные
переменные,
заменяя
ими
степенные
независимые переменные, так, например, для кубического вида многочлена:
B  x 3 ; C  y 3 ; D  z 3 ; E  x 2 y ; ...
можно найти коэффициенты А300 , А030 , ...
с помощью стандартных процедур множественной линейной регрессии.
Кроме исследования самой регрессионной модели для улучшения
полученных моделей необходимо рассмотреть пошаговый метод анализа
регрессии
(пошагового
исключения)
[130,
158],
когда
происходит
поочередное исключение из исходной модели наименее информативных,
незначимых, переменных, для которых уровень значимости p-value (р-
значение) максимально на каждом шаге исключения предикторов.
Для каждой модели проводится проверка на качество распознавания,
например, используя коэффициент детерминации R 2 (квадрат коэффициента
множественной
корреляции)
[130],
который
показывает,
какая
часть
дисперсии объясняется уравнением регрессии (независимыми переменными).
Для наилучшей модели его значение должно максимально приближаться к 1.
2.3.2 Математическая модель классификационной границы,
основанная на использовании метода максимального
правдоподобия
Рассмотрим модель классификации типа Б – математическую модель
создания границ, обеспечивающую прогнозирование уровней качества
подготовки специалистов, классов академической успешности, основанной на
использовании метода максимального правдоподобия – МГрВ.
В этом случае полученные выходные показатели образовательного
процесса ( x, y , z ) рассматриваем как случайные величины. При подчинении
нормальному закону распределения создается вектор наблюдений (выборка).
Проводя оценивание параметров распределения Q  x , y , z  методом
67
максимального правдоподобия (ММП) [47, 155, 159, 160, 168], строится
n
функция
правдоподобия
q  Q,     q  Q j 
и
логарифм
функции
j 1
n
правдоподобия L Q ,    ln q Q ,     ln q Q j  .
j 1
Учитывая, что вектор наблюдений состоит из независимых случайных
величин, получаем разбиение функции правдоподобия на вклады отдельных
наблюдений (1) и (2). Плотность нормального распределения вероятностей
непрерывной случайной величины описывается [50, 125, 128, 161]:
 1  x   2 
1
exp   
f ( x) 
  , где параметр  – математическое ожидание
2

 2

 

непрерывной случайной величины,  – стандартное отклонение нормального
распределения.
Плотности распределения для выборок двух классов многомерных
векторов трансформационных показателей текстов
принадлежности разному уровню АкУсп
(1)
P  x, y , z  и
(2)
( x, y , z )
с учетом
P  x, y , z  таковы:
для первого уровня
(1)
P  x, y , z  

2

3
1
1  2   3
(1)
(1)
(1)


  

  

  ;
  x  (1) x cos (1)   y  (1) y cos (1)   z  (1) z cos (1)
 1 
 1 
 1
 



exp  
2 (1) 12

2


  x  (1) x cos (1)   y  (1) y cos (1)   z  (1) z cos (1)
 2 
 2 
 2
 



exp  
2 (1) 22

  x  (1) x cos (1)   y  (1) y cos (1)   z  (1) z cos (1)
 3 
 3 
 3
 



exp  
2 (1) 32

и, аналогично, для второго уровня АкУсп:
2


2


(2.3.4а)
68
(2)
P  x, y , z  

2

1
3
 (2) 1  (2) 2  (2) 3


  

  

  ;
  x  (2) x cos (2)   y  (2) y cos (2)   z  (2) z cos (2)
 1 
 1 
 1
 



exp  
2 (2) 12

2


  x  (2) x cos (2)   y  (2) y cos (2)   z  (2) z cos (2)
 2 
 2 
 2
 



exp  
2  (2)  22

  x  (2) x cos (2)   y  (2) y cos (1)   z  (1) z cos (2)
 3 
 3 
 3
 



exp  
2 (2) 32

2
(2.3.4б)


2


где используются
– разнообразные параметры рассматриваемых выборок, например,
направление рассеивания;
– x , y , z - данные статистического анализа трехмерных эллипсоидов
рассеивания значений параметров текста;
–
cos  j  , cos   j  , cos  j 
-
направляющие
косинусы,
данные
результата применения метода главных компонент (МГК), j=(1, 2, 3) – номер
компоненты; и
cos2  j   coss2   j   cos2  j   1;
cos  k   cos  j   cos   k   cos   j   cos  k   cos  j   0;
k  j .
Граница, разделяющая два эллипсоида рассеивания данных, определена
из условия равенства вероятностей на границе:
(1)
P  x, y, z   (2) P  x, y, z   0 . В
итоге получен полином (2.3.5):
QQ  a11 x 2  a22 y 2  a33 z 2  2a12 xy  2a23 yz  2a13 xz 
 2a14 x  2a24 y  2a34 z  a44
(2.3.5)
При QQ  0 полином (2.3.5) представляет собой уравнение поверхности
второго порядка в пространстве [162, 163].
Неприведенная
форма
уравнения
поверхности
классическим образом приводится к каноническому виду.
второго
порядка
69
Приведение осуществляется в несколько этапов.
Производится
1.
параллельный
перенос
декартовой
системы
координат (ДСК)  x, y , z  , в результате которого исчезают линейные члены в
уравнении 2-го порядка. Величина смещения центра координат  xC , yC , zC 
определяется из системы линейных уравнений:
a11 x  a12 y  a13 z  a14  0;

a12 x  a22 y  a23 z  a24  0; ,
a x  a y  a z  a  0
 13
23
33
34
учитывая, что координаты точки в старой и новой ДСК таковы:
x  xC
x  ~

~
 y  y  yC .
z  ~
z  zC

2.
Проводится поворот осей старой ДСК  x, y , z  .
Упрощается поиск новой ДСК ~
x, ~
y, ~
z  нормировкой:
а.
a11  
a12
a11 a22
a13
a11
a33
a12
a11
a13
a22
a11 a33
a23
a22  
a22
a23
a22
a33
0
a33  
a33
Из характеристического уравнения определяются собственные
б.
значения i (i=1, 2, 3) и собственные вектора.
Для полученного уравнения поверхности второго порядка,
x, ~
y, ~
z  , который может быть
определяется ее канонической вид в новой ДСК ~
3.
двух типов:
1 ~x 2  2 ~y 2  3~z 2  d  0
тип 1
или
тип 2
Анализируя
1 ~x 2  2 ~y 2  m ~z  0 .
тип
канонического
уравнения,
(2.3.6а)
(2.3.6б)
определяют вид
поверхности. Существуют 17 возможных поверхностей второго порядка [164],
описание которых представлено в таблице Б приложения.
70
В диссертационной работе канонический вид поверхности 2-го порядка
(2.3.6) назван границей уровней академической успешности, уровней
качества.
Поскольку на границе разделения классов ( QQ  0 ) наблюдается
равенство вероятностей принадлежности к ним, для определенности
считается, что точки при QQ  0 находятся внутри области, а при QQ  0 –
вне этой области.
71
Основные результаты и выводы по главе 2
В главе 2 представлены разработанные математические модели при
создании прототипа информационной модели для управления социальной
системой, учебным процессом. Проведена идентификация и выбран источник
знаний, осуществлен его анализ.
1.
В результате проведенного анализа существующих подходов
определения
шкалы
уровней
академической
успешности
разработаны
показатели академической успешности ПАУ, созданные на основе экспертной
информации по всем семестровым отметкам. Рассмотрены количественные
показатели определения уровня академической успешности обучающегося.
Показано, что средний балл обучающегося за весь период обучения не может
служить объективным показателем оценки успешности овладения им
материалом за время обучения.
2.
Проведено
построение
модели
классификации
уровней
академической успешности с использованием кластер-анализ, названной
траекторной моделью академической успешности.
3.
Разработана модель текста МТкст, использующая параметры
письменной речи, определенными по ритмической структуре теста.
4.
Проведен поиск классификационной границы уровней качества
подготовки специалистов: 1) посредством использования множественных
линейных
регрессионных
моделей
МГрР
и
2)
с
использованием
математической модели МГрВ, в которой параметры классификатора
определяются методом максимального правдоподобия и факторного анализа.
С
помощью
разработанных
математических
моделей
возможно
классифицировать уровни академической успеваемости, и проводить прогноз
возможных уровней качества подготовки специалистов
72
3 РАЗРАБОТКА АЛГОРИТМОВ И МЕТОДИК ДЛЯ
ПРОГНОЗИРОВАНИЯ УРОВНЕЙ КАЧЕСТВА
ПОДГОТОВКИ СПЕЦИАЛИСТОВ
3.1 Методика проведения исследования параметров
определения уровней качества подготовки
специалистов
В диссертационной работе для проведения исследования входных
параметров процессов, требующих разделения элементов системы на классы,
были выбраны данные результатов обучения студентов в виде отметок за все
сессионные экзамены (без учета пересдач) и рукописные текстовые
документы, в качестве которых использовались документы вступительных
письменных экзаменационных работ (изложения или сочинения) на русском
языке. Абитуриенты после зачисления обучались затем на различных
факультетах МИФИ.
Представленные тексты существуют в бумажном виде, в котором
материалы письменного вступительного экзамена поступили на проверку
экспертам-экзаменаторам,
и
сохраняются
после
окончания
приемной
кампании в архиве отдела кадров университета в личных делах студентов.
Также в личных делах студентов сохраняются отметки за учебные сессии,
оформленные в виде отчетных таблиц.
Исследуемая
выборка
является
простой
случайной
выборкой,
сформированной из генеральной совокупности личных дел студентов. По
способу получения выборка является тематически репрезентативной – она в
полной
мере
представляет
генеральную
совокупность
выпускников
университета, академически успешных студентов. Способ ее формирования
будет описан ниже.
При хранении в архиве отдела кадров НИЯУ МИФИ пачки личных дел
73
отсортированы
по
фамилиям
по
алфавиту.
Случайность
выбора
обусловливалась алгоритмом выбора личных дел:
1.
рассматривать личные дела студентов, которые закончили вуз,
проверяя выдачу диплома;
2.
a.
выбирать из пачек только то личное дело учащегося, в котором
имеется рукописный текст экзамена по русскому языку (некоторые
страницы представлены на рисунке 15),
b.
для подвыборки успешных студентов должны присутствовать
данные за все семестровые экзамены (отметки).
Рисунок 15 – Вид текстов письменных работ в архивных документах
3.2 Алгоритмы создания информационной модели
текста
Синтаксические параметры текста определяются по правилам [96]:
I. Слово обозначается символом “W” и подсчитывается среднее
количество слов в синтагме. Обнаружено, что существуют некоторые
неоднозначности при определении границ конкретного слова.
II. Предложение – комбинация слов, в законченном виде передающее
(выражающее) мысль. Его конец обозначается символом “P”. Определяется
среднее количество предложений в абзаце.
74
III. Синтагма, ее конец обозначен символом “S”. В диссертационной
работе рассмотрена синтагма как часть предложения, расчлененного знаками
препинания. Находится среднее количество синтагм в предложении.
IV. Фраза, ее конец обозначается нами символом “ F”. В данной работе
нами определяется конец фразы как конец абзаца в авторской интерпретации.
Рассчитывается среднее количество предложений во фразе.
Далее создается информационная модель текста по алгоритму,
представленному на рисунке 16.
Рисунок 16 – Схема получения данных при создании информационной модели текста
Имея сохраненные пошаговые кодировки текста, описанные выше в
75
разработанном алгоритме методики кодировки текста, легко осуществить
проверку однозначности получения информационных параметров текста для
любого этапа расчётов.
Таким образом, описана методика создания информационной модели
текста,
применяющая
разработанный
алгоритм
кодировки
текста,
позволяющий сохранять базовые синтаксические параметры текста, при
необходимости легко перепроверяемыми данными. Базовые единицы текста
переводятся в трансформационные показатели текста.
Полностью методика применения информационной модели текста:
правила определения синтаксических параметров текста и их примеры
приведены в приложении В.
В том же приложении В представлена методика кодирования текста,
позволяющая сохранять текст в виде, обеспечивающем
– проверку, при необходимости, полученных экспериментальных
данных независимыми исследователями;
– значительное уменьшение объёма хранимой информации в БДТкст.
3.3 Алгоритмы построения математических моделей
В
общем
виде
алгоритм
построения
математических
моделей
прогнозирования уровней качества специалистов показан на рисунке 17.
76
1
2
3
Начало
A
Личные дела
абитуриентов
B
C
Количество
слов W,
синтагм S,
предложений P,
фраз F
Отметки за n
семестров
D
Вычисление
параметров
текстов
Вычисление
среднего
усеченного
балла
E
Средний
усеченный
балл
F
Кластерный
анализ
G
x, y, z
H
R
A, ... , K
V
Математические
Модели
J
K
МГрР
МГрВ
Регрессионные
формулы
Формула
границы
раздела
классов
Конец
Рисунок 17 – Схема построения математических моделей прогнозирования уровней
качества специалистов
Уточнена данная схема алгоритма: приведена конкретизация создания
модели R модели V. Приведено описание на рисунке 18 схемы алгоритма
нахождения классификационной поверхности МГрР и на рисунке 19 – схемы
алгоритма нахождения классификационной поверхности МГрВ.
77
3.3.1 Алгоритм нахождения классификационной поверхности
МГрР
Для создания модели МГрР, построенной на основе регрессионного
анализа, удобнее всего использовать статистические компьютерные системы
для
анализа
данных,
в
которых
есть
модули,
содержащие
набор
статистических методов, регрессионного анализа. Например, компьютерные
системы SAS, SYSTAT, SPSS, Statgraphics и др.
В диссертационном исследовании применялся пакет Statgraphics
Centurion, который можно полноценно использовать и в пробном (trial)
режиме [165].
Рисунок 18 – Схема алгоритма регрессионной модели R,
раскрытие схемы алгоритма, представленного на рисунке 17
78
3.3.2 Алгоритм нахождения классификационной поверхности
МГрВ
Схема
алгоритма
нахождения
математической
модели
МГрВ
прогнозирования уровней качества специалистов – границы разделения
(гиперплоскости) двух классов АкУсп, представлена на рисунке 17.
x , y, z ,
x,  y, z,
1~
x 2  2 ~
y 2  3~
z2 d 0
cos  j , cos  j , cos  j 
QQ  2 ln
(2)
(1 )
P
P
QQ  a 11 x 2  a 22 y 2  a 33 z 2 
 2 a12 xy  2 a 23 yz  2 a13 xz 
 2 a14 x  2 a 24 y  2 a 34 z 
 a 44  0
Рисунок 19 – Схема алгоритма вероятностной модели V,
раскрытие схемы алгоритма, представленного на рисунке 17
Классификация
осуществляется
по
поверхностей
канонического
разработанному
при
вида
исследовании
при
1  0
алгоритму,
представленному на рисунке 20, для двух типов (формула 2.3.6 а и б)
канонических уравнений. На рисунке показаны номера от 1 до 17 – варианты
поверхностей
в
соответствии
с
данными
таблицы
приложения
Б.
79
Рисунок 20 – Схема алгоритма классификации поверхностей 2-го порядка по каноническим типам
80
3.4 Информационная модель системы учета и анализа
уровней качества специалистов
Для подтверждения объективности выбранного метода применения
математической модели прогнозирования уровней качества подготовки
специалистов, разработаны алгоритмы и методики для получения параметров
текстов (раздел 3.1).
Информационная модель баз данных системы учета и анализ уровня
качества специалистов в нотациях IDEF1X, разработанная в диссертационной
работе для специалистов-выпускников МИФИ, представлена на рисунке 21.
Модель базы данных системы содержит следующую таблицу 7,
описывающая сущности и связи:
Таблица 7 – Описание взаимосвязей и сущностей
Имя сущности
Взаимосвязь
Эксперт-преподаватель
Определяет ОтметкиЭкспертные
Специалист
Сдает Сессии;
Получает ОтметкиЭкспертные;
Пишет Письменный экзамен;
Попадает в кластер (качества)
Сессии
Имеют ОтметкиЭкспертные
Сдаются Специалистом
ОтметкиЭкспертные
Формируют кластер (успешности)
Определяются Экспертом-преподавателем
Получаются Специалистом
Получаются за Сессии
Письменный экзамен
Пишется специалистом
Имеет Синтаксические параметры
Кластер (успешности)
Формируется из ОтметокЭкспертных
Создается из Специалистов
Синтаксические параметры
Создаются на Письменном экзамене
81
Рисунок 21 – Информационная модель в нотациях IDEF1X, использующая архивные
данные
3.5 Анализ характеристик качества моделей
Оценка качества модели зависит от ее назначения.
Процесс оценивания качества регрессионного уравнения достаточно
сложен. Необходимо определить критерии качества модели, основанные на
нахождении средней величины прогноза: индекс корреляции R (или его
квадрата – коэффициент детерминации R 2 ) и скорректированный R 2 .
Значения коэффициента детерминации: 0  R 2  1 . У более качественной
модели величина R 2 близка к единице. Точность построенной регрессионной
модели оценивается с помощью средней квадратической ошибки или средней
ошибки аппроксимации.
При построении распознающей системы [50, 158] в качестве критерия
82
используют ошибку распознавания – отношение правильных ответов к
общему их числу.
Осуществив
(модельных)
анализ
опытных
результатов
(фактических)
моделирования,
и
теоретических
формируется
результат
исследования в виде таблицы, где формируются результаты классификации
рассматриваемой подвыборки объема N, состоящей из двух классов объектов.
Перейдя от абсолютных показателей модели к относительным,
создаются показатели, представленные в таблице 8.
Показателями
“Чувствительность”
и
“Специфичность”
модели
определяется объективная ценность любого бинарного классификатора.
Чувствительность критерия в обнаружении предсказания модели – это
доля истинно положительных случаев, : Чвст  ДИП . С этим показателем
связано понятие ошибки I рода вероятности неверно отвергнутой гипотезы
Н0.
Специфичность – доля истинно отрицательных случаев, которые были
правильно определены моделью. Она связана с ошибкой II рода – неверно
принятой гипотезы Н0.
Таблица 8 – Относительные показатели модели
Показатель
Формула
Доля истинно положительных
примеров (ДИП)
Доля ложноположительных
примеров (ДЛП)
ДИП 
ИП
100%
ИП  ЛО
ДЛП 
ЛП
100%
ИО  ЛП
Доля истинно положительных примеров
Чвст  ДИП 
Доля истинно отрицательных случаев
Спцф 
Рассматривая
Идеальная
модель
ИП
 100%
ИП  ЛО
ИО
 100%
ИО  ЛП
должна
обладать
100%
чувствительностью и специфичностью. Но считается, что на практике
добиться этого невозможно, как, впрочем, невозможно одновременно
83
повысить и чувствительность, и специфичность модели. В действительности
реально возможно найти лишь компромиссное соотношение Чвст и Спцф –
оптимального порога.
Для решения этой задачи определяются максимальная суммарная
чувствительность
и
специфичность
модели:
max+  Чвст  Спцф 
и
min–  Чвст  Спцф для каждой из моделей.
Исследуя график, подбный представленному на рисунке 12, легко
определяется
количество
точек
(доля)
-
ложно
обнаруженного
математической моделью несуществующего эффекта - положительных
(например, высокоуспешных студентов) данных – в левой верхней его части –
ошибки
I
рода. И, соотвественно, ошибку
ложного
необнаружения
существующего эффекта – ошибку II рода – правая нижняя часть графика.
Основные результаты и выводы по главе 3
В главе 3 описано проведение разработки алгоритмов и методик на
основе разработанных математических моделей при создании прототипа
системы учета и анализа уровней качества подготовки специалистов.
1.
Описана
методика
проведения
исследования
параметров
определения уровней качества подготовки специалистов и алгоритм создания
информационной модели текста МТкст.
2.
Представлены алгоритмы построения математических моделей
прогнозирования уровней качества специалистов.
3.
Разработана информационная модель базы данных системы учета
и анализа уровней качество подготовки специалистов.
4.
Рассмотрены
разработанных моделей.
критерии
анализа
характеристик
качества
84
4 РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ МОДЕЛЕЙ И
АЛГОРИТМОВ ПРОГНОЗИРОВАНИЯ УРОВНЕЙ
КАЧЕСТВА ПОДГОТОВКИ СПЕЦИАЛИСТОВ
4.1 Выявленные источники знаний при построении
функциональной модели организационной системы
Реализуя разработанные в диссертационном исследовании алгоритмы,
модели и методы для создания информационной системы учета и анализа
уровней качества подготовки специалистов, предложена функциональная
модель организационной системы в нотациях IDEF0, в соответствии с
методологией функционального моделирования [166], контекстная диаграмма
которой представленная на рисунке 22.
Рисунок 22 – Функциональная модель проектирования функциональной
системы в нотациях IDEF0
Архивная информация из личных дел обучающихся в НИЯУ МИФИ
рассмотрена в качестве опытной совокупности, и ее параметры выбраны для
определения источника знаний. Объем используемой при исследовании
85
простой случайной выборки объектов из генеральной совокупности подобных
объектов
максимально может составлять десятки тысяч, а минимально –
несколько объектов. Для создания прототипа ИС выбран объем случайной
выборки из данных по 120 субъектам.
Проведена структуризация входящей информации ИС. Инженером по
знаниям образована база знаний выбора документа из архива, которую на
этапе прототипирования использует инженер по знаниям, организовывая
информацию по правилу «ЕСЛИ…, ТО…».
При обращении к архивным документам возникает организационная
задача «Что делать с рассматриваемым документом»? Для решения её
инженер по знаниям анализирует документ (личное дело) по признакам,
отвечая на необходимые вопросы:
1. Есть текст письменной работы на экзамене по русскому языку в личном
деле?
2. Получил диплом МИФИ?
3. Есть данные по экспертным оценкам – баллам за экзамены?
4. Количество семестров, за которые проставлены экспертные оценки,
равно 9?
5. Качество
рукописного
текста
позволяет
проводить
анализ
синтаксических параметров?
ЕСЛИ результат ответа на поставленный вопрос №2 отрицателен, как
представлено в таблице 9, где балл 0 означает положительный ответ, а балл 1 отрицательный ответ,
ТО это – документ неуспешного студента и провести синтаксический
анализ ритмики текста письменной работы (с занесением в БДТкст).
86
Таблица 9 – Результаты ответов
Номер вопроса
Возможный ответ в баллах
1
0
2
1
3
0
4
0
5
0
ЕСЛИ результат на все ответы положительные,
ТО это – документ выпускника-специалиста и далее необходимо:
а) провести синтаксический анализ ритмики текста письменной работы
(с занесением в БДТкст);
б) провести анализ экспертной информации по всем семестрам (с
занесением в БДОтм.
Таким образом, база знаний построена в соответствии со структурой
экспертной системы без явного эксперта, представленной на рисунке 6. И
выделено два потока информации: часть архивных данных инженером по
знаниям рассмотрена как экспертная информация, а часть – как данные
параметров письменной речи обучающихся.
4.1.2 Анализ извлеченной информации
Учитывая
требования
федеральных
законов,
национальных
и
международных стандартов, а также приказов министерства образования и
науки
РФ
и
приказов
подчиненного
ему
вуза,
создан
прототип
информационной системы, способной предоставить информацию об уровнях
качества подготовки специалистов как действительной, так и прогнозируемой,
как описывается в декомпозиции контекстной диаграммы функциональной
модели А0, представленной на рисунке 23.
87
Рисунок 23 – Декомпозиция контекстной диаграммы А0
88
Извлеченные знания были подвергнуты анализу. Первичный анализ
данных позволил выделить две подвыборки: 1) успешно закончивших
институт с получением диплома специалиста (60 субъектов) и 2) неуспешных
студентов, отчисленных из университета. Статистический анализ данных
выпускников с использованием непараметрических методов [126]: критерия
Колмогорова-Смирнова и критерия серий Вальда-Вольфовица представлен в
приложении Г.
4.1.3 Анализ данных экспертной информации
Для
успешных
экспертной
обучающихся
информации,
осуществлен
разработанных
анализ
показателей
показателей
академической
успешности A[i ] , B [i ] , C [i ] , D [i ] , E [i ] – попарный анализ всех показателей
академической успешности с применением ранговой корреляции Спирмена
(анализ представлен в приложении Д).
Анализ данных исследования, рассмотренный в приложении Д,
подтвердил, что наилучшим приближением к медианным оценкам показателя
АкУсп является показатель B [i ] . Для динамического оценивания успеваемости
и
прогнозирования
целесообразно
использовать
показатели
среднесеместровых усечённых отметок B [ij ] . Вторым аргументом выбора ряда
B [ij ] является тот факт, что показатели усеченного балла B [ij ] в динамике будут
более информативными, нежели показатели A[ij ] .
В
соответствии
с
разработанным
алгоритмом
построения
математических моделей, изображенном на схеме алгоритма на рисунке 15,
осуществлен кластерный анализ (узел F3) выделенного параметра –
показателя академической успешности B [i ] для выпускников университета
(раздел 2.1). Применен метод «ближайшего соседа». Дерево создания
кластеров представлено на рисунке 24, где по оси абсцисс представлено
множество классифицируемых точек – отмечены индексы выпускников i, а по
89
оси ординат – отложены значения евклидового расстояния (Distance) между nмерными точками. На рисунке также отмечены объединения близких точек
кластера горизонтальными отрезками.
В
соответствии
экспериментальных
с
данных,
проведенным
из
2446
кластерным
точек
исходных
анализом
данных
экзаменационных отметок (представлены в приложении Е) устойчиво
определены 2 кластера, относящихся к различным уровням АкУсп. Для них
учащихся определены как  A – «Высокоуспешные» (32%) и С
–
«Слабоуспешные» (55%). Значения центроидов кластеров приведены на
рисунке 25.
1,5
1,2
С
A
0,6
0,3
0
1
2
34
32
3
5
31
6
9
35
36
7
4
33
11
39
41
8
42
15
46
12
45
48
37
38
40
17
13
44
49
43
14
10
16
47
50
18
19
20
21
53
55
51
22
24
23
28
25
26
30
60
58
57
59
29
27
54
56
Distance
B
0,9
Рисунок 24 – Дендрограмма кластерного анализа
i
90
4,98
5,00
4,80
A
4,50
4,96
4,89
4,60
4,92
4,75
4,79
4,37
Балл
4,06
4,00
3,78
3,72
3,50
С
3,40
3,33
3,99
3,48
3,30
3,36
3,00
0
1
2
3
4
5
6
7
2,50
8
9
Семестр
Рисунок 25 – Значения центроидов крупных кластеров
По
имеющимся
данным
убеждаемся,
что
удалось
выявить
динамическую компоненту в определении академической успеваемости.
Однако она не имеет числового выражения, в отличие от средних баллов,
вычисляемых по ФАУ для A[i ] , B [i ] , C [i ] , D [i ] и E [i ] , а имеет только
логическое определение:
в диссертационном исследовании высокоуспешным назван такой
студент, который по траектории своего обучения (по динамике своих отметок)
ближе к центру тяжести, изображенному на рисунке 26, кластера
высокоуспешных,
чем
к
центру
тяжести
кластера
слабоуспешных,
представленному на рисунке 27.
Эти
данные
описывают
динамику
экспертных
оценок
–
экзаменационных отметок – траекторию обучения студента в 9-мерном
пространстве семестровых экзаменационных отметок.
У
траекторного
подхода
имеется
принципиальное
отличие
от
рассмотренных ранее процедур расчета статических показателей. Оно
заключается в том, что траектория среднего «высокоуспешного» выпускника
(средний балл В = 4,8) вуза (рисунок 24) – это отнюдь не траектория
«круглого отличника». А средний слабоуспешный выпускник в последние
91
семестры обучения – скорее «хорошист», нежели «троечник» (средняя
отметка В = 3,6).
Кроме того, были выделены 6 кластеров, данные которых представлены
на рисунке 28, содержащих по 1-2 элемента. Отмечено, что эти 13%
студентов, не попавших ни в категорию  A , ни в С , составляют категорию
 B – «Среднеуспешные» (средний балл В = 4,11). На схеме рисунка 17 – узел
G3 –Категории Уровней.
5,00
Балл
4,50
A
4,00
3,50
3,00
0
1
2
3
4
5
6
7
8
2 50
Семестр
9
Рисунок 26 – Динамика обучения высокоуспешных выпускников, категория  A
5,00
Балл
4,50
С
4,00
3,50
3,00
0
1
2
3
4
5
6
7
8
9
Семестр
Рисунок 27 – Динамика обучения слабоуспешных выпускников, категория  С
92
5,00
В
Балл
4,50
4,00
3,50
3,00
0
1
2
3
4
5
6
7
8
Семестр
9
Рисунок 28 – Значения центроидов кластеров среднеуспешных выпускников,
категория  B
4.1.4 Анализ параметров рукописного текста
По архивной информации, рукописным текстам, проведено выявление
синтаксических параметров текстов, узел схемы С1 алгоритма на рисунке 15.
Проведённый анализ показал, что объем изучаемой письменной речи
абитуриентов, изложение на вступительных экзаменах, выше необходимой
нижней границы минимального объема текста (больше 150 слов), как описано
в разделе 1.4.1. Следовательно, возможно использовать эти тексты и их
параметры для проведения исследования.
В результате анализа текстов были получены значения W, S, P, F
базовых параметров рукописных текстов для каждого из 120 обучаемых.
4.1.4.1 Экспериментальное исследование возможности
классификации с применением ПК САРТ
Анализ результатов работы системы САРТ был проведён на основе базы
данных БДТкст, содержащей записи по студентам НИЯУ МИФИ. По базовым
параметрам текстов выявлено, что выпускники МИФИ из экспериментальной
выборки «Выпускники МИФИ» имеют только три из 13 возможных вида
полутриграмм: № 1, 2, 12, представленные в таблице 10. Для кластеров АкУсп
93
категории  A и категории  B их процентное соотношение одинаково как для
высокоуспешных студентов, так и для слабоуспешных: ~ 5%, 25%, 70%.
Таблица 10 – Полутриграммы текстов экспериментальной выборки
выпускников
Номер типа отношений
Графическое изображение
(тип полутриграммы)
левой части триграммы
Пример триграммы
1
2
12
Следовательно, используя только принадлежность к определенным по
САРТ психотипам, установить их связь с показателями АкУсп, тем более
подтвердить гипотезу о существовании взаимосвязи индикаторов текстов
X , Y , Z с успешным освоением учебных программ в вузе, не представляется
возможным. Сделан вывод о невозможности применения ПК САРТ в работе
разрабатываемой системы.
По значениям базовых параметров для выборки выпускников МИФИ
проведены проверки гипотез о типе распределений (критерий согласия  2 и
Колмогорова-Смирнова).
Выявлено
(с
использованием
статистического
программного пакета STATGRAPHICS Centurion XV), что распределения
экспериментальных данных X 
W
S
P
,Y  ,Z
не являются нормальными
S
P
F
(можем отвергнуть гипотезу о нормальности распределений).
Проведя
модификацию
базовых
параметров,
рассчитаны
трансформационные показатели текста, представленные в таблице 11, узел
G1 на рисунке 17. Для каждого из трех трансформационных параметров x, y, z
94
проведены проверки гипотез о типе распределений по критерию согласия  2
и Колмогорова-Смирнова. Они показали, что для каждого из трех параметров
x, y , z мы не можем отвергнуть гипотезы о нормальности распределений с
90% или большим доверительным интервалом.
Таблица 11 – Значения базовых параметры текстов выборки «Успешные»
Параметры текста
Минимум
Максимум
Количество слов, W
289
1180
Количество синтагм, S
49
221
Количество предложений, P
20
97
Количество фраз, F
2
18
4.1.4.2 Экспериментальное исследование параметров текстов x, y, z
Проведена визуальная проверка классификации данных базовых
параметров текстов выпускников по их проекциям на плоскости
 x , y , 0 ,
x, 0, z  , 0, y, z  , что показано на рисунке 29.
В результате анализа проекций на плоскости не выявлены явные
области точек разноклассовых данных.
В связи с чем, дополнительно проведено исследование на наличие
явных областей, характеризующих наличие разных уровней АкУсп. Анализ
проводился с применением разработанной методики сферической проекции на
куб, представленной в приложении А. Исследование дало положительный
результат – были выявлены области с однотипными элементами.
95
1,4
y
1,3
1,2
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
1,3
1,4
1,5
1,6
1,7
1,8
x
1,9
3,5
z
3
2,5
2
1,5
1
0,5
0,4
0,6
0,8
1
1,2
y
1,4
3,5
z
3
2,5
2
1,5
1
0,5
1,3
1,4
1,5
1,6
1,7
1,8
x
1,9
Рисунок 29 – Проекции значений параметров x, y, z для выпускников
«высокоуспешных» –  и «слабоуспешных» – ▲
.
96
4.2 Разработка интерфейса пользователя
4.2.1 Создание БД
Для
разработки
(инженера
по
интерфейса
знаниям)
получены
пользователя
в
экспертной
соответствии
с
системы
алгоритмом,
представленном на рисунке 16, экспериментальные данные синтаксических
параметров текста – базовые параметры и рассчитанные параметры,
трансформационные показатели текста и занесены в разработанную БДТкст.
Для формирования и управления БД использован функционал открытой
программной среды разработки Lazarus на базе стандарта SCV.
Интерфейс пользователя базы данных «Свиток» синтаксических
параметров текста (БД Свиток) представляет собой организованные поля для
введения базовой информации, оформленные в виде окон (рисунок 30).
Для информирования начинающего пользователя в БД Свиток
образованы
закладки
со
справочным
материалом.
Для
получения
дополнительных параметров текста с использованием введенных базовых
параметров разработан метод их получения.
В результате в БДТкст сохраняются как идентификационные параметры
текста (Имя автора, Название текста), так и базовые данные текста и
рассчитанные дополнительные параметры текста.
Рисунок 30 – Экранный вид интерфейса пользователя БД Свиток
БД Свиток представляет собой организованные записи в таблице,
изображенной на рисунке 31, которая может быть просмотрена в любой
97
программе, совместимой с Microsoft Office Excel.
Рисунок 31 – Экранный вид таблицы БД Свиток
Принцип систематизации данных в БД Свиток:
 1-я строка – заголовок, в котором занесены идентификационные
данные, организованные в табличные колонки:
1 колонка - <Имя (автора)>,
2 колонка - <Текст (название)>, и четыре вводимых параметров текста:
3 колонка - количество слов в синтагмах текста;
4 колонка - количество синтагм в предложении;
5 колонка - количество предложений во фразе;
6 колонка - количество фраз в тексте
и шесть разработанных в диссертационной работе вычисляемых
параметров текста – x, y , z ;

начиная со 2-ой строки – заносятся накопленные данные.
Проведено тестовое использование БД Свиток. Результаты работы
интерфейса пользователя на примере исследования отрывка литературного
произведения представлены на рисунке 32.
Рисунок 32 – Экранный вид итоговой работы пользователя с интерфейсом базы данных
98
4.2.2 Идентифицирующий материал базы данных текстов
В соответствии с условиями предоставления материалов в Роспатент на
регистрацию
баз
данных
изначальный
материал
был
несколько
модифицирован и представлен в следующем виде.
4.2.2.1 Структурная схема БД «Свиток»
Структурная схема БД «Свиток» представлена на рисунке 33, где блоки,
относящиеся непосредственно к разработанной БД, выделены областью с
пунктирной границей.
Уровни качества
обучения
Медалистыабитуриенты
Отчисленные
студенты
Выпускникиспециалисты
Рукописные
документы
БД «Свиток»
Преобразованные
документы
*.doc
Первичный анализ
текстов
*.xls
Пользователи
Исследование,
создание новой
информации
Рисунок 33 – Структурная схема БД «Свиток»
99
Для их наполнения электронной библиотеки информационными
единицами были установлены Уровни качества: Медалисты-абитуриенты,
Отчисленные, Выпускники-специалисты.
Уровни качества обучения задаются внешними условиями. Группы
формируются из учащихся по установленным внешним правилам. В
зависимости от стадии обучения устанавливаются уровни (таблицы 12 и 13).
Для сохранения информации по уровням качества в БД «Свиток»
создана информационная таблица Уровень. Таблица содержит следующие
поля:
Таблица 12 – Уровень
Имя столбца
Тип данных
Описание
id
integer
ID уровня качества
Name
nvarchar(50) null
Имя уровня качества
Таблица содержит следующие значения:
Таблица 13 – Уровни качества
Имя уровня качества обучения
ID уровня качества
Выпускники
GR
Отчисленные
DD
Медалисты-абитуриенты
M
Для этих выделенных уровней выбраны Рукописные документы и
проведен их анализ.
4.2.2.2 Модель базы данных Свиток
Описание сущностей и связей модели базы данных содержится в
следующей таблице 14, на рисунке 34 – концептуальная схема.
100
Таблица 14 – Описание взаимосвязей и сущностей
Имя сущности
Текст преобразованный
Взаимосвязь
Используется для анализа синтаксических
параметров Текста, оформленного в файле
формата *.doc.
Данные первичного
анализа
Извлекает суммарную информацию
синтаксических параметров Текста
преобразованного.
Рисунок 34 – Концептуальная схема уровня сущностей
4.2.2.3 Информационные материалы БД «Свиток»
Преобразованные документы в формате MS Word *.doc, созданы по
следующему принципу:
 1-я строка – заголовок, в котором занесены идентификационные
данные, описанные в таблицах 1 и 2:
<ID уровня качества> <Порядковый номер в кластере уровня качества>
 Начиная со 2-ой строки-записи, каждая строка – это предложение, конец
которого оформлен символом Р. Последовательная запись количества
слов W в синтагме S предложения P организовано так, чтобы
сохранялась оригинальная авторская структура предложения:
< количество слов ><S>< количество слов ><S>… …<P>
 Строка, оформленная одним символом F, определяет конец фразы
(абзаца).
101
Информация по каждому тексту сохранена в файлах, запись имен
которых соответствуют принципу:
<ID уровня качества> <Порядковый номер в кластере уровня
качества>.doc.
На рисунке 35 приведен пример информационного содержания БД
«Свиток».
GR 11
2S3SР
11S4S1S3SР
6SР
4SР
2S5SР
7SР
3S7SР
F
9SР
4S3S3S5SР
6S2S1S3SР
2S2S1S4SР
3SР
1S4S5S1S2S9SР
Рисунок 35 – Преобразованные документы (фрагмент)
Документы в формате MS Excel *.xls, в которых включены данные
первичного анализа рукописных текстов, сформированы по следующим
правилам:
Для каждого уровня качества определена сводная информация по всем
электронным документам, преобразованных документов в формате MS Word,
по синтаксическим параметрам текстов. В таблице 20 описаны поля,
содержащиеся в документе в формате *.xls.
Таблица 15 – Поля документа в формате *.xls
Имя столбца
ID уровня
Описание
Тип данных
integer
Символьное имя уровня качества
decimal(3, 0)
Порядковый номер в кластере уровня
качества
ID
качества
W
decimal(6, 0)
Количество слов в тексте
102
S
decimal(6, 0)
Количество синтагм в тексте
P
decimal(6, 0)
Количество предложений
F
decimal(4, 0)
Количество фраз в тексте
В таблице 16 представлен фрагмент файла для одного из уровней.
Информация сохраняется в файлах, запись имен которых соответствует
принципу:
<ID уровня качества> <Порядковый номер в кластере уровня качества>.xls
Таблица 16 – Фрагмент файла M.xls
Порядковый номер в
ID уровня
кластере уровня
качества
качества, ID
W
S
P
F
М
…
…
…
…
…
М
57
794
171
66
13
М
58
…
…
…
…
М
59
443
88
24
4
М
60
521
120
43
10
Представление информационных единиц и электронных документов в
БД «Свиток» соответствует изображенному на рисунке 36, ее части – на
рисунке 37.
Рисунок 36 – Экранный вид содержимого папки БД
103
Рисунок 37 –Экранный вид содержимого папки «Отчисленные»
Идентифицирующие материалы по базе данных «Свиток» прошли
регистрацию в Федеральной службе по интеллектуальной собственности и
получили Свидетельство о государственной регистрации базы данных с
присвоением № 2015620568, копия которого представлена в приложении.
4.3 Реализация моделей классификационных границ
уровней качества при создании информационной
системы
Построение границ классификатора АкУсп (узел H2 –Математические
Модели – изображенный на рисунке 15) было проведено следующим образом:
А.
посредством
регрессионных
моделей
МГрР
–
построение
классификатора с применением метода множественной полиномиальной
линейной регрессии (на рисунке 15 – узел H1 – R);
Б.
применяя
статистические
модели
МГрВ
–
параметры
классификатора определяются методом максимального правдоподобия (на
схеме алгоритма рисунка 15 – узел H3 – V).
104
4.3.1 Практическое использование регрессионной модели
Для объединенной выборки, описанной в приложении Г, на основании
проведенного
кластерного
высокоуспешных
студентов
анализа,
выделены
кластеры
и
слабоуспешных,
и
данных
получены
классификационные регрессионные модели Qrgs для различных степеней s
многочлена.
Так для степени s=1 определено Qrg1  1,16  1,63x  1,36 y  0,03z .
Для квадратичного полинома (s =2) регрессионная модель имеет вид:
Qrg2   1,92  22,66 x  28,85 y  5,01z  10,75хх  8,87 ху  1,99 xz 
.
 5,70 yy  3,99 yz  0,46zz
Для кубического полинома (s =3) модель имеет вид:
Qrg3   773,77  1167,11x  702,27 y  23,91z  540,46хх  772,56 ху  9,90 xz 
 170,92 yy  24,70 yz  10,13zz  67,57 xxx  24,41yyy  0,54 zzz  20,80 xyz 
 67,55xyy  8,96 xzz  0,57 yzz  226,163xxy  19,29 xxz  7,19 yyz
.Для многочлена четвертой степени (s=4) регрессионная модель:
Qrg4   7390,13  20291,1x  951,70 y  1899,07 z  20268,6 хх  2071,67 ху 
 2949,98xz  602,37 yy  389,70 yz  369,13zz  9314,85ххх  1163,67 ууу 
 43,75zzz  1687,32 xyz  2010,42 xyy  292,75xzz  70,12 yzz  633,52 xxy 
 1951,52 xxz  930,48 yyz  1694,33xxxx  231,98 yyyy  0,59 zzzz  520,11xxxz 
 704,51xxxy  76,13 yyyx  174,66 yyyz  32,03zzzx  12,24 zzzy  764,44 xxyz 
 272,76 yyxz  61,63zzxy  838,32 xxyy  24,09 xxzz  21,30 yyzz
Для этих 4-х регрессионных моделей осуществлено упрощение моделей
методом последовательного исключения из модели переменных, у которых
критерий p-value наибольший и p-value  0,05. Удаление переменных из
модели будет завершено на том шаге, на котором подобные переменные не
будут обнаружены
В итоге получены завершенные на определенном n-м шаге (stpn)
регрессионные модели границ классификации:
Qrg 2  stp7    0,99  1,15 yz  0,29 zz
а также
105
Qrg 3  stp12    314,02  416,14 x  382,57 y  2,68 z  135,95 xx  504,04 xy 
2,93 yz  163,90 xxy
.
Для полиномиальной регрессии 4 степени за 31 шаг рассчитана модель:
Qrg4stp31  1,26  1,59xy  0,15xzz  1,17 yyyz .
Проведен сводный анализ, как самих регрессионных моделей, так и их
способности качественно определить принадлежность данных выборок
определенному классу, уровню АкУсп (см. раздел 3.4). Результаты анализа
приведены в таблице 17.
Таблица 17 – Анализ регрессионных моделей
Модель,
МГрР
ДИП,
%
ДЛП,
%
Чвст,
%
Спцф,
%
max+,
%
min–,
%
R2,
%
Qrg4
68,42
0
68,42
68,42
136,84
0
64,68
Qrg4(stp31)
52,63
15
52,63
37,63
90,26
15
22,85
Qrg3
78,95
6
78,95
72,95
151,9
6
50,61
Qrg3(stp11)
63,16
12
63,16
51,16
114,32
12
29,73
Qrg2
52,63
18
52,63
34,63
87,26
18
28,27
Qrg2(stp7)
52,63
15
52,63
37,63
90,26
15
15,63
Qrg1
26,32
15
26,32
11,32
37,64
15
10,23
Как
видно
из
данных
таблицы
17,
наилучшей
по
критерию
«коэффициент детерминации R2» получена регрессионная модель 4-й степени
Qrg4. Но наилучшей по параметру «Чувствительность» – возможности
сильнее выявлять положительные данные (для высокоуспешных студентов)
модели (~79%) – является кубическая регрессионная модель Qrg3. Анализ
полученных регрессионных моделей показал, пошаговый метод улучшения
106
регрессионных моделей ничего существенного не внес в построение более
качественных регрессионных моделей. Естественно предположить, что для
более высоких степеней полинома можно получить модель, более точно
объясняющую долю вариации зависимой переменной.
Однако
при
этом
увеличивается
громоздкость
самой
модели,
повышается сложность регрессионной модели, определяющейся числом
включенных в нее предикторов, и возрастает трудоемкость расчетов.
Трудоемкость оценивалась в операциях умножения, которые необходимо
выполнить для расчета соответствующей модели как операциях, вызывающих
наибольшие временные затраты. Так регрессионная модель порядка s=7 имеет
120 слагаемых и применяет 630 операций умножения.
Считая, что трудоёмкость алгоритма прямо зависит от количества
операций умножения, применяемых в алгоритме регрессионной модели,
получены результаты, изменяющиеся в зависимости от роста степени
полинома регрессионных моделей. Они показывают увеличение трудоемкости
вычислений с ростом степени полинома регрессионной модели, что наглядно
представлено на рисунке 38. Не каждые аппаратные средства в состоянии
быстро работать с таким количеством переменных, применяемых в созданных
моделях.
107
Количество операций умножения
300
250
210
200
150
105
100
50
45
15
3
0
0
1
2
3
4
Степень полинома
5
6
Рисунок 38 – Увеличение количества операций умножения в алоритме
При проведении сравнения моделей, полученных разными методами,
соблюдено правило равенства по количеству переменных в моделях, что
будет применено к модели МГрВ, созданной на основе ММП. В связи с чем
для
дальнейшего
анализа
были
выбраны
регрессионные
модели
классификации квадратичного вида, отвечающие наименьшей трудоемкости
вычислений, но, в то же время, обладающие достаточной точностью.
Рассматривая, как описано в разделе 2.3, регрессионную функцию

f x, y, z, A , экспериментально для каждого значения параметра  2 (см.


2.3.12а) определена пара функций ошибок I рода O1  f  и II рода O2  f  
(см. 2.3.13) .
Было
подвергнуто
анализу
около
100
регрессионных
моделей
квадратичного вида, значения некоторых из них представлены в таблице 18 .
Точки на графиках рисунка 39 обозначают конкретный проанализированный
вариант регрессионной модели.
108
1
P
O1
0,8
O2
0,6
0,4
Q Е19
Q blnc
Q Е12
0,2
a2
0
0,0000001
0,000001
0,00001
0,0001
0,001
0,01
0,1
1
Рисунок 39 – Результат анализа регрессионных моделей
10
100
1000
109
Таблица 18 – Регрессионные модели
Модель МГрРj
2
Вероятность ошибок I рода, O1
Вероятность ошибок II
рода, O 2
…
0,0000001
0
0,818
…
0,0001
0
0,818
…
0,001
0
0,818
…
0,01
0
0,818
…
0,1
0
0,818
…
0,15
0
0,787
…

QЕ19 , f   ; 0 
0,2
0
0,727
0,25
0
0,636
…
0,3
0,052
0,575
…
…
…
…
…
0,7
0,263
0,333
Qblnc
0,75
0,315
0,30303
…
0,80
0,315
0,303
…
…
…
…
…

QЕ 12 , f   ; 0 
1,3
0,631
0,060
1,35
0,631
0
…
1,4
0,632
0
…
…
…
…
…
10
0,947
0
…
100
1
0
…
1000
1
0
Получены пороговые величины функций ошибок, при которых
исчезают ошибки первого и второго рода (как выделено на рисунке 40).
Количество ошибок I рода становится отличным от нуля при 19 ошибках II

рода – f   ; 0  . Это модель с самой высокой чувствительностью (100%) –
модель QЕ19 , как указано в таблице 19. А нулевое количество ошибок II рода,

f   ; 0  – при наименьшем количестве ошибок I рода равном 63% – модель
QЕ 12 .
110
1,2
observed
0,8
0,4
Область ошибок I рода
0
-0,4
Область ошибок II рода
-0,8
-1,2
-1,6
-1,6
-1,2
-0,8
-0,4
0
0,4
0,8
1,2
predicted
Рисунок 40 – Графический поиск количества ошибок. Модель QЕ 12
Таблица 19 – Показатели регрессионных моделей
ДИП,
ДЛП,
Чвст,
Спцф,
max+,
min–,
%
%
%
%
%
%
QЕ 19
100
57,6
100
42,4
142,4
57,6
Qblnc
47,4
18,2
47,4
81,8
129,2
34,4
Q Е 12
36,8
0
36,8
100
136,8
63,2
Модель МГрРj
Для полученных вариантов пороговых величин рассчитаны уравнения
регрессионных моделей:
QЕ19  6,8 x 2  3,6 y 2  0,2 z 2  5,6 xy  1,2 xz  2,5 yz 
14,4 x  18,3 y  3,1z  0,8
(4.2)
и
Q Е 12  12, 4 x 2  6, 6 y 2  0,5 z 2  10, 3 xy  2, 3 xz  4, 6 yz 
26, 3 x  33,5 y  5,8 z  2, 3
(4.3)
Для рассмотренных обоих случаев ( Q Е19 и Q Е 12 ) проведенный анализ
показал, что есть статистически существенные отношения между девятью
независимыми переменными на 90%-ом доверительном уровне. Кроме того,
111
статистическая величина коэффициента детерминации R2 показала, что в
каждой полученной модели результативный признак Q j прогнозируется
28,3% исходных объясняющих переменных.
Из анализа графиков, представленных на рисунке 32, следует, что
одновременное равенство вероятностей ошибок ( Р  0,30 ) происходит в точке
пересечения графиков (названной в работе точкой баланса). Для нее также
получена регрессионная модель:
Qblnc   0,6  7, 4 x  9,5 y  1,6 z  3,5 x 2 
(4.4)
2, 9 xy  0,6 xz  1,8 y 2  1,3 yz  0,15 z 2
Результат
анализа
данной
модели
аналогичен
предыдущим
статистическим данным регрессионных моделей. Как и для рассмотренных
ранее моделей Q Е 12 и QЕ19 , проведенный анализ модели Qblnc показал, что
значения
статистической
объясняют
лишь
величины
28,3%
коэффициента
исходной
изменчивости
детерминации
R2,
переменных.
А
2
= 12,9%, что говорит о
скорректированный коэффициент детерминации Radj
низком качестве моделей Q j .
В
таблице
24
представлены
результаты
анализа
наиболее
примечательных регрессионных моделей полиномов 2-й степени. Получено,
что
разработанная
модель
Q Е19 –
это
модель
с
самой
высокой
чувствительностью (100%), которая дает истинный результат при наличии
положительного исхода (лучше других моделей обнаруживает положительные
примеры). А модель Q Е 12 – это модель с наиболее высокой специфичностью
(100%), которая дает истинный результат при наличии отрицательного
исхода, она хорошо выявляет отрицательные примеры.
Применение
регрессионного
анализа
выявил
неоднозначность
определения математической модели прогноза АкУсп, влияющая на качество
прогноза. В частности, по показателям чувствительность и специфичность,
связанным с установлением ошибок I рода и II рода.
Следовательно, при дальнейшем практическом использовании МГрР,
112
помимо
анализа
показателей
регрессионных
моделей,
для
выбора
предпочтенного варианта МГрРj, необходимо ответить на ряд вопросов, в том
числе
–
какую
именно
границу
мы
ищем,
для
вероятностного
прогнозирования, например, наибольшего количества «отличников» или
«троечников»?
4.3.2 Практическое использование математической модели
на основе метода максимального правдоподобия
Проведено построение классификатора с использованием метода
максимального правдоподобия. Параметры получившихся эллипсоидов
рассеивания значений параметров текстов выпускников МИФИ для значений
слабоуспешных  С и высокоуспешных  А представлены в таблице 22. Для
удобства
описания
эллипсоидов
их
обозначили:
эллипсоид
«3»
и,
соответственно, эллипсоид «5».
Используя формулы (2.3.17а и 2.3.17б) и найденные значения
эллипсоидов
выборок,
получена
граница
раздела
двух
эллипсоидов
рассеивания. Она имеет вид:
QQ3\5 = 2  Ln  P"5"  x , y , z   – 2  Ln P"3"  x , y , z  =
 37,5x  8,2 y  0,9 z  26,1xy  8,5 yz  4,0 xz  79,8x  34,1y  11,3z  32,9 ,
2
где
2
2
(4.5)
P"5"  x, y , z  и P"3"  x, y , z  – плотности вероятностей распределения
данных экспериментов для высокоуспешных и слабоуспешных обучающихся.
Осуществив, как описано в разделе 2.3, преобразования коэффициентов
уравнения поверхности второго порядка к новой декартовой системе
координат –
F1 ,
F2 , F3  , неприведенная форма уравнения поверхности
второго порядка приведена к каноническому виду. Проведен параллельный
перенос (на +34,5) в центр поверхности второго порядка (1,5; 0,9; 1,3) и
осуществлен поворот системы координат. Найдены собственные значения
{42,4; 7,0; –2,7} и собственные векторы матрицы. Расчеты проводились с
помощью
программной
системы
символьных
вычислений
113
WolframMathematica.
Применив разработанный алгоритм классификации поверхности 2-го
x 2   2 ~y 2   3 ~z 2  d  0
порядка по каноническому виду первого типа  1 ~
(2.3.6а
в
разделе
2.3.2),
у
которой
значения
коэффициентов
1  0, 2  0, 3  0, d  0 , была определена поверхность № 4. По значениям
таблицы В поверхность второго порядка QQ3\5 классифицирована, как
поверхность однополостного гиперболоида (рисунок 41).
F1
F2
F3
Рисунок 41 – Граница раздела классов АкУсп
Таким образом, границей раздела эллипсоидов рассеивания данных
высокоуспешных
А
обучающихся и слабоуспешных
С
( QQ3 \ 5  0 )
является однополостный гиперболоид вращения, у которого каноническая
форма имеет вид:

F2
F12
F2
 2  3  1 .
1,61 1,61 1,61
Следовательно, была построена математическая модель прогноза
академической
успешности
обучения
в
университете
МГрВ
для
высокоуспешных и слабоуспешных выпускников в виде:
QQ3\5  1,61  F12  F22  F32 ,
(4.6)
где F1 , F2 , F3 – линейные комбинации трансформационных параметров
текстов x, y, z,
114
 F1  k1 x  l1 y  m1 z  n1

 F2  k2 x  l2 y  m2 z  n2
F  k x  l y  m z  n
 3
3
3
3
3
а
(4.6а)
ki , li , mi ( i  1, 2, 3 ) - коэффициенты, полученные в результате
приведения
к
каноническому
виду
поверхности
второго
порядка,
представленной на рисунке 35.
Граница раздела классов «Слабоуспешные-высокоуспешные» QQ3\5 с
данными высокоуспешных студентов показана на рисунке 42.
Рисунок 42 – Граница раздела уровней высокоуспешные-слабоуспешные
При анализе данных моделей, представленных в таблицах 18-20,
определено, что наибольшим значением max  обладает модель Q19 . Из
регрессионных моделей наиболее сбалансированной является Qblnc. и Qrg4
(однако она обладает большим количеством переменных, объясняющих
значения функции модели МГрР). Но наилучшей из всех рассматриваемых
моделей по сбалансированности (наименьшим значением min  ) является
МГрВ, модель границы прогноза АкУсп в виде поверхности второго порядка
– однополостного гиперболоида, QQ3\5 .
Таким образом, на основании исследования регрессионных моделей и
вероятностной модели (МГрВ) получения классификационной границы
115
уровней качества подготовки специалистов выбрана однозначная модель
МГрВ – получения поверхности второго порядка, обеспечивающая более
высокое значение критерия оценки качества модели (см. 3.5).
4.3.3 Интерпретация аргументов модели МГрВ3\5
С целью выяснения возможных причин отличия уровней качества
подготовки
специалистов,
интерпретация
аргументов
экспериментальных
данных
академической
F ,
1
F2 , F3 
кортежа
успешности,
модели
 x, y , z 
проведена
МГрВ3\5
полученной
на
функции
академической успешности для уровней качества QQ3\5 (4.7). Данные по
исследованию и интерпретации представлены в приложении Ж.
В результате анализа аргументов модели МГрВ3\5 выявлено наличие в
группе высокоуспешных двух категорий обучаемых, отличающихся лишь
характером,
способом мышления,
при
получении
одних и
тех
же
академических результатов. Т.е. проанализированная система, состоящая из
данных выпускников, имеет три стабильных состояния:
1) «слабоуспешные»,
2) «высокоуспешные+» F1  0 и
3) «высокоуспешные–» F1  0 .
Сделан вывод, что превышение в формуле модели QQ3\5 определенного
оптимального баланса между «штрафными» факторами ( F2 и F3 ) и фактором
F1 , характеризующим способ мышления личности, обусловливает нахождение
точки данных в конкретной области академической успешности.
4.3.4 Анализ классификационных границ между различными
прогнозируемыми уровнями качества
Для полноты полученных выводов проведена проверка разработанных
математических моделей и методик для различных классов академической
116
успешности. Рассмотрены границы между возможными парами кластеров:
I. кластер  А (высокоуспешные студентами) и кластер  С (слабоуспешные
студенты;
II. кластер  С и кластер  D (отчисленные студенты).
Вариант вероятностной границы № I рассмотрен выше. Для получения
границы № II аналогично использованы разработанные модели, методы и
методики рассмотрена случайная подвыборка, состоящая из 60 студентов,
студентов НИЯУ МИФИ, отчисленных из университета. Подвыборка состояла
из 60 испытуемых, выбранных случайным образом из генеральной
совокупности отчисленных с факультета Кибернетика МИФИ в 2006-2008
годах.
Классификационная граница уровней «неуспешные-слабоуспешные»
В результате исследования подвыборки «Неуспешные» - отчисленные
студенты МИФИ получены базовые параметры текста. По разработанной
методике создана математическая модель, определяющая вероятность
принадлежности
обучающихся
к
областям
«Слабоуспешные»
или
«Неуспешные», – получена функция QQ2 \ 3 . Проведя ее анализ, получены
параметры эллипсоидов рассевания данных кластеров, необходимые для
создания границы, как разности вероятностей, представлены в таблице 27.
QQ2 \ 3 = 2  Ln  P"3"  x , y , z   – 2  Ln  P"2"  x , y , z   =
= 73,3  100 x  40,5 x 2  22,7 y  28,5 xy  3,2 y 2  0,3z  3,8 xz  7,9 yz  0,1z 2
В результате сформировано неприведенное уравнение, из которого
образовано уравнение поверхности второго порядка:
QQ2\3  1,43  H 12  H 22  H 32 ,
(4.7)
– однополостный гиперболоид вращения. Эта поверхность является
классификационной
вероятностной
слабоуспешных студентов.
границей
данных
неуспешных
и
117
4.4 Анализ разработанных моделей прогнозирования
уровней качества
Проведен анализ результатов разработанных моделей прогнозирования
уровней
качества
подготовки
специалистов,
уровней
академической
успешности, студентов МИФИ. Произведено выявление классификационных
границ.
Создана таблица 20 – сводная таблица показателей разработанных
математических моделей МГрВ.
Таблица 20 – Сравнение показателей моделей МГрВ
ДИП,
ДЛП,
Чвст,
Спцф,
max+,
min–,
%
%
%
%
%
%
QQ3\5
89,47
45,4
89,4
54,5
144,01
34,92
QQ2\3
96,96
88,33
96,9
11,6
108,6
85,30
Модель МГрВ
Проведя
сравнение
показатели
моделей,
получено,
что
все
дополнительно разработанные функции для прогнозирования уровней
качества подготовки специалистов, границ АкУсп, как и модель QQ3\5 ,
обладают высокой степенью прогноза. Так для модели QQ2\3 она составляет
0,97 для слабоуспешных студентов.
В результате анализа разработанных моделей прогнозирования уровней
качества сделан положительный вывод об эффективности использования
данной
математической
информационной системы.
модели
МГрВ
при
построении
прототипа
118
4.4.1 Апробация разработанных моделей и алгоритмов
Для проведения проверки работоспособности разработанных моделей и
алгоритмов по прогнозированию уровня качества подготовки специалистов в
реальных условиях проведено сравнение выборочных данных других
объектов, характерных по параметрам письменной речи и учебного уровня.
4.4.1.1 Анализ тестовой выборки
Для чего была подвергнута проверочному анализу совокупность лучших
сочинений по литературе, написанных победителями российских олимпиад по
литературе и школьниками-медалистами, потенциальных абитуриентов.
Выборка «Медалисты России» является простой случайной выборкой,
сформированной из генеральной совокупности сочинений, представленных на
CD-носителе [167]. Её объем является репрезентативным (20%), т.е.
достаточным для проведения статистического исследования [156, 168].
Использовались в исследовании снятые по разработанной методике
текстовые показатели 60 сочинений медалистов. Подвыборка «Медалисты
России» использовалась как тестовая, а подвыборка «успешные» выпускники
МИФИ”, созданная из подвыборки «выпускники МИФИ», – как эталонная.
Для
подтверждения
правомерности
предложенной
методики
сравнительного анализа выдвигалась нуль-гипотеза H 0 об однородности двух
рассматриваемых выборок (нет различий): «Успешные студенты МИФИ» и
«Медалистов России». Исследование проводилось по трансформационным
показателям текстов.
Для расчета критерия  использована формула:   
2
2
 f0  fe 
где f o – наблюдаемые частоты;
f e – ожидаемые частоты (эмпирические или теоретические),
рассчитано экспериментальное значение:  2 экспрм =3,21.
fe
2
,
119
Из таблицы уровней значимости найдено для одной степени свободы
значение  20,99 =6,64. Сравнивая значения экспериментальное и расчетное,
получено, что  20,99 >  2 экспрм .
Следовательно,
полученная
экспериментальная
величина
2
не
достаточна для отклонения H 0 на уровне значимости   0,01 .
Таким образом, есть все основания считать, что между данными этих
двух
выборок,
тестовой
и
эталонной,
не
имеются
различия
по
прогнозируемому уровню АкУсп. И, следовательно, правомерно использовать
выборки «Медалисты России» и «Успешные студенты МИФИ» для
проведения совместного статистического исследования.
Полный текст одного из сочинений из БД «Медалисты России»
представлен на рисунке 43.
120
Анализ главы «У дядюшки» («Война и мир» II том)
Второй том романа «Война и мир», особенно любим большинством читате лей. Восхищает те плая
атмосфера многолюдного дома Ростовых, семейные праздники, нежность и доброта отноше ний между
родителями и детьми, музыкальные вечера — словом, все, что придает какую-то особую духовность. Мне
почему-то вспоминае тся мысль французского пис ате ля о том, что самая большая в мире роскошь — э то
роскошь че ловеческого общения.
В седьмой главе четвертой части мы видим молодежь дома Ростовых: Николая, Наташу, Пе тю,
возвращающихс я с охоты и ос танавливающихся отдохнуть у свое го дальне го родственника, не богатого
помещика, владельца единственной деревеньки Михайловка. Ростовы называют е го дядюшкой, а сам
автор поче му-то не жел ает давать ему имени. Этот дядюшка — большой любитель охоты, и мы сначала
видим его, ле тящего на свое й лошади за зайцем, потом, когда его с обака по кличке Ругай сбивает этого
зайца, он, с удовольствием потряхивая зве рьком, чтобы стекала кровь, сам говорит, «не зная с кем и
что». Ес ли выискивать какой-то сюже т в седьмой главе романа, то е два ли что выйдет из этого путного.
Люди посидели немного в деревенс ком доме, где вис ят шкуры убитых звере й и пахнет яблоками и где,
хоть и не заметно ос обого порядка, но и нет запущенности. Правда, мебель старая, ободранная, но не
столь это важно для гос тей дядюшк и. Молодежь с удовольствие м слушает музыку, танцуе т. Вот и все. И
в то же время этот э пизод играет оче нь важную роль в к омпозиции второго тома. Прежде всего, в нем
выр ажается огромное же лание с амого автора подчеркнуть нерасторжимую с вязь своих герое в с
народом. Николай и Наташа слушают народную музыку, и она приводит их в восторг. Им, воспитанным
на изысканных европе йских мелодиях, ис полняемых на клавикордах, оказываются близки и понятны
не затейливые мотивы народных песен.
Писатель немало внимания уде ляет опис анию угощения в дядюшкином доме . Неудивительно, что
молодым людям, целый де нь пробывшим на воздухе , очень хочется есть, но дело не только в этом.
Физическое воздействие художественного слова нас только ве лико, что хочется есть и самому читате лю.
И в самом деле , разве не разыграется аппетит, когда читаешь, и видишь на подносе грибки, лепе шки
черной муки на юраге, сотовый мед, яблоки, оре хи сырые и каленые, оре хи в меду, а зате м приносятс я и
ветчина, и курица, только что зажаренная.
Наташа чувствует се бя пре восходно, она счастлива от близости любимого брата, от удачно проведенного
дня, и несл учайно услышанная мелодия кажется ей «верхом музыкальной преле сти». Даже одежда
дядюшки, вызвавшая бы насме шки в другом месте, каже тся ей удивительно к месту в данной
обстановке. По всей видимости, дядюшка относится к тому типу людей, которые могут довольствоваться
малым, но для которых необходимо сознание, что они находятся на свое м месте. Поэтому Толстой и не
показывает этого человека ни в московском доме Ростовых, ни в Отрадненском.
Большая часть седьмой главы посвящена музыке. Внимательно слушае т дядюшка игру дворового парня
Митьки, де лает замечания, а потом сам велит принести экономке Анисье Федоровне гитару. Играет
дядюшка известную песню «По улице мостовой», из-под е го пальцев выпеваютс я слова: «За холодной
ключевой, кричит де вице, постой!» И вот уже мы видим хрупкую фигуру Наташи, е е тонкие руки,
подпирающие бока, движенье плеч. Пляска Натальи — это не что необыкновенное. Такие слова, как
пл астика, грация, кажутся банальными, ничего не выражающими. Не удивительно, что на глазах Анисьи
Федоровны появляются сле зы, ведь она видит, что это тоненькая, хрупкая, такая чужая е й, в шелку и
бархате воспитанная графинечка «умела понять все то, что было в Анисье , и в отце Анисьи, и в тетке, и
в мате ри, и во всяком русском че ловеке».
Музыка завораживае т. Даже воспоминания о разлуке с женихом не омрачают состояния счастья.
Наверно, редко бывае т такая минута душевного комфорта, и юная героиня р омана это прекрасно
понимает.
Дядюшка поет свою любимую охотничью песню, а писатель даже ничего не говорит, насколько хорош
ил и плох голос е го героя. Наверно, не так уж э то и важно. «Дядюшка пел так, как пое т народ, с тем
полным и наивным убеждение м, что в пес не все значение закл ючается только в словах, что напев с ам
собой приходит и что отдельного напева не бывае т, а что напе в так только, для складу».
Концовка се дьмой главы — это беседа Наташи с братом, когда они подъезжают к Отрадненскому дому.
Ночь темная, сырая, а на душе у ге роев све тло и радостно. Они вспоминают охоту, дядюшку, его песню.
Но вот что-то омрачает этот лирический настрой. Наверное, пре дчувствие Наташи, что она уже никогда
не будет «так счастлива, спокойна, как теперь».
А в гостиной горит огонь, и окна дома красиво бле стят «в мокрой бархатной те мноте ночи». Я часто
думаю о музыкальности романа «Война и мир». На первый взгляд, кажется с транным говорить о какомто особом звучании тол стовской прозы. Ве дь обычно с музыкой с вязывают поэзию, а тут такой
громоздкий с интаксис, такая ус ложне нная структура те кста. И все же какая упоительная ме лодия
звучит со ст аниц этой замечате льной книги, какое многоголосье ! Кажется, что все звуки подлинного
мира собрались в романе, чтобы напомнить суетливому че ловеку о подлинной красоте бытия.
Рисунок 43 – Полный текст сочинения М37
В результате исследования текстов сочинений медалистов России
121
получены информационные параметры текста: количество слов W, синтагм S,
предложений P
и
фраз
F
в
изучаемых
текстах
(таблица 23).
Все
синтаксические параметры текстов были занесены в БДТкст БД Свиток,
обозначив
эту
часть
базы
данных
как
БДМдР
с
присвоением
в
идентификационных номерах дополнительной литеры «М». Для выборки
«Медалисты России» вычислены трансформационные параметры текстов.
Таблица 21 – Базовые параметры текстов БД «Медалисты России»
Параметры текста
Минимум
Максимум
Количество слов, W
397
1243
Количество синтагм, S
71
259
Количество предложений, P
21
74
Количество фраз, F
3
20
Поведена кодировка текстов сочинений по разработанной методике, в
которой числа обозначают количество слов, а символы «+» – означает
«синтагма», «#» – конец предложения, «@» – конец абзаца. Так, например,
для М37 кодовая строка текста сочинения, представленного на рисунке 37,
выглядит следующим образом:
<6 + 3 1+# 6+ 2+ 6 2+ 2+ 1+ 1+ 3 2+# 6 2+ 6+ 3 1+# @ 9 1+ 1+ 1+ 1+ 9 1+ 2+ 3 1+# 3
1+ 9+# 2+ 3+ 3 2+ 6+ 1+ 9+ 1+ 3 1+ 3+ 2+ 6+# 6 2+ 3 2+# 6+ 9 1+ 6+ 3 1+# 1+ 2+ 1+ 6 2+# 3
2+ 1+# 3+# 9 6+# 2+ 9 3 2+# 6+ 6+# 1+ 3 2+ 3+ 6 2+# @ 9+# 1+ 3+ 3 2+ 3+ 6+# 6+ 6+# 3 1+ 3
1+ 2+ 3 2+ 3 2+ 2+ 1+ 3 1+ 3+ 3 2+ 2+ 3+# @ 3 1+ 6+ 3 1+ 9+# 3+ 6+ 6 2+# 3+ 6+ 3 1+ 3 2+
6+# 9 3+ 3+# @ 6+# 6 1+ 2+ 9+# 6 1+ 3 2+ 3+ 2+ 1+# 6 2+ 3+ 2+ 2+# 2+ 3+# 2+ 2+ 1+ 2+ 3+#
2+ 6 1+ 3+ 3+ 1+ 3+ 9 1+ 3 1+ 3 1+ 3+ 3+ 3 2+# @ 2+# 9 1+# 1+ 6+ 6 1+# @ 6+ 6+ 6 1+# 1+
6+# 3+ 3+ 6+ 9+ 9 2+ 3 2+ 2+# @ 3+ 3 2+ 6+# 2+ 1+ 6 2+# 3+ 1+ 2+# 6 1+# 1+ 2+ 6 2+ 1+ 2+#
@ 3 2+ 9 1+# 9+# 3+ 9+# 6+ 3 2+ 3 1+# 9 3+ 2+# 1+ 6 2+ 6 2+# @>
Как видно, при сравнении текста, представленного на рисунке 37, с
записью его в виде кодовой строки текста, при хранении и дальнейшей работе
с частотными характеристиками текста, компактнее сохранять его в кодовом
виде.
Практически в 11 раз происходит уменьшение объема, по сравнению с
122
объемом полного незакодированного электронного вида письменного текста
сочинения (на примере текста М37, 55 КБ), сохраняемые в rtf формате, что
обеспечивает экономию ресурсов памяти ЭС.
Проверка гипотезы о типе распределений для трансформационных
индикаторов текстов x, y, z выборки «Медалисты России» (критерий согласия
 2 и Колмогорова-Смирнова) показала, что мы не можем отвергнуть
гипотезы о нормальности распределений на уровне значимости 10%.
Далее предполагая, что сочинения могли быть написаны медалистами–
абитуриентами на экзамене при поступлении в НИЯУ МИФИ, по отношению
к
случайной
разработанных
выборке
моделей
медалистов
и
проведена
методик.
опытная
Определена
эксплуатация
вероятность
их
принадлежности к одному из классов АкУсп: уровню успешных студентов
или к уровню неуспешные (слабоуспешные и неуспешные). Для этого
использовалась разработанная МГрВ для этих уровней, функция успешности
QQ2 \ 3 . Применяя ее для выборки «Медалисты России», получили результаты:
индивидуальные значения функции QQ2 \ 3 показывают, что некоторые данные
функции АкУсп медалистов России принадлежат прогнозируемому классу
 D «неуспешных» при обучении в НИЯУ МИФИ. И только у 75% успешных
медалистов России получены значения функции QQ  0 .
Таким образом, анализ полученных экспериментальных результатов
позволяет сделать вывод, что не все учащиеся из выборки «Медалисты
России», если бы они изъявили желание обучаться в НИЯУ МИФИ, смогли
бы стать выпускниками вышеназванного вуза.
4.4.1.2 Анализ данных выборки медалистов-абитуриентов студентов МИФИ
Для подтверждения этого вывода рассмотрена подвыборка медалистовабитуриентов, которые поступили в НИЯУ МИФИ и проходили обучение на
факультете Кибернетика.
Проанализированные
данные,
представленные
в
таблице
24,
123
отсортированы на успешно окончивших обучение (получивших диплом вуза)
и на отчисленных за академическую неуспеваемость (категория  D –
неуспешные студенты).
Таблица 22 – Данные медалистов-абитуриентов МИФИ
Год поступления
Категории
медалистов-абитуриентов,
2004
2005
студентов МИФИ
Итого за 3
года
2006
Кол-во студентов, %
Неуспешные,  D
22
16
11
17
Получили диплом, успешные
78
84
89
83
Всего
100
100
100
100
Проведя сравнение данных прогнозирования уровня «успешный» для
выборки
«Медалисты
дипломированных
России»
специалистов
с
истинными
МИФИ
для
данными
выборки
(83%)
«Медалистов-
абитуриентов успешных студентов МИФИ», а для выборки «Медалисты
России» спрогнозировано значение 75% потенциально дипломированных
специалистов МИФИ.
4.5 Верификация разработанных моделей
При
проведении
верификации
математических
моделей:
для
подтверждения истинности полученных результатов проведена разработка по
данным выборки А регрессионной модели QR^2 и модели с применением
ММП – QQQ5\3 .
QR^2 = 21,4+42,0x-30,8y-0,7z -5,5x2+17,3y2-0,2z2-6,6xz-11,2xy+12,4yz и
QQQ5\3=+FF12-FF22+FF32-3,23; (однополостный гиперболоид)
где
FF1=8,1x-2,5y-0,1z-9,2;
FF2= +0,6x+2,1y+1,7z+5,2;
FF3= 0,3x+1,7y-1,5z+0,3.
124
На данных выборки Б рассчитана принадлежность к классам высокоуспешных
и
слабоуспешных
специалистов.
Проведено
сравнение
с
истинными
значениями выборки Б.
Истинная принадлежность к классам академической успешности
определялась кластерным анализом выборки Б. Выявлена ошибка I рода =
38% при коэффициенте детерминации R2 модели, объясняемом 35,6%
исходной изменчивости переменных. Анализ результатов всех моделей
показал,
что
все
разработанные
модели
успешно
прогнозируют
принадлежность данных студентов к определенным уровням академической
успешности.
Разработанные методики и модели предлагается использовать в
практике работы системы образования (рисунок 44), систем переподготовки
кадров, профессиональной ориентации и пр.
2
1
магистр
бакалавр
1
1
абитуриент
аспирант
1
1
специалист
3
3
3
3
Молодой специалист
Рисунок 44 – Схема предлагаемого применения разработанных методик
где цифры на схеме обозначают процессы в социальной системе:
1. Конкурсный отбор студентов для повышения качества обучения.
2. Прогнозирование потребности в количестве
магистров при
многоступенчатом обучении.
3. Анализ результатов собеседования в кадровых агентствах.
Их применение в процессе многоступенчатого образовательного
125
процесса (бакалавр-магистр, специалист), в деятельности тьюторов академических консультантов, рекомендующих уникальное академическое
продвижение
обучающегося
в
образовательном
пространстве,
будет
актуальным.
Очевидно, что прогноз уровня успешности исследуемого качества в
любой другой деятельности может быть определен по методикам и
алгоритмам, разработанным в данной исследовательской работе.
Основные результаты и выводы по главе 4
В
главе
4
описано
практическое
применение
разработанных
математических моделей, архитектуры и алгоритмов при проектировании
прототипа информационной системы учета и анализа уровней качества
подготовки специалистов, использующей экспертную информацию.
1.
Предложена функциональная модель информационной системы,
на входах, которой применяется архивная информация. Выделены два потока
– 1) экспертной информации в виде данных отметок, полученных обучаемыми
за все экзаменационные сессии; 2) рукописные тексты экзаменов по русскому
языку. На выходе получают данные об уровне качества специалиста.
2.
кластерный
На примере данных обучаемых в НИЯУ МИФИ проведя
анализ,
получены
характеристики
кластеров
качества
академической успешности.
3.
Осуществлен
анализ
параметров
рукописных
текстов
и
подтверждена необходимость их трансформации. Разработана БДТкст – база
данных синтаксических параметров текста, БД Свиток. Идентифицирующие
материалы по базе данных представлены в документах Роспатента РФ,
переданных на регистрацию базы данных.
4.
Проведена реализация и практическое использование моделей
классификационных границ уровней качества при создании информационной
системы:
126
1) посредством регрессионных моделей МГрР – классификатор с
применением
метода
множественной
полиномиальной
линейной
регрессии;
2) используя статистические модели МГрВ – параметры классификатора
определены методом максимального правдоподобия и методом главных
компонент.
В результате анализа математических моделей выбрана модель
5.
МГрВ – получения поверхности второго порядка, обеспечивающая более
высокое значение критерия оценки качества модели. Проведено построение
математических моделей классификационных границ для уровней качества
подготовки
специалистов
«неуспешные/слабоуспешные»
и
«слабоуспешные/высокоуспешные». В результате практического применения,
сделан
положительный
вывод
об
использовании
разработанной
математической модели МГрВ при построении прототипа информационной
системы.
6.
Осуществлена
апробация
разработанных
математических
моделей, архитектуры и алгоритмов прогнозирования уровней качества
подготовки специалистов на выборке текстов сочинений по русскому языку
медалистов России. Проведено сравнение данных прогнозирования для
выборки «Медалисты России» с истинными данными для выборки
«Медалисты - успешные студенты МИФИ». Подтверждена практическая
ценность созданной модели – данные по прогнозу уровней совпали на 83%.
7.
Проведена верификации разработанных математических моделей
на двух выборках выпускников. По одной проводилось моделирование, по
другой – проводилось тестирование. Анализ результатов всех моделей
показал,
что
все
разработанные
модели
успешно
пронозируют
принадлежность данных студентов к определенным уровням академической
успешности.
127
ЗАКЛЮЧЕНИЕ
В
диссертационном
прикладные
исследовании
исследования
системных
проведены
связей
теоретические
и
и
закономерностей
функционирования и развития объектов и процессов в области образования:
обучения студентов в вузе. Рассмотрены возможные завершающие этапы
этого процесса: выпускник-специалист и отчисленный, неуспешный студент.
С целью повышения эффективности функционирования системы образования
предложено на ранних этапах обучения проводить прогнозирование оценки
качества студентов, как объектов системы высшего образования. Предложено
использовать данные ретроспективной, текущей и экспертной информации.
Осуществлен обзор существующих методов анализа и моделей для
построения информационной системы поддержки принятия решений для
прогнозирования оценки качества подготовки специалистов в вузе.
Проведен анализ методов и моделей для построения информационных
систем, осуществляющих учет и анализ уровней качества подготовки
специалистов, который показал слабую степень разработанности данной
темы. Предложено разработать ИС на основе входных данных, разделенных
на два потока: экспертная информация, в качестве которой выступают
экзаменационные оценки, и данные параметров рукописных документов
обучаемых.
Разработана методика прогнозирования уровней качества подготовки
специалистов – уровней академической успешности. Построена модель
классификации
уровней
академической
успешности,
характеризующих
качество подготовки специалистов, с использованием кластерного анализа,
выявившая траекторную модель академической успешности.
Создана модель текста, использующая параметры письменной речи,
разработанные
по
синтаксической
структуре
теста.
Для
повышения
эффективности управления образовательным процессом разработана база
128
данных синтаксических параметров текста БД «Свиток».
Разработаны
алгоритмы
построения
математических
моделей
определения уровней качества подготовки специалистов. Проведен поиск
классификационной
границы
между
различными
уровнями
качества
подготовки специалистов с помощью разнообразных подходов. В первом
случае
сформирована
модель,
применяющая
методы
множественной
линейной регрессии, и во втором случае – методы корреляционного и
многомерного
статистического
анализа,
максимального
метода
правдоподобия и факторного анализа.
В результате создания различных видов системы (функциональной и
информационной), проектирования основных структурных компонентов ИС, а
также описания алгоритма их функционирования, математических моделей
взаимодействия элементов системы и разработки базы данных построена
архитектура информационной системы учета и анализа уровней качества
специалистов.
На
примере
данных
обучаемых
в
НИЯУ
МИФИ
проведено
исследование разработанных математических моделей классификационных
границ
уровней
качества
подготовки
специалистов:
множественная
регрессионная модель степени s. В результате предложено использовать
регрессионную
квадратичную
модель
и
математическую
модель,
использующую метод максимального правдоподобия, в результате ее
применения определена граница между уровнями качества подготовки
специалистов в виде поверхности второго порядка, классифицированная как
поверхность однополостного гиперболоида.
По
итогам
экспериментального
исследования
построены
математические модели классификационных границ для уровней качества
подготовки специалистов «неуспешные-слабоуспешные» и «слабоуспешныевысокоуспешные».
Апробация разработанных математических моделей, архитектуры
информационной системы и алгоритмов прогнозирования уровней качества
129
подготовки специалистов проведена на выборке текстов сочинений по
русскому языку медалистов России. Сравнение данных прогнозирования для
выборки «Медалисты России» с истинными данными для выборки
«Медалисты – успешные студенты МИФИ» подтвердило достоверность
результатов, получаемых с помощью разработанных инструментов: данные по
прогнозу уровней качества совпали с реальными на 83%. Проведена
верификация моделей, алгоритмов и разработанных моделей прогнозирования
оценки качества при обучении в вузе. На выборке А данных выпускников
разработаны
модели,
и
по
данным
выборки
Б
проведен
прогноз
принадлежности данных студентов к определенным уровням академической
успешности. Анализ результатов всех математических моделей показал, что
разработанные модели успешно осуществляют эту функцию.
Информационная система учета и анализа уровней качества подготовки
специалистов, созданные в ходе диссертационного исследования модели,
алгоритмы и методики, могут быть использованы в практике работы системы
высшего профессионального образования, в системе переподготовки кадров, а
также профессиональной ориентации и т.д. Кроме того, их применение при
многоступенчатом образовательном процессе, в деятельности тьюторов –
академических консультантов, будет полезно и актуально.
Информационная система, математические модели, архитектура и
алгоритмы могут использованы и в других социальных системах, в которых
необходимо исследовать уровни качества объектов системы.
Результаты диссертационной работы отражены в 20 печатных работах.
Из них пять работ представлены в периодических научных изданиях,
включенных в перечень российских рецензируемых научных журналов и
изданий, рекомендованных ВАК России для опубликования основных
научных результатов диссертации на соискание ученой степени кандидата
наук, и одна публикация – в журнале, входящем в базу цитирования Scopus.
Получено одно свидетельство № 2015620568 о государственной регистрации
130
базы данных. Три работы опубликованы без соавторов. Результаты работы
докладывались на 6 международных и 8 всероссийских конференциях и
семинарах.
Практическая значимость результатов диссертационного исследования
подтверждена 3 Актами о внедрении. Материалы по БД «Свиток» в
Федеральной
службе
по
интеллектуальной
собственности
Свидетельство о государственной регистрации базы данных.
получили
131
Список сокращений и условных обозначений
АкУсп
академическая успешность, академическая
успеваемость
БДОтм
база данных академических отметок
БДТкст
база данных текстов
ЖЦ
жизненный цикл
ИС
информационная система
МГК
метод главных компонент
ММП
метод максимального правдоподобия
МГр
модель границ
МГрВ
модель границы вероятностная
МГрР
модель границы регрессионная
МТкст
модель текста
ПАУ
показатель академической успешности
ПсРч
письменная речь
СМК
системы менеджмента качества
ЭС
экспертная система
ФАУ
формула академической успешности
W
количество слов в тексте
S
количество синтагм в тексте
P
количество предложений в тексте
F
количество фраз (абзацев) в тексте
X, Y, Z
базовые параметры текста (C. 57)
X
среднее количество слов в синтагмах
Y
среднее количество синтагм в предложении
Z
среднее количество предложений во фразе
x, y, z
трансформационные индикаторы текста (C. 59)
132
Список литературы
1.
Капица С.П. Общая теория роста человечества: Сколько людей жило, живет и
будет жить на Земле. М.: Наука, 1999. 190 с.
2.
Как оседлать лавину информации // Пресс-релиз Cisco за 2010 год. 21 июля
2010 г. URL: http://www.cisco.com/web/RU/news/releases/txt/2010/ 072110.html/ (дата
обращения: 10.09.10).
3.
Римашевская Н.М.,
Галицкий
В.Ф.,
Овсянников А.А.
Население и
глобализация. М.: Наука, 2004. 328 с.
4.
Мунин П.И. Волновой феномен глобализации // [Сайт С.П.Курдюмова] URL:
http://spkurdyumov.narod.ru/D10Munin.htm/ (дата обращения: 11.10.10)
5.
Малинецкий Г.Г. Сколько стоит культура. Выступление на Совете по
культуре Совета Федерации Российской Федерации 04.02.2011 // [Сайт С.П.Курдюмова].
URL: http://spkurdyumov.narod.ru/malkultur.htm/ (дата обращения: 11.07.11)
6.
Малинецкий Г.Г., Подлазов А.В. ЕГЭ как катализатор кризиса российского
образования // [Сайт С.П.Курдюмова]. URL: http://spkurdyumov.narod.ru/ egemp.htm/ (дата
обращения: 11.07.11)
7.
Римашевская Н.М. Русский крест // Природа. 1999. №6. С. 3-10.
8.
Кащенко С.А. и др. Исследование развития высшей школы. Модели среднего
уровня. Препринт ИПМ им. М.В. Келдыша РАН. № 37. М., 1996.
9.
Капица С.П., Курдюмов С.П., Малинецкий Г.Г. Синергетика и прогнозы
будущего. Серия "Синергетика: от прошлого к будущему". М.: УРСС, 2003. 288 с.
10.
Ахромеева
Т.С.
и
др.
Новые
направления
системного
анализа
и
компьютерного моделирования образовательной стратегии и политики России. Препринт //
М.: ИПМ им. М.В.Келдыша РАН, 2001. 29 с.
11.
Указ президента Российской Федерации от 07.10.2008 № 1448 «О реализации
пилотного проекта по созданию национальных исследовательских университетов» //
Президент
России.
Официальное
интернет-представительство.
URL:
http://document.kremlin.ru/doc.asp/ (дата обращения: 02.09.10).
12.
Национальные исследовательские университеты. // Национальный фонд
подготовки кадров. URL: http://univer.ntf.ru/p58aa1.html/ (дата обращения: 12.10.11).
13.
Федеральная целевая программа развития образования на 2011-2015 годы //
Сайт программы. URL: http://www.fcpro.ru/
http://government.ru/media/files/mlorxfXbbCk.pdf (дата обращения: 12.10.11).
133
14.
Федеральная целевая программа развития образования на 2016 - 2020 годы.
(утв. Постановлением Правительства РФ от 23 мая 2015 г. N 497). Система ГАРАНТ. URL:
http://base.garant.ru/71044750/ #block_1000#ixzz3veIhEgtx (дата обращения: 12.06.15).
15.
по
ГОСТ Р 52614.2-2006 Системы менеджмента качества. Руководящие указания
применению
ГОСТ
Р
ИСО
9001-2001
в
сфере
образования.
URL:
http://vsegost.com/Catalog/12/1208.shtml/ (дата обращения: 06.08.11).
16.
Бычкова Л.П., Скопинцева Н.А. Прогноз успеваемости учащихся по объему
кратковременной памяти, полученному по новой экспресс-методике. (ИП РАН) URL:
http://ag-students.narod.ru/kon.htm /(дата обращения: 05.08.09)/
17.
Луценко Е.В. Прогнозирование учебных достижений студентов на основе
особенностей их почерка с применением системно-когнитивного анализа. URL:
http://ej.kubagro.ru/2006/04/ pdf/27.pdf/ (дата обращения: 06.08.11).
18.
Зимняя И.А. Ключевые компетенции – новая парадигма результата
современного
образования //
Интернет-журнал
"Эйдос".
5
мая
2006.
URL:
http://www.eidos.ru/journal/2006/0505.htm/(дата обращения: 20.05.10)
19.
Зимняя И.А. Педагогическая психология. Учебник для вузов. М.: Логос, 2005.
20.
Беспалько В.П. Критерии оценки знаний учащихся и пути оптимизации
384 с.
процесса обучения // Теория поэтапного формирования умственных действий и управление
процессом обучения. М., 1960.
21.
Беспалько В.П. Программированное обучение. Дидактические основы. М.:
Высшая школа, 1970. 300 с.
22.
Основы информатики и вычислительной техники. Сборник тестовых заданий
для оценки качества подготовки выпускников средних школ и абитуриентов высших
учебных заведений. Экспериментальное научно-методическое пособие для учителей и
экзаменационных комиссий./ Под. общ. ред. Н.А. Селезневой и В.П. Беспалько.
М.Исследовательский центр проблем качества подготовки специалистов, 1999г.-130с.
23.
Фомина Н.Б. Оценка качества образования. Методическое пособие. М. 2010.
24.
Чекмарев В. В. Инновации в образовательных системах. Экономика
37 с.
образования, № 4, часть 1. 2009. С. 32-35. URL: http://www.ksu.edu.ru/ (дата обращения:
15.05.2011)
25.
Сидоренко Е.В. Методы математической обработки в психологии. СПб.:
Речь, 2006. 350 с.
26.
Талызина Н.Ф. Деятельностная теория обучения как основа подготовки
134
специалистов.
//Вестник
Московского
университета.
Серия
20.
Педагогическое
образование. № 3 М. 2009. С. 17-30. URL: http://istina.msu.ru/publications/article/1406928/
(дата обращения: 13.08.2013).
27.
Берестнева О.Г. Качество обучения в техническом университете: Методы
оценки и результаты исследований. Томск: ТПУ, 2004. 192 с.
28.
управления
Леонова
и
Н.М.
Методы
идентификации
адаптивного
многосвязных
структурно-параметрического
социальных
объектов
на
примере
образовательной деятельности. // Дисс. на соиск. уч. степ докт. техн. наук. М., МИФИ,
2006. 331 с.
29.
Берестнева О.Г., Марухина О.В. Прогнозирование успешности обучения
студентов на основе неоднородной последовательной процедуры распознавания. //
Компьютерное моделирование 2003: Тр. IV Межд. н.-техн. конф. СПб., 2003.
30.
Подольная Н.Н. и др. Применение статистических методов в исследовании
успеваемости студентов вуза как составляющей качества образования// Электронное
периодическое научное издание «Системное управление» URL: http://sisupr.mrsu.ru/20091/pdf/31_Podolnay.pdf/ (дата обращения: 04.09.10).
31.
Берестнева О.Г. Системные исследования и информационные технологии
оценки компетентности студентов. // Автореф. дисс. на соиск. уч. степ. д. т. н. Томск, 2007.
42 c.
32.
Марухина О.В. Алгоритмы обработки информации в задачах оценивания
качества обучения студентов вуза на основе экспертно-статистических методов.
Автореферат дисс. на соиск. уч. степ. канд. т. н. Томск, 2003. 20 c.
33.
SAT // Официальный сайт теста SAT / URL: http://sat.collegeboard.org/home/
(дата обращения: 12.02.09).
34.
About the GRE® Subject Tests // Официальный сайт GRE.
URL:
http://www.ets.org/gre/subject/about/ (дата обращения: 12.02.09).
35.
Анастази А., Урбина С. Психологическое тестирование. СПб.: Питер, 2007.
36.
Тест
688 с.
АСТУР
//
[Сайт
Психологического
института
РАО].
URL:
http://www.pirao.ru/ru/news/detail.php?ID=1497/ (дата обращения: 06.09.10)/
37.
Акимова М.К., Борисова Е.М., Гуревич К.М., Козлова В.Т., Логинова Г.П.,
Раевский А.М., Ференс Н.А. Тест умственного развития абитуриентов и старшеклассников
(АСТУР). Руководство по работе с тестом. – М.: ПИ РАО, 1995.
38.
Богомолов А.И. и др. Прогнозирование успеваемости обучающихся по
специальным дисциплинам на основе регрессионных уравнений // Вестн. Поволж. Рег. Сер.
135
Гуманитарные науки, Известия высших учебных заведений. 2009. №1. С. 124-132.
39.
Клейман Э.И.Учебная компетентность как базовая составляющая качества
дистанционного образования. // Известия Российского государственного педагогического
университета им. А.И.Герцена. №43-2. М., 2007. С. 117-122.
40.
ГОСТ Р 52614.2-2006
Системы менеджмента качества. Руководящие
указания по применению ГОСТ Р ИСО 9001-2001 в сфере образования. Росстандарт // URL:
http://www.gost.ru/wps/portal/ pages.CatalogOfStandarts (дата обращения: 07.02.11).
41.
Болсинова М.А., Шмелев А.Г. Взаимосвязь индивидуально-личностных
особенностей студентов и успешности прохождения экзамена в компьютеризированной и
традиционной форме. // Психологические исследования: электрон. науч. журн. 2010. №
4(12). URL: http://psystudy.ru (дата обращения: 08.12.2012).
42.
разными
Ледовская Т.В. Индивидуально-типологические особенности студентов вуза с
показателями
успешности
учебной
деятельности.
//
URL:
http://psyjournals.ru/education21/issue/55855_full.shtml (дата обращения: 12.09.13).
43.
Лурия А.Р. Психологическое наследие: избранные труды по общей
психологии. М., Смысл, 2003. 431 с.
44.
Ясинский И.Ф., Семенова М.Б. Опыт прогнозирования успеваемости
студентов при помощи нейросетевой технологии. Вестник ИГЭУ Вып. 4. 2007 г. С. 1-4 //
URL: http://www.ispu.ru/files/str._29-31.pdf/ (дата обращения: 12.10.10).
45.
Желтова
Е.В.
Психологические
детерминанты
успешности
профессионального становления студентов вуза. // Автореф. дисс. на соиск. уч. степ. канд.
пед. наук. Ростов н/Дону, 2008. 24 с.
46.
Крохин О.Н., Сорока И.В., Шестаков В.В. Высшая школа физиков им. Н.Г.
Басова МИФИ-ФИАН (спец. фак. физики) // «Физическое образование в вузах», т. 9, № 3.
М.: Издат. Дом Моск. Физич. Общества, 2003. С. 43-53.
47.
Орлов А.И. Прикладная статистика. М.: Экзамен, 2006. 671 с.
48.
Ананьев Б.Г. Психология человека. Избранное. СПб, 1997.
49.
Ананьев Б.Г. Психология педагогической оценки. Л.: Наука, 1935. 386 с.
50.
Цыплаков А.А. Некоторые эконометрические методы. Метод максимального
правдоподобия в эконометрии. - Новосибирск: НГУ, 1997. - 129 с.
51.
Крысько В.Г. Психология и педагогика. Схемы и комментарии. М.:
ВЛАДОС-ПРЕСС, 2001. 368 с.
52.
Челышкова М.Б. Теория и практика конструирования педагогических тестов:
Учебное пособие. М.: Логос, 2002.
53.
Гуревич
К.М.
Дифференциальная
психология
и
психодиагностика.
136
Избранные труды. СПб.: Питер, 2008. 336 с.
54.
Солсо Р. Когнитивная психология. СПб.: Питер, 2006. 589 с.
55.
Джексон П. Введение в экспертные системы: Пер. с англ. – М.: Издательский
дом «Вильямс», 2001. – 624 с.
56.
Сайт
Стенфордского
университета.
http://www.formal.stanford.edu/
jmc/someneed/someneed.html (дата обращения 12.07.2014).
57.
Гринберг С. Я. Проектирование и разработка оболочки для конструирования
диагностических экспертных систем: автореферат дисс. ... кандидата технических наук:
05.13.11 / Росс. АН Сиб. отд. Ин-т систем информатики.
Новосибирск. 1993. 18 с.
[Электронный ресурс] [сайт]. Росс. гос. библ. URL: http://sigla.rsl.ru/ (дата обращения
26.12.2012).
58.
Сайт
фирмы
IBM
URL:
http://www-03.ibm.com/software/products/
ru/omegamon-xe-zos (дата обращения 11.07.2014).
59.
Кафедра №46 НИЯУ МИФИ. [сайт]. URL: http://www.kaf46.mephi.ru/
science/3.html (дата обращения 11.07.2014).
60.
Сайт организации «Банк Софт Системс» http://www.bssys.com/about/press-
center/articles/chto-umeet-anti-fraud-v-dbo/ (дата обращения 05.07.2014).
61.
массивов
Сдача экзамена экстерном по курсу «Введение в аналитику больших
данных».
Национальный
открытый
университет.
[сайт].
URL:
http://www.intuit.ru/studies/courses/14298/1181/info (дата обращения 28.03.2014).
62.
Д.И. Муромцев. Введение в технологию экспертных систем. – СПб: СПб ГУ
ИТМО, 2005. – 93 с.
63.
Луценко Е.В., Лойко В.И., Курносов С.А. Концептуальные подходы к
созданию рефлексивной АСУ качеством подготовки специалистов. Науч. журн. КубГАУ,
№25(1), январь 2007 г. URL: http://ej.kubagro.ru/2007/01/pdf/01.pdf
64.
Джарратино Д., Райли Г. Экспертные системы: принципы разработки и
программирование. М.: ООО «И.Д.Вильямс», 2007. 1152 с.
65.
ГОСТ Р ИСО/МЭК 12207-20101 Информационная технология. Системная и
программная инженерия. Процессы жизненного цикла программных средств. URL:
http://protect.gost.ru/ document.aspx?control=7&id=176990 (дата обращения: 04.02.2013).
66.
ГОСТ ISO 9000-2011 Системы менеджмента качества. Основные положения
и словарь. URL: http:// http://protect.gost.ru/document.aspx?control =7&id=179807 (дата
обращения: 07.04.2013).
67.
по
ГОСТ Р 52614.2-2006 Системы менеджмента качества. Руководящие указания
применению
ГОСТ
Р
ИСО
9001-2001
в
сфере
образования.
137
http://protect.gost.ru/document.aspx?control=7&id=129002 (дата обращения: 07.04.2013).
68.
организации.
ГОСТ Р ИСО 9004-2010 Менеджмент для достижения устойчивого успеха
Подход
на
основе
менеджмента
качества.
URL:
http://protect.gost.ru/document.aspx?control=7&id=176895 (дата обращения: 07.04.2013).
69.
Кузьминова А.В., Жигирев Н.Н. Исследование скрытых закономерностей
влияния индивидуальности студентов на их успеваемость в техническом университете. //
Сб. науч. трудов научной сессии МИФИ-2008. Т. 23-24. М.: Изд-во МИФИ, 2008. С. 23-24.
70.
Жигирев Н.Н., Кузьминова А.В. Показатели академической успешности при
моделировании её классификации в образовательном процессе технического университета
// Качество. Инновации. Образование. 2009. № 9. С. 2-6.
71.
Аванесов В.С. Основы педагогической теории измерений. / Педагогические
измерения, 2004, №1.
72.
Лурия А. Р. Письмо и речь. Нейролингвистические исследования: Серия:
Классическая учебная книга. М.: Академия, 2002. 352 с.
73.
Выготский Л.С. Психология развития ребенка. М.: Изд-во Смысл, Изд-во
Эксмо, 2005.
74.
Блонский П.П. Память и мышление. ЛКИ, 2007.
75.
Пирогов А.А. Основы фонетической теории речи. Фонетическая функция как
универсальный природный инструмент кодирования-декодирования речевой информации
любого происхождения. // ЖРФМ, 2001, № 1-12, C. 15-28.
76.
Зимняя И. А. Предметный анализ текста как продукта говорения //
Смысловое восприятие речевого общения. М., 1976.
77.
Аристова Т.А., Архипова Г.А. Коррекция нарушений письменной речи. СПб:
Каро, 2007.
78.
Леонтьев А.Н. Лекции по общей психологии. М.: Смысл; КДУ, 2005. 511 с.
79.
Пиаже Ж. Речь и мышление ребенка. СПб.: СОЮЗ, 1997.
80.
Лурия А.Р. Очерки психофизиологии письма. М., 1950.
81.
Леонтьев А.А. Основы психолингвистики. М., 1999.
82.
Психолингвистика / Под ред. Т.Н.Ушаковой М.: ПЕР СЭ, 2006.
83.
Леонтьев А.А. Язык, речь, речевая деятельность. М.: Просвещение, 1969. 214
84.
Жинкин Н.И. Речь как проводник информации. М.: 1982.
85.
Кузьминова А.В., Жигирев Н.Н. Один проективный метод классификации
с.
авторских текстов. // Сб. науч. трудов научной сессии МИФИ-2009. Аннотации докладов.
Т. 3. М.: Изд-во МИФИ, 2009. С. 48.
138
86.
Бойко Е.И. Механизмы умственной деятельности. М.: Российская академия
образования, 2002. 688 с.
87.
Миллер Г. Магическое число семь плюс или минус два // Инженерная
психология. М.: Прогресс, 1964.
88.
G.Miller The Magical Number Seven, Plus or Minus Two: Some Limits on our
Capacity for Processing Information, Psychological Review, 1956, vol. 63, p. 81-97.
89.
Гальперин П.Я. К вопросу о внутренней речи // Доклады АПН РСФСР, 1957.
№ 4. URL: http://www.pedlib.ru/Books/1/0414/index.shtml/ .
90.
Хомский Н. Язык и мышление. М., 1972.
91.
Общая психология. Словарь / Под ред. Петровского А.В.// Психологический
лексикон. Энц. словарь в 6 тт. М.: ПЕР СЭ, 2005.
92.
Леонтьев А.А. Психолингвистические единицы и порождение речевого
высказывания. М.: КомКнига, 2007.
93.
Батов В.И., Сорокин Ю.А. Атрибуция текста на основе объективных
характеристик // Изв. АН СССР. Т. XXXIV. № 1. М., 1975.
94.
Бодуэн де Куртенэ И.А. Избранные труды по общему языкознанию. Т. 2. М.:
Изд-во АН СССР, 1963. 391 с.
95.
Щерба Л.В. Языковая система и речевая деятельность. М., 1974.
96.
Попов
Ю.А.,
Лубченков
Ю.Н.,
Рыжков
В.И.,
Карпов
Ю.А.
Психолингвистические технологии оценки личности. М.: ПАИМС, 2001. 428 с.
97.
Попов Ю.А. Анализ возможностей использования новой компьютерной
психолингвистической технологии. Научная сессия МИФИ-2001. Сб. научных трудов. Т.
12. М.: Изд-во МИФИ, 2001. С. 35-36.
98.
Лубченков Ю.Н.,
Попов Ю.А.
Развитие проекта "разум
мира": анализ
параметрических портретов текстов политических лидеров российской федерации //
Научная сессия МИФИ-2005: Сб. науч. тр., Т. 11. М.: Изд-во МИФИ, 2005. С. 48-56.
99.
Кузьминова А.В., Попов Ю.А. Использование технологий оценки личности в
учебном процессе. // Сб. науч. трудов научной сессии МИФИ-2003. Т. 11. М.: Изд-во
МИФИ, 2003. С. 82-88.
100.
Колобаев
В.К.
Подвижность
границ
синтагмы:
последствие
для
лингвистического и методического знания. // [Сайт СПбГМА]. Научные публикации. URL:
http://www.mechnik.spb.ru/lat_pb3.htm (дата обращения: 20.10.09).
101.
Романова Е.С. Психодиагностика. СПб.: Питер, 2008. 400 с.
102.
Зимняя И.А. Лингвопсихология речевой деятельности. М.: МПСИ; Воронеж:
НПО «МОДЭК», 2001. 432 с.
139
103.
Баранов А. Н. Введение в прикладную лингвистику: Учебное пособие. Изд. 2-
е, исправленное. М.: Едиториал УРСС, 2003. 360 с.
104.
Лихачев Д.С. Текстология (на материале русской литературы X - XVII вв.).
М.: Наука, 2006. 758 с.
105.
Хетсо Г. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М.
Достоевскому анонимных статей в журналах “Время” и “Эпоха”. Осло: Solum, 1986. 82 с.
106.
Хмелёв Д. В. Распознавание автора текста с использованием цепей
А. А. Маркова. // Вестник МГУ. Сер. 9. Филология. № 2. М., 2000. С. 115-126.
107.
Галяшина Е. И. Основы судебного речеведения. М.: СТЭНСИ, 2003. 236 с.
108.
Сидоров Ю.В. Математическая и информационная поддержка методов
обработки литературных текстов на основе формально-грамматических параметров.
Автореф.
дисс.
на
соиск.
уч.
степ.
к.
т.
н.
СПб.,
2002.
19
с.
URL:
http://smalt.karelia.ru/articles/art4.doc/.
109.
Хомский Н. Аспекты теории синтаксиса. М., 1972. 129 c.
110.
Налимов В.В. Вероятностная модель языка. М.: Наука, 1979. 304 c.
111.
Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир,
1979. 557 с.
112.
Караулов Ю.Н., Сорокин Ю.С., Тарасов Е.Ф., Уфимцева Н.В., Черкасова Г.А.
Русский ассоциативный словарь. Т. 1-3. М.: М.: ИРЯ РАН, 1994-1998.
113.
Жигирев Н.Н., Корж В.В. Автоматизированная система классификации
тестов (АСКТ). URL: http://library.mephi.ru/data/scientific-sessions/1998/9/656.html/ (дата
обращения: 09.09.2008).
114.
Рогушина Ю.В. Использование критериев оценки удобочитаемости текста
для поиска информации, соответствующей реальным потребностям пользователя. Киев,
Проблеми програмування. № 3. 2007. С. 76-85.
Publ.,
115.
Gunning R. Gunning finds papers too hard to read // Editor and Publisher. 1945.
116.
Flesh R. Marks of readable style: a Study in adult education. New York: Bureau of
Teach.
Coll.,
Columbia
Univ.
1943;
1946;
http://www.worldcat.org/title/marks-of-readable-style-a-study-in-adult-education/
1948.
URL:
(дата
обращения: 23.09.10).
117.
Coleman–Liau Index URL: http://en.wikipedia.org/ wiki/Coleman-Liau_Index
118.
McLaughlin H. SMOG grading – a new readability formula // J. of Reading. 1969.
№22. P. 639–646.
119.
Sticht T.G. Research towards the design, development and evaluation of a job-
functional literacy training program for the US Army // Literacy Discussion, 1973, №4. P. 339–
140
369.
120.
Белянин В.П., Дымшиц М., Шалак В.И. Психолингвистическая экспертная
система ВААЛ. Руководство пользователя. М., 2002. URL: http://www.vaal.ru.
121.
Черепанова И.Ю. Заговор народа. Как создать сильный политический текст.
М.: КСП+, 2002. 464 c.
122.
Кузьминова
А.В.
Применение
компьютерных
технологий
обработки
информации, полученной в процессе психологического исследования продуктов учебной
деятельности: вступительных письменных работ абитуриентов по русскому языку. //
Фундаментальные исследования. 2007. № 2. С. 65-66.
123.
Юнг К.Г. Психологические типы. СПб.: Ювента, 1995.
124.
Статические и динамические экспертные системы: Учеб. пособие/Э.В. Попов,
И.Б. Фоминых, Е.Б. Кисель, М.Д. Шапот. М.: Финансы и статистика, 1996. 320 с.
125.
Орлов А.И. Прикладная статистика. М.: Экзамен, 2006. 671 с.
126.
Рунион Р. Справочник по непараметрической статистике. М.: Финансы и
статистика, 1982. 198 с.
127.
Бард Й. Нелинейное оценивание параметров. М.: Статистика, 1979.
128.
Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшее
образование, 2006. 479 с.
129.
Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ.
M., Мир, 1982. 488 с.
130.
Айвазян С. А. и др. Прикладная статистика: Исследование зависимостей:
Справ, изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под ред. С. А. Айвазяна. М.:
Финансы и статистика, 1985. 487 с.
131.
Письменный Д.Т. Конспект лекций по теории вероятности, математической
статистике и случайным процессам. М.: Айрис-пресс, 2006. 288 с.
132.
Факторный, дискриминантный и кластерный анализ: Пер. с англ. /Дж.-О.
Ким, Ч. У. Мьюллер и др.М.: Финансы и статистика, 1989. 215 с.
133.
Дюран Б., Одел П. Кластерный анализ. М.: Статистика, 1977. 128 с.
134.
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная
статистика: Классификация и снижение размерности: Справ. изд. М.: Финансы и
статистика, 1989. 607 с.
135.
Справочник по прикладной статистике. В 2-х т. Т.2: Пер. с англ. / Под ред.
Э. Ллойда, У. Ледермана, С.А. Айвазяна, Ю.Н. Тюрина. М.: Финансы и статистика, 1990.
528 с.
136.
Жигирев Н.Н., Корж В.В., Оныкий Б.Н. Самонастраивающийся словарь
141
ключевых слов и нейронная сеть Хопфилда для классификации текстов. Научная сессия
МИФИ – 2000. II Всеросс. научно-техн. конфер. “Нейроинформатика-2000”. Сб. тр. В 2-х
частях. Ч. 2. М.: Изд-во МИФИ, 2000. С. 58-61.
137.
Шумский С.А., Яровой А.В., Зорин О.Л. Ассоциативный поиск текстовой
информации// Докл. ВНТК «НИ-99». ч. 3. М.: Изд-во МИФИ, 1999. С. 101-109.
138.
Гареев А.Ф. Решение проблемы размерности словаря при использовании
вероятностной нейронной сети для задач информационного поиска. // Нейрокомпьютеры:
разработка, применение. №1, 2000. С. 60-63.
139.
Катковник В.Я. Непараметрическая идентификация и сглаживание данных.
Метод локальной аппроксимации. М.: Наука, 1985. 336 c.
140.
Хартигэн Дж. Распределения в кластер-анализе // Классификация и кластер /
Под ред. Дж. Вэн Райзина М.: Мир, 1980. С. 42-65.
141.
Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.
142.
Кузьминова А.В., Жигирев Н.Н. Один метод прогнозирования успешной
деятельности студентов в техническом университете. // РАЕ, Успехи современного
образования. 2008. № 2. С. 62-64.
143.
Овчаренко В.П. Психолого-педагогический аспект оценивания успешности
обучения // Перспективные информационные технологии и интеллектуальные системы,
2008, №1 (33) Психология. С. 108-113.
144.
Шеннон К. Работы по теории информации и кибернетике. М.: Иностранная
литература, 1963. 830 с.
145.
Яглом А. М., Яглом И. М. Вероятность и информация. М. КомКнига, 2007,
146.
Григорович Л.А. Педагогическая психология: Учебное пособие. М.:
512 с.
Гардарики, 2003. 314 с.
147.
Фехнер Г. Элементы психофизики. 1860.
148.
Кузьминова А.В. Применение методик анализа текста при прогнозировании
уровней
качества.
Качество.
Инновации.
Образование.
//
Качество.
Инновации.
Образование. 2013. № 12. С. 27-29.
149.
Кузьминова
А.В.
Исследование
скрытых
закономерностей
при
прогнозировании успешности освоения учебных программ в техническом университете. //
Сб. науч. трудов научной сессии МИФИ-2011. Т. 3. М.: Изд-во МИФИ, 2011. С. 42.
150.
Кузьминова А.В., Жигирев Н.Н. Анализ прогнозирования категорий
академических достижений. // Современные технологии в задачах управления, автоматики
и обработки информации: Труды ХX Международного научно-технического семинара.
142
Алушта. М.: Изд-во МИРЭА, 2011. № 1. С. 238.
151.
Кузьминова А.В., Гуров В. В. Анализ регрессионных моделей показателей
процессов системы, при исследовании которой требуется разделение ее элементов на
классы. // Естественные и технические науки. 2012. № 2. С. 318-322.
152.
Кузьминова А.В.,
поверхностей,
полученные
Жигирев Н.Н.
при
Некоторые варианты разделяющих
использовании
модели
лучевой
проекционной
классификации. // Современные технологии в задачах управления, автоматики и обработки
информации: Труды XVIII Международного научно-технического семинара. Алушта. М.:
Изд-во МИРЭА, 2009. № 1. С. 238.
153.
Жигирев Н.Н., Кузьминова А.В. Сравнительный анализ моделей определения
вероятностного уровня успеваемости. // Качество. Инновации. Образование. 2010. № 8. С.
18 – 23.
154.
Кузьминова А.В., Жигирев Н.Н. Исследование модели классификации
академической успешности методами анализа конкурентных систем. // Сб. науч. трудов
научной сессии МИФИ-2009. Аннотации докладов. Т. 1. М.: Изд-во МИФИ, 2009. С. 283.
155.
Кендалл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.
156.
Крамер Г. Математические методы статистики. М.: Мир, 1975. 651 с.
157.
Новиков А.М., Новиков Д.А. Методология научного исследования. М.
899 с.
Либроком, 2009. 280 с.
158.
Качала В.В. Основы теории систем и системного анализа. Учебное пособие
для вузов. М.: Горячая линия – Телеком, 2007. 216 с.
159.
Хьюбер П. Робастность в статистике. М.: Мир, 1984. 304 с.
160.
Поляк Б.Т., Щербаков П.С. Робастная устойчивость и управление. М.: Наука,
2002. 303 с.
161.
ГОСТ Р 50779.10-2000 Статистические методы. Вероятность и основы
статистика.
Термины
и
определения.
URL:
http://protect.gost.ru/document.aspx?control=7&id=138306 (дата обращения: 12.12.2006).
162.
Ильин В.А., Позняк Э.Г. Аналитическая геометрия. М.: Наука, гл. ред. физ. -
мат. лит., 1981. 232 с.
163.
Александров П.С. Лекции по аналитической геометрии, пополненные
необходимыми сведениями из алгебры с приложением собрания задач, снабженных
решениями, составленного А.С.Пархоменко. М.: Наука, Гл. ред. физ.-мат. лит., 1968. 912 с.
164.
Бронштейн И.Н., Семендяев К.А. Справочник по математике для инженеров
и учащихся втузов. М. Наука, Гл. ред. физ.-мат. лит., 1986. 544 с.
143
165.
STATGRAPHICS. [сайт]. URL: http://www.statgraphics.com/ downloads.htm
(дата обращения: 12.02.2008)
166.
Р 50.1.028-2001 Информационные технологии поддержки жизненного цикла
продукции. Методология функционального моделирования. М., 2002.
167.
Лучшие сочинения по литературе. М. Руссобит-Паблишинг, 2007. - CD-ROM.
- Загл. с этикетки диска.
168.
Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. / Под ред.
Фигурнова В.Э. М.: ИНФРА-М, 2003 544 с.
169. Новиков Д.А. Статистические методы в педагогических исследованиях. М., МЗПресс, 2004. 67 с.
170. Орлов А.И. Теория принятия решений. М., Март, 2004.
144
ПРИЛОЖЕНИЕ
Том II
ОГЛАВЛЕНИЕ
Приложение А Модель сферической проекционной классификации
категорий уровней академической успешности ……………………………….. 3
Приложение Б Поверхности второго порядка ………..………………… 10
Приложение В Методика формирования информационной модели текста
и алгоритм кодировки текста ………………………………...………………... 11
Приложение Г Анализ исследуемой выборки специалистов ……………20
Приложение Д Исследование свойств показателей академической
успешности выпускников …………………………………………………..…... 24
Приложение Е Экспертная информация…………………………….....… 34
Приложение Ж Интерпретация аргументов математической модели ... 29
Приложение И Документы о внедрении ……………….…………..……. 34
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
ООНациона.пьный исследовательский ядерный
университет
"МИФИ"
На правахрукописи
КузьминовА Аллд ВлддимировнА
модЕли и Алгоритмы прогнозировАниrI оцЕнки кАчЕствА
ОБЪЕКТОВ СИСТЕМЫ ВЫСШЕГО ОБРАЗОВАНИrI НА ОСНОВЕ
рЕтроспЕктивной,
05.13.10
тЕкущвй
- Управление
и экспЕртной
инФормАции
в социЕlльньIх и экономических системах
,.Щпссертацпя на соискание 1^rеной степени кандидата технических наук
Том II
Научные руководители:
д.т.н., профессор
опов Iо.л.
к.т.н., доцент Гуров В.В.
Москва
20 15
2
ОГЛАВЛЕНИЕ
Приложение А Модель сферической проекционной классификации категорий
уровней академической успешности …………………………...……………….. 3
Приложение Б Поверхности второго порядка ………..……………………… 10
Приложение В Методика формирования информационной модели текста и
алгоритм кодировки текста …………………………………...………………... 11
Приложение Г Анализ исследуемой выборки специалистов ……………...…20
Приложение Д Исследование свойств показателей академической
успешности выпускников …………………………………………………..…... 24
Приложение Е Экспертная информация………………………………….....… 34
Приложение Ж Интерпретация аргументов математической модели ...……. 29
Приложение И Документы о внедрении …………………….…………..……. 34
ПРИЛОЖЕНИЕ А
Модель сферической проекционной классификации
категорий уровней академической успешности
Рассмотрим сферическую проекционную классификацию (СПК) –
проекцию на поверхность куба – центральную проекцию точек на плоскости
проекции. Проекция проводится на грани куба. Где центр куба т. О – центр
проекции, точка схода лучей, проходящих через каждую точку данных до
пересечения с гранями куба.
При исследовании этой модели изначально необходимо осуществить
проверку гипотезы о том, что классификационными признаками категорий
уровня АкУсп выпускников являются не величины переменных
x, y , z  ,
трансформационных показателей текста, письменной речи, а относительные
отклонения их пропорций от «нормы».
В СПК считается, что «нормами» переменных  x, y, z  являются самые
устойчивые к выбросам показатели непараметрической статистики –
показатели
медиан
их
статистических
распределений.
Такой
прием
используется в непараметрических статистиках, в которых применяется тот
факт, что медиана распределений более устойчива к выбросам данных,
нежели математическое среднее.
Проведем
преобразование
пространства
 x, y , z  .
Осуществим
параллельный перенос начала координат декартовой системы координат
(ДСК)  x, y, z  в точку с координатами, соответствующими значениям медиан


выборки  xmed , ymed , zmed  . Эта точка является началом новой ДСК qx , q y , qz .
Проведем центральное преобразование пространства: масштабирование

вдоль луча  0, 0, 0 ,  qx , qy , qz  (сжатие или растяжение) длины отрезка от
4
центра т. С новой ДСК до точки проекции таким образом, чтобы точка
оказалась на плоскости куба. Стороны данного куба имеют длину равную 2, а
центр куба совпадает с центром новой ДСК – точкой С (на рисунке А.1).
Нормировка переменных
x, y, z 
к отрезкам [–1, 1] проводится при
помощи нелинейных преобразований:
 qx ( x, y , z )   x  xmin  x  k x  1;

y
 q y ( x, y , z )   y  ymin   k y  1;

z
q
(
x
,
y
,
z
)
z
z


 kz  1


z
min

,
(А.1)
где xmin , xmax , xmed ; y min , y max , ymed ; zmin , zmax , zmed
– их минимальное,
максимальное наблюдаемое статистическое значение и значение медианы
данных
выборки,
а
параметры
преобразований,
коэффициенты
масштабирования  x , k x ;  y , k y ;  z , k z находятся следующим образом:

 xmax  xmin 
  x  ln 2 ln 
;

x
x
min
med




 y  ymin 
 y  ln 2 ln  max
;

y
y

min 
 med

  ln 2 ln  zmax  zmin  ;


 z
 zmed  zmin 


k x  2  xmax  xmin  x ;

y
k y  2  ymax  ymin  ;

z
k z  2  zmax  zmin 
и определяются из условий:
 q x ( x min , y , z )  1;

 q y ( x , y min , z )  1;

 q z ( x , y , z min )  1;
После перехода от
(А.2)
q x ( xmed , y , z )  0;
q x ( x max , y , z )  1;
q y ( x , y med , z )  0;
q y ( x , y max , z )  1;
q z ( x , y , zmed )  0;
q z ( x , y , z max )  1.
абсолютных координат

 x, y , z 
(А.3)
(рисунок А.1) к

относительным координатам qx ( x, y, z ), q y ( x, y, z ), qz ( x, y, z ) , точки данных
разместятся на гранях куба с ребрами длины 2 с центром C 0,0,0 , который
5
соответствует абстрактной точке с координатами медиан статистических
распределений.
Суть СПК связана с тем, что для классификации точек важно не то,
какие конкретно значения принимают координаты
q , q , q ,
x
y
z
а их
соотношения между собой (угловые величины между лучами проекции,
исходящими из центра куба до точек лучевой проекции на грани куба).

Для получения проекции точки Т q x , q y , q z

на поверхность куба,
(рисунок А.1), например, при  z =0 необходимо перейти к координатам точки
Р на поверхности куба: «теней» точек, исходящих из точки центра проекций
C 0,0,0 :
Луч проекции
T
(qx, qy, qz)
(x, y, z)
qz
(μx, μy, 0)
P
z
μy
1
μx
μz=0
0
1
qx
qy
1
С
(xmed, ymed, zmed)
0
y
x
Рисунок А.1 – Преобразование пространства






  x  qx max qx , q y , qz ;


  y  q y max qx , q y , qz ;

  z  qz max qx , q y , qz .
(А.4)
Если на созданном кубе проекций разноклассовых данных, будут
получены
очевидные
области,
в
которых
группируются
точки,
принадлежащие разным уровням академической успешности  m и  mk
6
(рисунок А.2), то это будет подтверждать существование разноуровневых
областей и, соответственно, классификационных границ.
qz
Ωm
qy
Ωm-k
qx
Рисунок А.2 – Области однотипных точек на поверхности куба
Проведя
специалистов,
расчет
по
формулам
принадлежащих
разным
(А.1-А.4)
уровням
для
выборки
качества
данных
подготовки
специалистов (слабоуспешные и высокоуспешные), получена развертка куба с
точками проекций данных  x, y, z  на грани, как представлено на рисунке А.3,
и на рисунках А.4.1 и А.4.2 – куб со спроектированными данными.
7
(-1, 1, -1)
(1, 1, -1)
μх
(-1, 1, -1)
(-1, 1, 1)
(1, 1, 1)
μz
μy
μy
μz
0
(1, 1, -1)
μy
μx 1 μz
0
-1
(-1, -1, -1)
μz
(-1, -1, 1)
-2
(1, -1, 1)
μx
(-1, -1, -1)
(1, -1, -1)
μx
(-1, 1, -1)
μy
(1, 1, -1)
Рисунок А.3 – Развертка проекционного куба с точками категорий:
● – «высокоуспешный» выпускник; ▲ – «слабоуспешный»
(1, -1, -1)
8
(-1, -1, 1)
(-1, 1, 1)
(1, -1, 1)
С
(1, 1, 1)
(-1, 1, -1)
(1, -1, -1)
A
(1, 1, -1)
Рисунок А.4.1– Вид проекционного куба со стороны вершины
 1, 1, 1
(-1, -1, 1)
(-1, 1, 1)
(1, -1, 1)
A
(-1, -1, -1)
(-1, 1, -1)
С
(1, -1, -1)
(1, 1, -1)


Рисунок А.4.2 – Вид проекционного куба со стороны вершины  1, 1, 1
Существование явных областей точек данных для высокоуспешных
обучаемых  A служит источником гипотезы, что подобные «вырезы» могли
быть получены в результате пронизывания куба поверхностями второго
порядка, асимптотой которых является конус (рисунок А.5), например,
9
гиперболоидом или гиперболоидами. Внутренняя часть конуса принадлежит
области точек высокоуспешных специалистов.
Рисунок А5– Пронизывание куба асимптотическим конусом (конусами)
10
ПРИЛОЖЕНИЕ Б
(Справочное)
Поверхности второго порядка
Таблица Б – Поверхности второго порядка
№ на
Поверхность канонического вида для типа 1
схеме
1
Эллипсоид
2
Мнимый эллипсоид
3
Вырожденный эллипсоид – мнимый конус с действительной
вершиной
4
Однополостный гиперболоид
5
Двуполостный гиперболоид
6
Эллиптический конус (ось конуса – ось ~z )
7
Цилиндр с мнимыми образующими
8
Эллиптический цилиндр
9
Пара мнимых пересекающихся плоскостей
10
Гиперболический цилиндр
11
Пара пересекающихся плоскостей, параллельных оси ~z
12
Пара параллельных плоскостей, перпендикулярных оси ~x
13
Пара мнимых параллельных плоскостей
14
Координатная плоскость (плоскость 0 ~y~z )
Поверхность канонического вида, тип 2
15
Эллиптический параболоид
16
Гиперболический параболоид («седло»)
17
Параболический цилиндр
11
ПРИЛОЖЕНИЕ В
Методика формирования информационной модели текста и
алгоритм кодирования текста
I. Слово обозначено символом “W”. Проанализированы некоторые
неоднозначности при определении границ конкретного слова.
Определение границ слова, при наличии её неоднозначности, в работе
было принято, что:

сложносоставное слово, пишущееся через дефис, обозначающее
один предмет (понятие), представляется как одно слово.
Пример сложносоставных слов.
охотник-хант
W
старушка-процентщица.
W
какое-то
W

аббревиатуры, сокращенное слово, например, имя или отчество,
считается как одно отдельное слово:
Н. В. Гоголь
WWW
СССР
W

пропуск слов при цитировании и замена их троеточием –
игнорируются при подсчете количества слов
Он «пошёл бы сам на себя объявить … от
WWW WWW WWW
одного …

числительное, указанное в тексте числами (арабскими, римскими
и проч.), определяется как одно слово:
Война 1812 года явилась роковым
WWW WWW
событием
II. Предложение – комбинация слов, в законченном виде передающее
12
(выражающее) мысль. Его конец обозначен символом “P”.
III. Синтагма, ее конец обозначен символом “S”. В диссертационной
работе рассмотрена синтагма как часть предложения, расчлененного знаками
препинания.
Правила определения синтагмы:
Пример определения синтагмы.
Раскольников, пожалуй, стал главной жертвой
WS WS WWW
собственного ужасного поступка.

WWWSP
Если в тексте кавычки «…» означают выделение названия
произведения, выделение цитаты, мысли другого автора и пр., то текст, ими
выделенный, не учитываем как отдельную синтагму.
Пример выделения названия и цитирования.
Задумывались «Мертвые души» таким образом,
чтобы в произведении «явилась» вся Русь.

WWW WWS WWW
WWWSP
Символы '?', '!' и пр. могут обозначать не только конец
предложения, но и конец синтагмы, если они входят в предложении в состав
прямой речи, цитирования и пр.
Пример прямой речи
Ответ однозначен: «Нет!».

WWS WSP
При использовании прямой речи написание рядом знаков ”:” и “«”
определяется как конец одной синтагмы.
Пример определения однозначности синтагмы.
У Н. В. Гоголя такие пороки и преступления,
WWW WWW WWS
как убийство, предательство, вообще исключены:
WWS WS WWS WWW
«Герои мои вовсе не злодеи».
WWSP

Написание рядом нескольких грамматических разделительных
знаков ”,” и “—”; “)” и “,” и пр. определяется как конец одной синтагмы.
13
Пример парных разделительных знаков.
Данте считал себя избранным для того, чтобы
WWW WWWS WWW
сказать истину миру, «обличить человечеству всю
WS WWW WWW
его внутренность и показать его грядущее, результат
WWWS WWW WWW
его жизни настоящей в образе Ада, муки вечной и
WS WWW WS WS WS
отчаянной, Чистилища, муки, растворенной
WWS WWW WWWS
надеждою, и Рая вечной и сотворенной радости», —
WWWSP
как писал Шевырев.
Солдат удивляет умение Долохова говорить
WWW WWW SWWW
по-французски (они не подозревают в нем офицера),
WWWS WWW WWW
а князю Андрею этот спор интересен тем, что
WS WWW WWW
Долохов убежден в исключительной храбрости и
WWW WS WWW
непобедимости русской армии, прославившей себя
WWWSP
еще в суворовских походах.
При цитировании стихотворений в составе предложения с сохранением
стихотворного написания были трансформированы стихотворные строфы в
единое предложение с сохранением знаков пунктуации, которые в нем
становятся общими.
Пример цитирования стихотворного произведения.
Беседа князя Андрея и Пьера Безухова на пароме невольно вызывает в
памяти пушкинские строки:
Волна и камень,
Стихи и проза,
Лед и пламень
Не столь различны меж собой…
Беседа князя Андрея и Пьера Безухова на
WWW WWW WWW
пароме невольно вызывает в памяти пушкинские
WWW WWS WWWS
строки: Волна и камень, Стихи и проза, Лед и
WWWS WWW WWW
14
пламень Не столь различны меж собой… .
WWSP
IV. Фраза, ее конец обозначается нами символом “ F”. В данной работе
нами определен конец фразы как конец абзаца в авторской интерпретации.
В1.1 Методика кодирования текста
Рукописный текст, с которого снимаются первичные параметры текста,
естественно, возможно использовать при кодировании в первоначальном
авторском виде (на бумажном носителе – экзаменационные бланки). Но его
желательно перевести в цифровой (электронный) вид (напр., с помощью
сканера). Поскольку подобный вид текста значительно ускоряет последующий
процесс
кодировки.
безошибочного
И,
съёма
что
не
параметров
маловажно,
текста,
а
повышается
также
качество
проверки,
при
необходимости, полученных экспериментальных данных независимыми
исследователями.
При анализе данных было принято решение, что методика подготовки
показателей текстов должна быть гибридной: вначале проведена вручную, а
далее
автоматизированной
или
полуручной–автоматизированной.
При
исследовании в данной части работы применялись программы Microsoft Office
(MS Word и MS Excel).
В1.2 Схема алгоритма кодирования текста
а)
Сноски, ссылки обычно в тексте изложений (сочинений) не
встречаются, поэтому их можно не рассматривать.
б)
Заглавие текста изложения (сочинения) можно также не включать
в анализ текста.
Это
связано
с
психолингвистическим
тем,
что
показателем,
оно
не
является
поскольку
индивидуальным
название
а)
выбрано
экзаменуемым из предложенного тематического списка или б) было строго
заданной темой экзамена.
15
в)
Проставить ручным способом в текст знак начала “<” и знак конца
текста “>”.
Также аналогично – знак конца каждого абзаца (фразы) – “F”.
г)
Замечание: Нельзя этот пункт проводить, используя возможности
MSWord, в таблице «НАЙТИ И ЗАМЕНИТЬ» в область «НАЙТИ» внести
символ “¶” и в строке «ЗАМЕНИТЬ» вставить букву “F”, поскольку “конец
абзаца” и “конец фразы” могут не совпадать. Так, например, строки
маркированного или нумерованного списка, как и строфы стихотворного
цитируемого
произведения
(см.
пример
цитирования
стихотворного
произведения), оканчиваются символом “¶” – “конец абзаца”.
Создать таблицу размером 2х1, в первый столбец которой
д)
поместить текст с уже внесенными кодировочными знаками (“<”, “>”, “F”):
Поле для дальнейшей кодировки
<Текст изложения>
е)
текста
Во второй столбец скопировать текст из первого и провести
ручную обработку, выделяя при этом слова и делая замену–кодировку по
правилу:
3 слова
=
WWW
возможность группировки по 3 слова, то делаем
=
WW
группировку по 2 слова
=
W
Конец синтагмы
=
S
Конец предложения
=
P
Кодировка конца фразы была уже проведена,
=
F
Когда
в
ряду
синтагмы
заканчивается
и, в конце концов, 1 слово
но необходимо проконтролировать это
16
В результате можно получить для каждого предложения таблицу вида:
1
2
Похоже, сейчас для нас это всего лишь
WS WWW WWW
символ, набор звуков, который употребляют с
WS WWS WWW WWW
иронией или даже сарказмом.
WSP
И тем не менее сегодня я хочу говорить
WWW WWW
именно об этом, основываясь на моем небольшом
WWW WWS WWW
жизненном опыте. F
WWWSP F
Добавить справа третий столбец, куда скопировать второй, и провести
дальнейшую кодировку по правилу:
А
В
WWW
=
3
WW
=
2
W
=
1
Замечание: Проводить эту кодировку удобно, выделив необходимый
столбец, если использовать возможности MSWord «НАЙТИ И ЗАМЕНИТЬ»
“А” НА “В” поочередно от большего значения к меньшему.
Получить в итоге следующий вид таблицы:
1
2
Я думаю, моральные принципы,
3
WWS WWS
самооценка, показатель высокой
WS WWWSP
2S 2S
1S 3SP
духовности.
ж)
Добавить справа четвертый столбец, куда скопировать третий и
провести дальнейшую кодировку-группировку по правилу:
А
333
В
=
9
17
=
33
6
Замечание: Аналогично, проводить эту кодировку удобно, используя
возможности MSWord «НАЙТИ И ЗАМЕНИТЬ» “А” НА “В”.
Получить следующий вид таблицы:
1
И как бы банально
2
3
4
WWW WWW
33
9S 6
сегодня ни звучали эти слова, я
WWWS WWW
3S 3 3 1S
1S 6S 6SP
хочу жить и поступать по
WWW WS WWW
3 3S 3
F>
совести, которая воистину есть
WWWS WWW
3SP F>
«компас среди неведомого»,
WWWSP F>
источник правды и залог
счастья. F>
з)
Далее
добавить
справа
пятый
столбец,
куда
скопировать
четвертый и провести дальнейшую замену-кодировку по правилу:
А
В
S
=
+
P
=
#
F
=
@
Получить следующий вид таблицы:
1
Когда человек
2
WWW
3
3
4
5
3
3
2+ 6+ 3
ставится перед выбором,
WWS WWW
2S 3 3S 3 2S 6S 3
когда он оказывается в
WWWS WWW
1S 2SP F 1S 2SP F 1+ 2+#
сложной ситуации, именно
WS WWSP F
@
это чувство подсказывает,
как поступить. F
и)
В итоге, выделить последний столбец, скопировать его и
«ПРЕОБРАЗОВАТЬ ТАБЛИЦУ В ТЕКСТ»
18
После окончания проведения кодирования текста полученную форму
кодировки сохраняется в базе данных.
Например, именно в такой сжатой форме в виде строки логических
кодов выглядит весь закодированный текст одного из проанализированных
изложений, состоящего из 365 слов, 74 синтагм – “+”, 41 предложения – “#” и
6 фраз – “@”:
<3 1+ # 6+ 6 1+ # 6 1+ # 2+ # 3+ 3+ # 3 1+ # 2+ # 3+ 3 2+ 6 1+ 2+ 1+ 3 1+ #
3 1+ # 3 2+ 6 1+ # 3 1+ # 2+ 6 1+ # @ 3 1+ 3 1+ # 6+ 6+ # 3 1+ 2+ 1+ 3 2+ #@ 9
1+ # 6+ # 3 1+ 3 1+ # 3 2+ 3 2+ # 6+ # 3 3 1+ # 9+ # 6 1+ # 6+ # 1+ 9 2+ # @ 6 1+
6+ # 2+ 6+ # 6 1+ # 6 1+ 6+ # 3 1+ 2+ 3 1+ # 2+ # 3 1+ # 3 1+ # 3+ 6 1+ 3 1+ 6 1+
# 3 1+ # 6 1+ 3 2+ # @ 6+ 6 1+ # @ 2+ 3 1+ 3 2+ 3+ # 6 2+ # 6 2+ 6 1+ # 6+ 3 1+
3 2+ #@>.
Приведенная
строка
является
закодированным
текстом
полного
рукописного текста сочинения выпускника с архивным номером личного дела
H [i ] = 305.
18
ПРИЛОЖЕНИЕ Г
Анализ исследуемой выборки специалистов
В диссертационном исследовании анализ проводился на основе данных
успешно завершивших обучение на различных факультетах МИФИ. В этом
случае объем используемой при рассмотрении выборки максимально может
составлять десятки тысяч, а минимально – несколько лиц. Объем же пилотных
исследований, в процессе которых проводятся предварительные изучения, как
и в данном случае, должен составлять не менее 30 объектов [22, 71]. В
диссертационном изыскании случайная выборка состояла из данных 120
объектов.
Первичный анализ данных позволил выделить две подвыборки: 1)
успешно закончивших институт с получением диплома специалиста (60
объектов) и 2) неуспешных студентов, отчисленных за академическую
неуспеваемость.
Г.1 Статистический анализ данных экспериментальной
выборки выпускников
Подгруппа успешных студентов была проанализирована для 1999 и 2004
годов выпуска (по 30 студентов). Для данных отметок рассчитаны ПАУ и
ФАУ (см. приложение Д). Также для двух рассматриваемых годов выпуска
проведен анализ однородности экспериментальных данных – отметок
академической успеваемости ПАУ A[i ] , B [i ] , C [i ] , D [i ] , E [i ] с использованием
непараметрических методов [90]:
1.
критерия Колмогорова-Смирнова (КС) и
2.
критерия серий Вальда-Вольфовица (ВВ).
Г.1.1 Применение критерия Колмогорова-Смирнова.
Поскольку сравниваются пять рядов ПАУ по 30 данных, в качестве
порогового значения критерия КС при 5% уровне значимости (   0,05 ,
критерий
двусторонний)
выбрано
значение
его
асимптотического
20
приближения (с учетом того, что n1  n2  30 ):
Dкрит  1,36
Расчет
проведен
с
30
 0,2483
применением
(4.1).
статистического
пакета
STATGRAPHICS Centurion XV. Значения статистики критерия КС для всех
ПАУ представлены в таблице Г.1.
Таблица Г.11 – Значения статистики критерия Колмогорова-Смирнова
ПАУ
Максимальная
абсолютная разность
накопленных
вероятностей, d
A[i ]
B [i ]
C [i ]
D [i ]
E [i ]
0,133333 0,133333 0,133333 0,133333 0,166667
Двусторонняя статистика 0,516398 0,516398 0,516398 0,516398 0,645497
значимости
Уровень значимости,
р-value
Доверительный уровень,
%
0,952478 0,952478 0,952478 0,952478 0,798951
95,0
95,0
95,0
95,0
95,0
Как видно из таблицы Г.1, для всех случаев ПАУ полученное значение
максимальной абсолютной разности накопленных вероятностей d меньше
выбранного Dкрит , что свидетельствует об однородности выборок учащихся за
1999 и 2004 года по всем данным ПАУ, сравниваемых по критерию
Колмогорова-Смирнова.
Г.1.2 Применение критерия серий Вальда-Вольфовица
Критерий Вальда-Вольфовица (ВВ) является более чувствительным по
отношению к целому ряду различий в данных, включая различия в медианах,
мерах изменчивости и асимметрии. Используя его, запишем задачу анализа
выборок в формальном статистическом виде:
а) Нулевая гипотеза (Н0): ПАУ, полученные в обеих группах
выпускников, были отобраны из общей генеральной совокупности, и
21
распределения отметок в выборках студентов, выборка А и выборка Б
(приложение Е), не различаются между собой,
б) Альтернативная гипотеза (Н1): ПАУ, полученные в обеих группах
выпускников, не были отобраны из общей генеральной совокупности.
в) Статистический критерий: поскольку исходные данные являются
порядковыми и нас интересуют любые различия, которые могли возникнуть в
результате разных типов подготовки, воспользуемся критерием серий ВальдаВольфовица. Однако, поскольку, n1  20 , принимается z-статистика.
г) Уровень значимости:   0,05 , критерий двусторонний.
д) Выборочное распределение: нормальное.
е) Критическое значение: критическое значение zкpит при   0,05 и
двустороннем критерии равно ±1,96. Если расчетное значение z расч выходит за
этот интервал, то Н0 отклоняется.
Критерий ВВ в асимптотическом приближении сводится к вычислению
статистики. При больших объемах выборок ( n1  20 и/или n2  20 ) [90],
значение
вероятности
для
S
(количество
серий)
может
быть
аппроксимировано с помощью z-преобразования, причем z интерпретируется
как переменная стандартного нормального распределения.
Тогда z-преобразование будет иметь вид:
 2n n

S   1 2  1  0,5
 n1  n2

z
2n1n2 2n1n2  n1  n2 
n1  n2 2 n1  n2  1
(4.2)
где n1 , n 2 – размеры сравниваемых выборок, а S – количество серий.
С учетом того, что для исследуемых подвыборок n1  30 и n2  30 ,
формула (4.2) принимает вид:
z
Значения
серий
S
S  31  0,5
3,84
(минимальное
значение,
промежуточные
и
22
максимальное) критерия Вальда-Вольфовица для каждого ПАУ представлены
в таблице:
S
23, 39
24, 38
25, 37
26, 36
27, 35
28,34
29, 33
30, 31, 32
1,953
1,693
1,432
1,172
0,911
0,651
0,391
0,130
A[i ] , 28  S  34
––
––
––
––
––
Х, Х
––
Х
B[i ] , 26  S  29
––
––
––
Х
––
Х
Х
––
C[i ] , 26  S  30
––
––
––
Х
––
––
––
Х
D[i ] , 26  S  31
––
––
––
Х
––
Х
––
Х
E [i ] , 30  S  33
––
––
––
––
––
––
Х
Х
z
Анализ полученных результатов расчета убедительно показывает, что
при выбранном уровне значимости (   0,05 , критерий двусторонний)
критерия КС и по более строгому критерию серий ВВ, выборки по
показателям
АкУсп
подтверждают
являются
гипотезу
об
однородными.
однородности
Полученные
экспериментальных
данные
данных
относящихся к разным годам, что подтверждает факт случайного выбора
экспериментального материала из архива отдела кадров МИФИ.
Принимается гипотеза Н0: нет статистически значимых различий
между
двумя
распределениями
выпускников
разных
годов
на
доверительном уровне на 95,0 %.
Вследствие этого возможно объединение выпускников разных годов
выпуска, выборка А и выборка Б (60 объектов), и рассмотрение их в качестве
укрупнённой выборки выпускников.
34
ПРИЛОЖЕНИЕ Д
Исследование свойств показателей академической
успешности выпускников
В приложении Д приводятся данные поэтапного анализа свойств
показателей
академической
определяемых
по
успешности
формулам
(2.1.5),
A[i ] ,
C [i ] ,
B [i ] ,
(2.1.6),
(2.1.7),
D [i ] ,
(2.1.8),
E [i ] ,
(2.1.11)
соответственно.
Таблица Д.1 – Суммарные статистики ПАУ
Показатели
A
B
C
D
E
Количество
60
60
60
60
60
Среднее значение
4,07717
4,04817
4,07833 4,04567
4,0705
Медиана
3,95
3,905
3,965
3,955
Стандартное
0,514821 0,586132 0,51183 0,585605 0,649995
статистики
3,935
отклонение
Минимум
3,21
3,1
3,23
3,11
3,0
Максимум
5,0
5,0
5,0
5,0
5,0
Для
каждого
значения
индекса
данных
выпускника
в
экспериментальной базе данных – i рассчитываются указанные выше оценки
их академической успешности. На основе этих данных, в результате
упорядочения значений оценок по возрастанию, рассчитываются ранги
показателей успешности rA[i ] , rB [i ] , rC [i ] , rD [i ] , rE [i ] .
На основе анализа значений этих рангов рассчитываются границы
изменения рангов по формулам:
min r [i ]  minA[i ] , B [i ] , C [i ] , D [i ] 
(Д.1),
max r [i ]  maxA[i ] , B [i ] , C [i ] , D [i ] 
(Д.2),
min 1r [i ]  minA[i ] , B [i ] , C [i ] , D [i ] , E [i ] 
(Д.3),
24
max 1r [i ]  minA[i ] , B [i ] , C [i ] , D [i ] , E [i ] 
(Д.4).
Квадрат величин ширины диапазона изменения оценок получаются,
исходя из формулы Д.5:

[i ]
,
[i ] 2
[i ]  max r   min r 
(Д.5)
сумма которых используются при расчета коэффициента ранговой корреляции
Спирмена (с учетом (N=60)):
60


 S  1   6   [i ]  60  3599  .
 i 1 
60
Сумма

[i ]
(Д.6)
в этом случае равна 482,75.
i 1
Рассчитано:  S = 0,986587, что говорит о высокой тесноте связи пяти
рассмотренных показателей.
Тем не менее, наличие выбросов в оценках
rE [i ]
потребовало
проведения сравнительного анализа рангов оценок по каждому выпускнику в
отдельности. Из него получено, что показатели A[i ] и C [i ] завышают
медианную оценку в среднем на 0,32 и 0,25 ранга соответственно, а
показатели B [i ] и D [i ] , напротив, занижают медианную оценку на 0,21 и 0,36
рангов соответственно.
Несмотря на то, что в среднем значение E [i ] наиболее близко к
медианному значению, заметно, что это равенство достигается лишь за счет
компенсации больших отклонений от медианы. Так, для показателя rrB [i ]
вблизи медианы данных наблюдается 29 случаев (почти 50% выборки), а для
rrE [i ] – только 8 (менее 14% случаев).
Поэтому, учитывая важную контрастирующую роль показателя E [i ] (он
«прощает» отличникам «проваленные» – неудачные сессии, а у аутсайдеров
«не помнит» отдельные «удачные» семестры), тем не менее, целесообразно не
брать его в дальнейшую аналитическую обработку.
25
Анализ
величин
смещения
подтверждает,
что
наилучшим
приближением к медианным оценкам показателя успешности является
показатель B [i ] , и он должен быть выбран в качестве фундамента анализа
академической успешности.
Однако,
B [i ] – принципиально статический показатель, так как
рассчитывается по полной ФАУ
"3" [ i ] "4" [ i ] "5" [ i ]
L , L , L
, и поэтому для
динамического оценивания успеваемости и прогнозирования целесообразно
использовать показатели среднесеместровых усечённых оценок B [ij ] . Вторым
аргументом выбора ряда B [ij ] является больший разброс отклонений rrD [i ] от
медианы, что, ссылаясь на принципы теории кодирования информации, может
служить основанием того, что показатели усеченного балла B [ij ] в динамике
будут более информативными, нежели показатели A[ij ] .
34
ПРИЛОЖЕНИЕ Е
Экспертная информация выпускников
Средний балл с
учетом вычитания
наилучшей и
наихудшей отметки
Наихудшая и
наилучшая отметка
за семестр
Средний балл за
семестр
Сумма баллов, за все
экзамены за семестр
Отметка за 1 семестр
i-го выпускника по k-ому по порядку экзамену
Количество
экзаменов (отметок)
в 1 семестре
Номер личного дела
выпускника в архиве
отдела кадров
Индекс выпускника
Таблица Е.1 – Данные выпускников выборки А за 1 семестр
[i ]
H [i ]
a1[,i1]
a1[,i2]
a1[,i3]
a1[,i4]
a1[,i5]
K1[ i ]
S1[ i ]
A1[ i ]
min
max
B1[ i ]
1
2
3
4
5
6
7
8
9
10
11
12
13
3
4
3
3
3
3
4
4
3
3
3
3
3
4
3
3
3
3
4
3
3
5
5
4
4
3
5
5
4
5
4
4
3
3
5
4
3
3
4
5
3
3
5
4
3
4
5
3
4
4
4
4
5
3
5
5
5
5
4
5
3
3
3
3
3
3
3
3
4
3
3
3
5
4
3
3
3
3
4
4
3
4
5
5
5
5
5
5
5
5
4
3
3
3
3
3
4
0
4
3
0
5
4
4
4
5
3
4
0
5
0
4
5
5
5
0
5
5
0
5
0
0
4
0
0
3
4
0
0
4
0
0
3
5
0
0
4
0
0
4
0
0
0
0
0
0
0
0
0
0
4
4
5
4
4
5
5
3
4
5
3
4
5
5
4
4
5
4
3
5
3
4
4
4
4
3
4
4
3
4
14
14
16
12
14
16
18
10
15
18
9
14
20
21
13
15
18
13
12
20
10
17
20
17
19
13
20
20
13
20
3,50
3,50
3,20
3,00
3,50
3,20
3,60
3,33
3,75
3,60
3,00
3,50
4,00
4,20
3,25
3,75
3,60
3,25
4,00
4,00
3,33
4,25
5,00
4,25
4,75
4,33
5,00
5,00
4,33
5,00
3
3
3
3
3
3
3
3
3
3
3
3
3
4
3
3
3
3
4
3
3
4
5
3
4
3
5
5
4
5
4
4
4
3
5
4
4
4
4
5
3
5
5
5
4
5
5
4
4
5
4
5
5
5
5
5
5
5
5
5
3,50
3,50
3,00
3,00
3,00
3,00
3,67
3,00
4,00
3,33
3,00
3,00
4,00
4,00
3,00
3,50
3,33
3,00
4,00
4,00
3,00
4,00
5,00
4,50
5,00
5,00
5,00
5,00
4,00
5,00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
305
6718
3161
6325
415
5530
3531
1009
5333
3799
1432
1180
5516
3130
1301
429
3101
468
3380
3517
1070
1857
453
1326
3268
363
1813
591
193
2274
27
[i ]
1
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
H [i ]
2
4644
1302
4870
425
4113
444
1981
1108
5291
4717
2324
5775
2711
4936
2788
3907
2467
2706
5368
450
5634
5279
1848
3044
3825
1177
1438
4377
1335
4083
a1[,i1]
a1[,i2]
a1[,i3]
a1[,i4]
a1[,i5]
K1[ i ]
S1[ i ]
A1[ i ]
min
max
Средний балл с
учетом вычитания
наилучшей и
наихудшей отметки
Наихудшая и
наилучшая отметка
за семестр
Средний балл за
семестр
Сумма баллов, за все
экзамены за семестр
Отметка за 1 семестр
i-го выпускника по k-ому по порядку экзамену
Количество
экзаменов (отметок)
в 1 семестре
Номер личного дела
выпускника в архиве
отдела кадров
Индекс выпускника
Таблица Е.2 – Данные выпускников выборки Б за 1 семестр
B1[ i ]
3
4
5
6
7
8
9
10
11
12
13
3
3
3
3
3
4
3
3
3
3
4
3
4
3
3
4
3
4
3
4
3
3
3
3
3
4
4
5
5
5
3
5
4
4
5
4
3
3
3
5
3
3
4
4
3
4
4
4
5
4
3
5
3
5
4
5
5
5
4
5
3
3
4
3
4
3
3
5
3
3
3
3
3
4
3
4
5
3
4
5
4
4
3
4
3
3
4
5
4
5
3
3
3
5
3
5
3
3
3
3
3
4
3
4
3
3
5
3
3
5
3
3
3
5
5
5
5
5
5
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
0
0
0
0
0
0
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
5
4
4
4
4
4
4
4
4
4
4
4
4
4
12
14
14
15
15
16
12
14
12
14
13
13
14
15
12
15
20
14
15
18
13
15
12
17
15
17
18
20
18
20
3,00
3,50
3,50
3,75
3,75
4,00
3,00
3,50
3,00
3,50
3,25
3,25
3,50
3,75
3,00
3,75
4,00
3,50
3,75
4,50
3,25
3,75
3,00
4,25
3,75
4,25
4,50
5,00
4,50
5,00
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
3
3
3
3
3
3
4
5
4
5
3
5
4
5
5
5
3
5
3
5
4
4
4
4
3
4
5
4
5
5
4
5
3
5
5
5
5
5
5
5
3,00
3,00
3,50
3,50
3,50
4,00
3,00
3,00
3,00
3,00
3,00
3,00
3,50
4,00
3,00
4,00
4,00
3,50
3,50
4,50
3,00
3,50
3,00
4,50
3,50
4,50
4,50
5,00
4,50
5,00
28
ПРИЛОЖЕНИЕ Ж
Интерпретация аргументов математической модели
определения уровней качества подготовки специалистов
Проведена интерпретация аргументов F1 , F2 , F3  модели МГрВ3\5 на
экспериментальных
данных
кортежа
 x, y , z 
полученной
функции
академической успешности – математической модели МГрВ для уровней
качества QQ3 \ 5 .
Анализ проводился для каждого рассматриваемого класса уровней
АкУсп, их сочетаний и его коэффициентов
ki , li , mi ( i  1, 2, 3 ). Для этого
были рассмотрены выявленные корреляционные связи аргументов F1 , F2 , F3
и x, y, z. Для удобства проведения сравнения были построены корреляционные
матрицы с данными корреляции Пирсона с указанием
достигнутого уровня значимости, представленные в таблице Ж1.
p  value
–
29
Таблица Ж1 – Корреляционные полуматрицы для двух уровней качества
Высокоуспешные
Параметры
данных
для уровней
Слабоуспешные обучающиеся
y3
z3
F1 _ 3
F2 _ 3
F3 _ 3
QQ 3\ 5 _ 3
x5
0,067
0,072
0,156
0,036
0,838
-0,590
p  value
0,711
0,690
0,384
0,857
0,000
0,000
x3
y5
0,390
-0,456 -0,227 0,692
-0,487 0,468
p  value
0,098
0,008
z5
p  value
0,223
F1 _ 5
p  value
0,204
0,000
0,004
0,095
0,969
0,278
-0,953 -0,397
0,358
0,697
0,000
0,118
0,000
0,357
0,364
0,961
-0,848 0,224
-0,342
0,133
0,125
0,000
0,000
0,051
0,209
0,006
0,022
F2 _ 5
p  value
0,037
0,371
-0,886 -0,722
-0,324 0,431
0,877
0,117
0,000
0,001
0,066
F3 _ 5
0,711
-0,368 0,104
0,038
-0,199
-0,766
p  value
0,001
0,121
0,671
0,876
0,413
0,000
QQ 3\ 5 _ 5
p  value
-0,469 0,222
0,289
0,299
-0,215 -0,662
0,042
0,231
0,212
0,376
0,362
0,012
0,002
Матрицы сведены в одну таблицу, состоящую из двух полуматриц для
каждого из двух классов академической успешности:
QQ3 \ 5 _ 3
– для
слабоуспешных обучаемых С – правая верхняя полутаблица, QQ3\ 5 _ 5 – для
высокоуспешных студентов  A – левая нижняя полутаблица. Статистическая
значимость определялась при p  value ≤ 0,05.
Проведен анализ результатов с учетом типологии характера силы
(тесноты) выявленных корреляционных связей по диапазону значений
коэффициента корреляции Пирсона (по шкале Р. Чаддока [187]):
30
Качественная характеристика силы
Диапазон значения
Обозначение
корреляционной связи
коэффициента корреляции
диапазона
0,1 – 0,3
E
Умеренная
0,3 – 0,5
D
Заметная
0,5 – 0,7
C
Высокая
0,7 – 0,9
B
Весьма высокая
0,9 – 1,0
A
Слабая
Средняя
Сильная
Так при рассмотрении парных связей для обоих исследуемых уровней
АкУсп обнаружено сходство сильных (А, В) связей для параметров: F1 + z, F1
– F2 , v + F1 , v + z, F3 + x.
А) Рассмотрение QQ3\5 и переменных x, y, z
При анализе частных коэффициентов корреляции, выявлено, что для
всех выпускников статистическая значимость связи с более чем 95%
доверительным
интервалом
характерна
для
функции
QQ3\5
и
всех
информационных параметров текстов. Что говорит о высоком статистическом
качестве созданной модели МГрВ3\5 .
Лишь
для
класса
слабоуспешных
выпускников
статистически
характерна положительная средняя связь между значениями QQ3\5 и
информационным параметром текста y , что позволяет сделать вывод – чем
больше y , большая насыщенность синтагмами предложения, тем меньше
шансов у абитуриента быть в области высокоуспешных студентов.
Б) Рассмотрение QQ3\5 и переменных
F1 ,
F2 ,
F3 и анализ
формулы функции QQ3\5
Только
слабоуспешные
студенты
характеризуются
статистически
значимой ( p  value =0,012) средней (0,431) положительной корреляцией
31
между значениями функционала QQ3\5 и первым отрицательным фактором F2 .
Отмечено, что максимальный эффект от значения F1 в формуле
функции АкУсп QQ3\5 достигается как при больших его положительных
значениях F1 (студент с навыками практической реализации больших
полученных
и
систематизированных
знаний),
так
и
при
больших
отрицательных значениях F1 (студент, обучающийся по принципу «лучше
меньше, да лучше»).
Эти навыки абитуриент приобретает до поступления в институт, т.о. за
предпочтенный способ решения задачи, подачи блоков информации, отвечает
система довузовской подготовки, что и отражается в факторе F1 .
Наличие в группе высокоуспешных двух категорий обучаемых,
отличающихся лишь характером, способом мышления, при получении одних
и тех же академических результатов, позволяет сделать вывод, что
проанализированная
система
«Обучающиеся»
имеет
три
стабильных
состояния:
1) «слабоуспешные»,
2) «высокоуспешные+» F1  0 и
3) «высокоуспешные–» F1  0 .
У обоих классов АкУсп наблюдается, что значения F2 – первого
отрицательного
коррелируют
фактора –
со
в значительной степени
значениями
фактора
F1 .
( p  value =0,000)
Поскольку,
это
строгая
статистически значимая высокая обратная связь, можно сделать вывод, что с
уменьшением F2 увеличивается значение F1 . Но подобная связь у F1 не
отмечается со вторым отрицательным фактором F3 .
Для
высокоуспешных
выпускников
значение
корреляционного
коэффициента Пирсона равно – 0,89 для F2 и z при p  value = 0,000. Это
объясняется тем, что чем более насыщена фраза предложениями, тем меньше
штрафной фактор F2 .
32
Поэтому наибольшее отклонение от «нормы» (центра гиперболоида)
проявляется при диспропорции в формуле функции QQ3\5 (4.6а) между
показателем
y
формировании
и показателем
F2 ),
z
(несущими основную нагрузку при
ответственными
за
личностные
качества.
Это
наблюдается, прежде всего, когда теоретические знания не подкреплены
умением получать практические результаты.
Таким образом, F2 отражает потенциальную способность студента
вкладывать полученные знания в создание практических результатов.
При оценке связи величин функции QQ3\5 и его аргументов F1 , F2 , F3
получено, что всем классам
АкУсп обучаемых присуща сильная весьма
высокая обратная связь (по Чаддоку) с существенной корреляцией ( p  value
~0,00) для QQ3\5 и F3 .
Помимо этого анализ формулы функции QQ3\5 (4.6) выявил, что
показатель F3 имеет коэффициент при переменной z , сравнимый с нулем
(k3~0,05). Таким образом, отрицательный вклад в QQ3\5 этого второго
отрицательного
фактора
определяется
диспропорцией
между
трансформационными параметрами x и y , которые отвечают за связь между
уровнем знаний, ответственным за систематизацию знаний. Что позволяет
сделать вывод, что F3 отражает способность системно обучаться.
В результате анализа аргументов модели МГрВ3\5 была проведена их
интерпретация и сделан вывод, что превышение в формуле
QQ3\5
определенного оптимального баланса между «штрафными» факторами ( F2 и
F3 ) и фактором
обусловливает
F1 , характеризующим способ мышления личности,
нахождение
академической успешности.
точки
данных
в
конкретной
области
33
34
35
36
37
Download