выписка - Кафедра управления и информатики

advertisement
“УТВЕРЖДАЮ”
Проректор МЭИ по научной работе
________________ Н.В. Скибицкий
“_____”________________ 2005 г.
ВЫПИСКА
из протокола № 13
заседания кафедры Управления и информатики
Московского энергетического института (технического университета)
от 30 июня 2005 года
Присутствовали: Заведующий кафедрой д.т.н. проф. Колосов О.С., к.т.н.
доц. Анисимов Д.Н., д.т.н. проф. Беседин В.М., к.т.н. доц. Бондин О.А., д.т.н.
проф. Бородюк В.П., к.т.н. доц. Виноградова Н.А., д.т.н. проф. Державин
О.М., к.т.н. доц. Есюткин А.А., к.т.н. доц. Кабанов В.А., д.т.н. проф.
Коломейцева М.Б., ст. преп. Кузнецов А.И., асс. Кузнецов Н.В., к.т.н. доц.
Митрофанов В.Е., к.т.н. доц. Прокофьев Н.А., к.т.н. доц. Рюкин А.Н., к.т.н.
доц. Толчеев В.О., д.т.н. проф. Филаретов Г.Ф., к.т.н. доц. Фомин Г.А., к.т.н.
доц. Хризолитова С.А., к.т.н. доц. Ягодкина Т.В. Всего 20 чел.
Слушали: Доклад по диссертационной работе Некрасова Ивана Валериевича
на
тему
"Разработка
и
исследование
методов
классификации
библиографической текстовой информации", представленной на соискание
ученой степени кандидата технических наук, выступления рецензентов д.т.н.
проф. Бородюка В.П. и к.т.н. доц. Фомина Г.А. В ходе обсуждения
диссертационной работы Некрасову И.В. были заданы вопросы, на которые
он дал исчерпывающие ответы.
Постановили: Диссертационную работу Некрасова И. В. на тему "Разработка
и исследование методов классификации библиографической текстовой
информации" рекомендовать к защите на диссертационном совете МЭИ по
специальности 05.13.01 “Системный анализ, управление и обработка
информации”.
ЗАКЛЮЧЕНИЕ
кафедры Управления и информатики МЭИ по диссертационной работе
Некрасова И.В. на тему "Разработка и исследование методов классификации
библиографической текстовой информации"
1. Актуальность разработок и исследований диссертации
При проведении научных исследований одной из основных задач,
которая стоит перед специалистом, является своевременное получение
информации об изменениях в интересующей его предметной области. Для
решения этой задачи необходимо постоянно отслеживать публикации в
специализированных журналах, просматривать материалы конференций. До
недавнего времени эти действия приходилось выполнять вручную. Однако с
развитием сети Internet значительно расширились возможности специалистов
получать ценные сведения по научно-технической проблематике, используя
специализированные ресурсы, такие как виртуальные библиотеки,
электронные версии профильных журналов и конференций, сайты
университетов и т. д. Таким образом, сегодня отслеживать публикации
можно не выходя из дома с помощью компьютера и программы просмотра
Internet-сайтов.
Необходимо отметить, что в настоящее время существует значительное
число специализированных научно-технических Internet-ресурсов и со
временем их количество будет только увеличиваться. Поиск и анализ
релевантной (соответствующей запросу) информации уже сейчас требует
больших временных затрат со стороны исследователя.
Для автоматизации процесса отслеживания и обработки публикаций на
Internet-сайтах, увеличения его эффективности необходимо применение
методов интеллектуального анализа и обработки текстовой информации
(Text Mining). Использование разработанных ранее поисковых систем Internet
для отслеживания публикаций невозможно по той причине, что поисковые
системы лишь облегчают поиск необходимой информации, а анализ
полученных результатов по-прежнему возлагается на исследователя. Таким
образом, актуальной представляется задача автоматизации процесса
получения и обработки научных публикаций с Internet-сайтов журналов и
конференций по заданным пользователем предметным областям.
Важной особенностью является то, что на сайтах журналов и
конференций обычно находятся не полные тексты статей и докладов, а
только их краткие описания (при этом полные тексты доступны только за
деньги). Такие документы принято называть библиографическими. Как
правило, библиографические научно-технические документы состоят из
названия, фамилий авторов, краткого описания (аннотации) и ключевых
слов. При этом библиографические научно-технические документы
представляют сжатое изложение полнотекстового документа, его
квинтэссенцию.
Одной из проблем обработки текстовой информации является высокая
размерность задачи. Для преодоления этой проблемы при обработке
полнотекстовых документов используются специальные методы сокращения
размерности и выделения наиболее информативных признаков. При
обработке библиографических документов эта проблема стоит менее остро в
силу меньшего размера документов и большей смысловой нагрузки
употребляемых в них терминов.
Одним из важных и наиболее эффективных направлений обработки и
анализа текстовой информации является классификация. Классификация
текстовой информации заключается в разбиении набора документов на
обычно непересекающиеся группы с целью обеспечения максимальной
“близости” элементов одной группы и максимального различия между
группами. В качестве меры “близости” обычно используются метрики
расстояния:
евклидова
метрика,
квадрат
евклидовой
метрики,
манхэттенское расстояние, метрика Чебышева и др.
В настоящее время разработано значительное количество методов
классификации, использующих ряд положений теории вероятностей,
математической статистики, систем искусственного интеллекта. Многие из
них требуют выполнения большого числа нереалистичных предположений,
громоздки, требуют сложной процедуры обучения и настройки собственных
параметров и далеко не всегда проходят проверку практикой. Необходимо
также отметить, что большинство известных методов не способны проводить
группировку документов с малой ошибкой и с высоким быстродействием и
при этом быть легко обучаемыми и дообучаемыми. Вместе с тем для ряда
практических задач обработки больших массивов информации (в частности,
при обработке и анализе потока научных публикаций на сайтах журналов и
конференций) представляется необходимым разработка такого метода
классификации, который обеспечивал бы высокое быстродействие без
существенного увеличения ошибки классификации, был бы несложным для
обучения и дообучения, представлял бы легко интерпретируемые результаты.
На рынке программного обеспечения представлено значительное
количество программных пакетов, в число основных функций которых
входит классификация текстовой информации, однако применять эти
программы для решения задачи отслеживания электронных публикаций
проблематично, т.к. большинство программных продуктов не ориентированы
на обработку библиографических научно-технических документов. Кроме
того,
большие
программные
продукты
обладают
излишней
функциональностью и дорогостоящи. Таким образом, на данный момент не
существует программного обеспечения, которое можно напрямую
использовать для автоматического отслеживания библиографических
публикаций на Internet-сайтах журналов. В связи с этим представляется
целесообразным разработка небольших программ, эффективно реализующих
специфические функции, необходимые для решения конкретной прикладной
задачи.
2. Личное участие автора в получении результатов
Автором лично получены следующие результаты.
1. Проведен сравнительный анализ методов классификации текстовой
информации.
2. Разработан модифицированный метод ближайшего соседа с
использованием опорных точек.
3. Проведены исследования по влиянию на качество классификации
различных параметров, таких как количество классов в обучающей
выборке, количество документов в классе, метод взвешивания
терминов и мера определения близости между документами.
4. Проведено сравнение качества классификации разработанного метода
с другими, широко использующимися на практике алгоритмами:
методом k-ближайших соседей, методом центроидов и наивным
байесовским методом.
5. Разработан программный комплекс “СКАТ”, реализующий все этапы
процесса классификации текстовых документов, для проведения
исследований
и
сравнения
качества
классификации
модифицированного метода ближайшего соседа, метода k-ближайших
соседей, метода центроидов и наивного байесовского метода, а также
для отслеживания научно-технических публикаций на Internet-сайтах
журналов.
3. Степень обоснованности научных положений,
рекомендаций, сформулированных в диссертации
выводов
и
Обоснованность научных положений, выводов и рекомендаций,
сформулированных в диссертации, подтверждается экспериментальными
исследованиями, а также сопоставления полученных результатов работы с
результатами, полученными другими исследователями, представленными в
литературных источниках.
4. Степень научной новизны результатов, полученных в диссертации
1. Разработан новый метод классификации библиографических
текстовых документов – модифицированный метод ближайшего
соседа с использованием опорных точек. Предложенный метод
является модификацией метода ближайшего соседа и обладает
сопоставимой с методом ближайшего соседа ошибкой и существенно
меньшим, чем в методе ближайшего соседа, временем
классификации.
2. Обоснована процедура определения опорных точек в разработанном
методе, даны рекомендации по выбору настраиваемых параметров.
3. Разработанный метод исследован на различных выборках.
Проанализировано влияние на ошибку классификации метода
взвешивания терминов, меры определения близости между
документами, длины выборки и количества классов. Проведен
сравнительный анализ ошибки классификации разработанного метода
с ранее известными методами классификации (методом k-ближайших
соседей, методом центроидов, наивным байесовским методом).
5. Практическая ценность полученных результатов
1. Разработан ПК “СКАТ” (“Система Классификации и Анализа
Текста”), реализующий предложенный в диссертации метод
классификации. В ПК также реализованы наиболее известные методы
классификации (k-ближайших соседей, наивный байесовский метод,
центроидный метод), методы взвешивания терминов и метрики
расстояния.
2. Разработанный ПК
позволяет пользователям получать и
обрабатывать в автоматизированном режиме библиографические
текстовые документы по заданным пользователем .
3. Теоретические результаты и опыт использования ПК в
экспериментальных исследованиях обобщены в комплексной
методике классификации библиографических текстовых документов.
6. Полнота изложения материалов диссертации в печатных работах и
вклад, внесенный автором в работах, написанных в соавторстве
Основные положения диссертации достаточно полно представлены в
следующих публикациях.
1. Некрасов И.В., Толчеев В.О. Модифицированный метод ближайшего
соседа с использованием опорных точек для классификации
текстовых документов. Вестник МЭИ. М. МЭИ, 2004, стр. 76-81.
Соискателем, совместно с к.т.н., доц. кафедры УиИ МЭИ проведена
разработка модифицированного метода ближайшего соседа и
проведен сравнительный анализ ошибки и времени классификации.
2. Некрасов И.В., Толчеев В.О. Разработка модели представления
библиографических документов в задачах текстовой классификации.
Научная сессия МИФИ 2004. М. МИФИ, 2004, стр. 179-180.
Соискателем предложен метод определения коэффициентов линейной
модели
представления
текстовых
документов.
Проведены
экспериментальные исследования для определения влияния
использования полученной модели на качество классификации.
3. Некрасов И.В., Толчеев В.О. Сравнительный анализ методов
классификации текстовых документов. Научная сессия МИФИ 2003
том 2. М. МИФИ, 2003, стр. 169-170.
4.
5.
6.
7.
8.
9.
Соискателем проведен сравнительный анализ методов классификации
текстовых документов.
Некрасов И.В., Толчеев В.О. Современные средства поиска,
обработки и анализа текстовой информации. Вестник МЭИ. М. МЭИ,
2002, стр. 52-55.
Соискателем
проведен
обзор
программных
продуктов,
предназначенных для поиска, обработки и анализа текстовых
документов.
Некрасов
И.В.,
Толчеев
В.О.
Разработка
алгоритма
модифицированного метода ближайшего соседа. Международная
конференция “Информационные средства и технологии” том 2. М.
Станкин, 2003, стр. 198-201.
Соискателем, совместно с к.т.н., доц. кафедры УиИ МЭИ проведена
разработка модифицированного метода ближайшего соседа с
использованием опорных точек, который без существенного
увеличения ошибки классификации значительно сокращает время
классификации классического метода k-ближайших соседей.
Некрасов И.В., Толчеев В.О. О выборе опорных точек в
модифицированном методе ближайшего соседа. Международная
конференция “Информационные средства и технологии” том 2. М.
Станкин, 2003, стр. 202-204.
Соискателем проведено экспериментальное исследование влияния
количества и месторасположения опорных точек в пространстве
документов на ошибку и время классификации модифицированного
метода ближайшего соседа.
Некрасов И.В., Толчеев В.О. Разработка программного комплекса для
классификации текстовых документов. Международная конференция
“Информационные средства и технологии” том 2. М. Станкин, 2002,
стр. 160-163.
Соискателем
разработан
программный
комплекс
“СКАТ”,
реализующий полный цикл классификации текстовых документов,
содержащий модифицированный метод ближайшего соседа, метод kближайших соседей, метод центроидов и наивный байесовский
метод, а также модуль получения и классификации научнотехнических документов с Internet-сайтов журналов.
Некрасов И.В., Толчеев В.О. Информационно-поисковая система для
обработки научно-технической информации. Международная
конференция “Информационные средства и технологии” том 1. М.
Станкин, 2001, стр. 114-117.
Соискателем разработана информационно-поисковая система IAS,
реализующая возможности поиска и анализа библиографических
текстовых документов.
Некрасов И.В., Толчеев В.О. Методика модификации запросов в
информационно-поисковой
системе
IAS.
Международная
конференция “Информационные средства и технологии” том 1. М.
Станкин, 2001, стр. 118-121.
Соискателем предложена методика формирования запросов к
информационно-поисковым системам Internet, основанная на
интерактивном взаимодействии с пользователем и обратной связи по
релевантности.
10.Машков Д.В., Некрасов И.В., Толчеев В.О. Построение модели
предметной области “идентификация динамических систем” на
основе анализа электронных информационных ресурсов. Научная
сессия МИФИ 2002. М. МИФИ, 2002, стр. 122-123.
Соискателем описана возможность программного комплекса IAS по
формированию моделей предметных областей в виде тезауруса слов
на примере предметной области “идентификация динамических
систем”.
11.Некрасов И.В., Толчеев В.О. Экспериментальные исследования
методов классификации текстовых документов. Научная сессия
МИФИ 2005. М. МИФИ, 2005, стр. 152-153.
Соискателем проведены экспериментальные исследования по
определению качества классификации модифицированным методом
ближайшего соседа, методом k-ближайших соседей, методом
центроидов и наивным байесовским методом на большом количестве
обучающих и контрольных выборок с помощью разработанного ПК
“СКАТ”.
7. Рекомендация диссертации к защите
Рассмотренная диссертация представляет собой законченную
самостоятельную работу автора.
По уровню решения поставленных задач, содержанию и оформлению
работа отвечает требованиям, предъявленным ВАК РФ к диссертациям на
соискание ученой степени кандидата наук.
Кафедра Управления и информатики МЭИ рекомендует работу
Некрасова И.В. к защите на диссертационном совете МЭИ по специальности
05.13.01 “Системный анализ, управление и обработка информации”.
Заведующий кафедрой
Управления и информатики
Московского энергетического института
д.т.н., профессор
О.С. Колосов
Ученый секретарь кафедры
к.т.н.
Н.А. Виноградова
Download