СТЕНОГРАММА

advertisement
СТЕНОГРАММА
заседания диссертационного совета Д 212.157.08
при Московском энергетическом институте (техническом университете)
Протокол №1 от 15 декабря 2005 года
Присутствовали:
Диссертационный совет в составе 14 человек из 19 членов совета, в том
числе 7 докторов технических наук по специальности 05.13.01
рассматриваемой диссертации
Уч. степень
Шифр специальности
1. Державин Отто Михайлович,
председатель диссертационного совета,
д.т.н.
05.13.01
д.т.н.
05.13.01
д.т.н.
05.13.01
4. Вагин Вадим Николаевич, член совета,
д.т.н.
05.13.12
5. Диденко Валерий Иванович, член совета,
д.т.н.
05.11.16
6. Егоров Сергей Васильевич, член совета,
д.т.н.
05.13.12
7. Колосов Олег Сергеевич, член совета,
д.т.н.
05.13.01
8. Лохин Валерий Михайлович, член совета,
д.т.н.
05.13.01
9. Малиновский Виталий Николаевич, член совета,
д.т.н.
05.11.16
10. Маслов Сергей Ильич, член совета,
д.т.н.
05.13.12
11. Свиридов Валентин Георгиевич, член совета,
д.т.н.
05.11.16
12. Топорков Виктор Васильевич, член совета,
д.т.н.
05.13.12
13. Фролов Александр Борисович, член совета,
д.т.н.
05.13.01
14. Коломейцева Маргарита Борисовна, член совета,
д.т.н.
05.13.01
2. Бородюк Виталий Павлович,
зам. председателя диссертационного совета,
3. Беседин Валерий Михайлович,
ученый секретарь диссертационного совета,
1.
Заседание открывает председатель диссертационного совета доктор технических
наук, профессор О.М. Державин.
Уважаемые
коллеги! На повестке дня защита диссертации на соискание ученой
степени кандидата технических наук Некрасова Ивана Валериевича на тему:
“Разработка и исследование метода классификации библиографической текстовой
информации” по специальности 05.13.01 - Системный анализ, управление и обработка
информации (по отраслям). Диссертация выполнена на кафедре Управления и информатики
Московского энергетического института (технического университета).
Кворум имеется. Присутствуют оппоненты по работе. Мы можем приступить к
процедуре защиты.
Научный руководитель – Толчеев Владимир Олегович, к.т.н., доцент кафедры
Управления и информатики Московского энергетического института (технического
университета).
Официальные оппоненты:

Климанов Вячеслав Петрович, д.т.н., профессор кафедры “Информационные системы”
Московского Государственного Технологического Университета СТАНКИН.

Волгин Владимир Владимирович, к.т.н., доцент кафедры “Автоматизированные системы
управления тепловыми процессами” МЭИ (ТУ).
Ведущая организация – Федеральное государственное учреждение Научно-
исследовательский
институт
“Республиканский
исследовательский
научно-
консультационный центр экспертизы” (ФГУ НИИ РИНКЦЭ).
2. Слово для оглашения материалов личного дела диссертанта предоставляется
ученому секретарю совета профессору В.М. Беседину.
Беседин В.М. оглашает материалы, имеющиеся в деле по защите кандидатской
диссертации Некрасова И.В. (заявление о принятии диссертации к защите, личный листок по
учету кадров, копию диплома об окончании Московского энергетического института
(технического университета), удостоверение о сдаче кандидатских экзаменов).
Вопросов профессору Беседину В.М. задано не было.
3. Слово для сообщения о диссертационной работе предоставляется Некрасову И.В.
Уважаемые члены совета!
В настоящее время сеть Internet является одним из основных источников получения
текстовой информации. Однако быстрый рост количества электронных документов в сети
превратил
поиск
необходимой
информации,
ее
обработку
и
анализ
в
трудоемкий,
малоэффективный и длительный процесс. В связи с этим в настоящее время отмечается широкий
общемировой исследовательский интерес к этой проблеме. При этом в качестве одного из
наиболее эффективных способов ее решения рассматривается разработка новых оригинальных
технологий для классификации больших массивов документов.
Классификация текстовой информации заключается в разбиении набора документов на
обычно непересекающиеся группы с целью обеспечения максимальной близости элементов одной
группы и максимального различия между группами.
Одной из прикладных задач, в которых необходимо применение классификации текстовых
документов, является отслеживание публикаций на Internet-сайтах научно-технических журналов
по заданным пользователем предметным областям. Обычно на таких Internet-сайтах бесплатный
доступ предоставляется не к полным текстам статей, а только к их кратким описаниям, которые
принято называть библиографическими документами (плакат №3). Библиографические научнотехнические документы представляют сжатое изложение полнотекстового документа и состоят из
названия, фамилий авторов, краткого описания (аннотации) и ключевых слов. Несмотря на
актуальность данной задачи, в литературе ей уделяется очень мало внимания.
Для автоматизации процесса отслеживания библиографических публикаций, доступных на
Internet-сайтах,
необходима
разработка
специализированного
программного
комплекса,
способного отслеживать появление новых публикаций и проводить их классификацию. Важной
задачей является отбор методов для включения в такой комплекс. Такие методы (плакат №4)
должны обладать малой ошибкой классификации и малым времени классификации, простотой и
высокой скоростью обучения и дообучения, легкостью интерпретации результатов и простотой
реализации. Однако большинство известных методов не удовлетворяют указанным требованиям.
Таким образом, целью диссертационной работы (плакат №1) является разработка и
исследование метода классификации библиографической текстовой информации, который
ориентирован
на
решение
задачи
классификации
библиографических
документов,
расположенных на Internet-сайтах научно-технических журналов, обеспечивает малое время
классификации и ошибку, сопоставимую с ошибкой известных методов, а также соответствует
другим требованиям.
Как
правило,
процесс
классификации
можно
представить
в
виде
следующей
последовательности шагов (плакат №5). Предварительная обработка, в процессе которой из документа
удаляется разметка текста, стоп-слова и выделяются термины. В результате документ представляется в
виде набора слов. Индексация, в результате которой каждому термину в соответствие ставиться число
– вес термина (TF, TFIDF, TFC, LTC) (плакат №6), и набор документов приводится к модели
представления матричной или вероятностной (плакат №7). Большинство методов используют
матричную модель представления. Строки матрицы – документы набора, столбцы – словарь
уникальных терминов набора документов. Поэтому размерность получившейся матрицы обычно
составляет сотни тысяч слов. В связи с этим, следующим шагом идет сокращение размерности, в
результате которого сокращается размерность матрицы. При обработке библиографических
документов проблема размерности матрицы стоит менее остро из-за меньшего объема
библиографических документов. Далее идет собственно применение алгоритма классификации, в
результате которого каждому документу присваивается номер класса. И последним этапом идет
оценка качества классификации. В данной работе качество классификации оценивается ошибкой и
временем метода классификации. Под ошибкой метода понимается отнесение документа к классу, к
которому документ не принадлежит. Время классификации – время, которое необходимо методу для
определения класса документа. Ошибка классификации оценивается по контрольной выборке,
принадлежность документов которой известна заранее.
Как показал обзор литературы, представленный в первой главе диссертации, в настоящее
время для классификации текстовой информации не найдено универсального решения и
используется целая группа методов, ни один из которых не отвечает одновременно всем
предъявленным выше требованиям. Однако, проведенный анализ показал, что, принимая во
внимание, с одной стороны простоту реализации и обучения, интерпретируемость и устойчивость
результатов, а с другой стороны малую ошибку классификации, одним из наиболее эффективных
методов классификации текстовой информации, является метод ближайшего соседа (и его
модификация метод k-ближайших соседей), главным недостатком которого является большое
время классификации.
Рассмотрим метод БС (kБС) более подробно (плакат №8). На рисунке представлена ситуация
двух классов (черные и белые кружки). Для классификации нового наблюдения (квадрат) вначале
определяются расстояния от нового наблюдения до всех документов обучающей выборки, после чего
определяется ближайшее наблюдение (ближайший сосед). Наиболее часто использующейся на
практике модификацией МБС является kБС в котором для определения класса документа
используется голосование ближайших соседей. Отсюда сразу видна причина большого времени
классификации МБС: определение расстояний от нового наблюдения до всех документов обучающей
выборки.
Во второй главе диссертации проводится разработка модифицированного метода ближайшего
соседа (ММБС) использующего опорные точки для структурирования обучающей выборки с целью
более быстрого нахождения ближайших соседей документа.
Идея этого метода (плакат №8) заключатся в построении колец с центрами в опорных точках и
внешними радиусами большими, чем расстояние от соответствующей опорной точки до нового
документа, и внутренними радиусами меньшими, чем расстояние от соответствующей опорной точки
до нового документа, и использование для классификации только тех документов обучающей
выборки, которые попали в область пересечения колец.
Для определения радиусов колец предлагается следующий алгоритм (плакаты №9 и №10).
Вначале выбираются опорные точки. После чего рассчитываются расстояния от опорных точек до
всех документов обучающей выборки. Далее эти расстояния сортируются по возрастанию с
запоминанием номера точки в выборке и расширение векторов до матриц, вторым столбцом которых
идет номер документа в выборке (плакат №11). При классификации нового документа вначале
рассчитываются расстояния от опорных точек до нового документа. В качестве внутреннего радиуса
используется ближайшее расстояние, меньшее расстоянию от опорной точки до нового наблюдения, а
в качестве внешнего радиуса – ближайшее расстояние, большее расстояния от опорной точки до
нового наблюдения (плакат №11). После чего по значениям элементов второго столбца матрицы
определяются общие точки. Если общих точек нет, то радиусы изменяются путем перехода к
следующим точкам в вспомогательных матрицах.
Ошибка и время классификации ММБС зависит от количества и расположения опорных точек.
Анализ литературы показал, что для случаев, когда необходимо введение каких-либо опорных точек
широко используется два подхода: использование случайных точек и центроидов классов. Поэтому, в
данной работе для наилучшего выбора опорных точек было проведено следующее экспериментальное
исследование.
Для исследований была сформирована группа выборок В5.1 (плакат №12), которая состояла из
пяти пар обучающих и контрольных выборок. При формировании выборок для исследований была
применена методика (плакат №12), использующая библиографическую научно-техническую БД
COMPENDEX
в
качестве
источника
библиографических
документов.
Использование
БД
COMPENDEX обусловлено тем, что в ней существует встроенный рубрикатор предметных областей,
что существенно снижает субъективизм при формировании обучающих и контрольных выборок.
Методика заключается в следующем (плакат №12) : вначале определяется список предметных
областей и проводится выбор ключевых терминов, которыми можно описать выбранные предметные
области; затем проводится поиск документов в БД COMPENDEX по выбранным ключевым словам;
разбиение случайным образом найденных документов на обучающую и контрольную выборки.
В экспериментах в качестве опорных точек выбирались 3 (5, 10, 15) случайных точек,
принадлежащих различным классам и находящихся на среднем удалении или далеких друг от друга, а
также 3 (5) центроидов классов (исследования ограничивались пятью центроидами, т.к. выборки
состояли из пяти классов), при этом рассчитывалась ошибка и определялось время классификации.
Проводилось по пять экспериментов для каждого из указанных выше способов выбора
опорных точек. Результаты исследований, усредненные по пяти выборкам (В5.1) представлены на
плакате №13. Как видно из графиков использование в качестве опорных точек центроидов всех
классов приводит к меньшей ошибке классификации. При этом с увеличением количества опорных
точек ошибка классификации снижается, а время классификации увеличивается.
Важным критерием эффективности метода является его время классификации. В качестве
оценки времени классификации обычно используется общее количество операций на этапе
классификации. Для этого вводится понятие элементарной операции, т.е. операции, имеющей
фиксированную стоимость. Далее под элементарной операцией O(M ) будет пониматься время,
которое затрачивается на определение расстояния между двумя документами в М-мерном
пространстве.
При
классификации
нового
документа
в
ММБС
происходит
следующая
последовательность шагов (плакат №14):
1. Определение расстояния от нового документа до всех опорных точек:
2. Определение внешних и внутренних радиусов гиперколец по по матрицам
Ds ( s  1,..., S ) . В худшем случае это перебор всех значений в матрицах:
3. Изменение внешних и внутренних радиусов гиперколец и определение документов,
попавших в область пересечения гиперколец. В худшем случае это перебор всех значений в
матрицах:
4. Определение класса нового документа (в случае, если в области пересечения
гиперколец находится более одного документа обучающей выборки):
Таким образом, общее количество операций в ММБС на этапе классификации состоит из
суммы операций всех перечисленных выше шагов:
ММБС
Oобщее
 S  O( M )  (2  S  N  K  1)  O(2)
При классификации нового документа в МБС происходит следующая последовательность
шагов (плакат №14):
1. Определение расстояния от нового документа до всех документов в обучающей
выборке:
2. Определение документа, расстояние до которого наименьшее из всех расстояний,
полученных на предыдущем шаге (в случае МkБС на этом шаге определяется k ближайших
расстояний, после чего среди них происходит подсчет документов, соответствующих каждому
классу обучающей выборки):
Таким образом, общее количество операций на этапе классификации в МБС можно
вычислить по формуле:
ÌÁÑ
Oîáùåå
 N  O( M )  ( N  1)  O(2)
Учитывая, что для библиографических текстовых документов
O(2)  O( M ) , получаем, что
S  O(M )  (2  S  N  K  1)  O(2)  N  O(M )  ( N  1)  O(2) ,
KN, SN и
т.е. Oîáùåå  Oîáùåå .
ÌÌÁÑ
ÌÁÑ
На плакате №13 представлены результаты классификации МkБС и ММБС. Как видно из
гистограмм, ошибка ММБС сопоставима с ошибкой МkБС, но при этом время классификации ММБС
примерно в 91 раз меньше. Результаты получены путем усреднения по всем 5 выборкам. Такой
выигрыш во времени классификации получен за счет меньшего количества операций определения
расстояния.
В третей главе проводились исследования влияния других более общих факторов на ошибку и
время классификации.
Вначале выбор информативных признаков. Т.к. рассматриваются библиографические
документы, нет острой необходимости в применении специальных методов. Достаточно
применения методов взвешивания и использования для классификации только N терминов с
наибольшим весом. Как видно из графика на плакате №15, использование LTC, TF, TFC и TFIDF
методов взвешивания приводит к примерно одинаковым результатам, исключение составляет
лишь TFIDF метод при использовании евклидовой меры близости. При этом использование TFC
и LTC методов взвешивания, а также косинусоидальной меры близости приводит к несколько
меньшей ошибке классификации.
Из графика на плакате №15 следует, что начиная с длины документа, равной 75 - 125
терминам, ошибка классификации практически не изменяется. Это свидетельствует о том, что
использование терминов с еще меньшим весом не влияет на ошибку классификации.
Далее исследовалось влияние длины обучающей выборки. Как видно из графиков,
представленных на плакате №15, с увеличением длины обучающей выборки ошибка
классификации сокращается, но при этом увеличивается время классификации. Анализ
полученных результатов позволяет выделить интервал [500; 750] как наиболее приемлемый
размер выборки для случая пяти классов. Как видно из графика на плакате №15 ошибка
классификации, полученная с использованием косинусоидальной меры близости, меньше ошибки
классификации, полученной с использованием евклидовой меры, в среднем на 2%.
Далее исследовалось влияние количества классов на ошибку и время классификации. Как
видно из графиков, представленных на плакате №16, при увеличении количества классов ошибка
классификации увеличивается, при этом увеличивается и время классификации.
Далее проводился сравнительный анализ ошибки и времени классификации методами ММБС,
МkБС, НБ и МЦ. Как видно из графиков, представленных на плакате №17, предложенный в данной
работе метод приводит к ошибке классификации, сопоставимой с ошибкой классификации,
показанной другими широко известными методами, принимавшими участие в исследованиях. Время
классификации ММБС сопоставимо с временем классификации МЦ и НБ и примерно в 91 раз меньше
времени классификации МkБС.
В целом, проведенные исследования показали, что для эффективного решения задачи
классификации различных выборок, необходимо иметь набор методов, отличающихся друг от друга
механизмом принятия решений (решающим правилом).
На основе результатов исследований можно сделать следующие выводы: с увеличением
количества документов в обучающей выборке ошибка классификации снижается, но при этом
увеличивается время классификации, с увеличением количества терминов, используемых для
описания документа, ошибка классификации снижается, а начиная с длины документа, равной 75-125
терминам, ошибка не изменяется, все рассмотренные методы взвешивания терминов приводят
примерно к одинаковой ошибке классификации, однако использование TFС, LTC и TFIDF мер
взвешивания приводит к меньшей ошибке классификации (TFIDF совместно с косинусоидальной
мерой определения близости), чем TF взвешивание, но использование этих мер для on-line
классификации (классификации в режиме реального времени) затруднено, косинусоидальная и
евклидова меры определения близости между документами приводят к примерно одинаковой ошибке
классификации, однако в среднем использование косинусоидальной меры близости приводит к
снижению ошибки классификации примерно на 2%.
В четвертой главе проводится разработка программного комплекса “СКАТ”, который
реализует
все
этапы
процесса
классификации
текстовой
информации
и
удовлетворяет
информационные потребности научных работников по получению и обработке научно-технических
статей с сайтов Internet-журналов. Схема разработанного программного комплекса представлена на
плакате №18.
Программный комплекс может работать в режиме обучения методов, в режиме сравнения
методов и в режиме классификации библиографических научно-технических статей (плакат
№19).
В режиме обучения методов в базу данных программного комплекса загружаются
обучающая и контрольная выборки. Класс каждого документа в этих выборках известен заранее.
После классификации документов контрольной выборки присвоенные методом номера классов
сравниваются с исходными и оценивается ошибка классификации метода.
В режиме сравнения методов на одной и той же обучающей выборке проводится обучение
методов, далее на одной и той же контрольной выборке оценивается ошибка классификации.
После
чего,
пользователь
может
сравнить
ошибки
классификации,
полученные
при
использовании различных методов.
В режиме классификации библиографических научно-технических статей документы,
поступающие из сети Internet, классифицируются с использованием ранее обученного метода и
им присваивается номер наиболее близкого класса, после чего эти документы становятся
доступными для поиска и просмотра.
Для проверки функциональности ПК “СКАТ” в части автоматического получения статей
журналов из сети Internet были выбраны тематики группы выборок В5.3 (Data and Text Mining,
Identification (Control Systems), Information Retrieval, Intelligent and Multi Agent Systems, Robots),
которые описывают интересы гипотетического пользователя. На сервере выбранных издательств
экспертным путем были отобраны следующие журналы: (плакат №19). Всего 29 журналов.
Журналы нецелесообразно распределять по тематикам, т.к. большинство из них публикуют
статьи одновременно по нескольким выбранным предметным областям.
Для проведения исследований с использованием программного комплекса “СКАТ” с
серверов издательств были скопированы последние номера каждого из перечисленных выше
журналов. Так как количество статей в номерах журналов разное, всего было получено 201
краткое описание статьи. Для классификации использовалась TF мера взвешивания терминов,
косинусоидальная мера определения близости между документами, метод классификации –
ММБС. Результате классификации статей журналов представлены на плакате №20.
ПК “СКАТ” внедрен в эксплуатацию в ФГУ НИИ РИНКЦЭ и используется для
отслеживания публикаций по профильным научно-техническим предметным областям.
Основные результаты работы:
1.
Проведен обзор и сравнительный анализ наиболее распространенных и эффективных методов
классификации текстовых документов. Показано, что в настоящее время не существует
методов, одновременно обеспечивающих малое время классификации, малую ошибку
классификации, высокую скорость обучения, простоту реализации, легкую интерпретацию
результатов на различных выборках текстовых документов.
2.
Разработан новый метод классификации библиографических текстовых документов –
модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в
котором с целью увеличения быстродействия предложено ввести опорные точки. Обосновано
количество и месторасположение опорных точек, даны рекомендации по выбору
настраиваемых параметров в разработанном методе.
3.
Получена оценка количества вычислительных операций, необходимых для классификации
текстовых документов с помощью разработанного метода и показано, что он требует
меньшего количества вычислительных операций по сравнению с прототипом (методом
ближайшего соседа).
4.
На основе сравнительного анализа ошибок классификации разработанного метода с
ошибками известных методов показано, что при существенном снижении времени
классификации ошибка разработанного метода остается сопоставимой с ошибками известных
методов.
5.
Разработан ПК “СКАТ” (“Система классификации и анализа текста”), реализующий
предложенный в диссертации метод классификации. Для обоснования выбора наиболее
эффективного метода (для решения конкретной задачи) в ПК “СКАТ” реализованы также
другие методы (метод k-ближайших соседей, метод центроидов и наивный байесовский
метод).
Разработанный
ПК
позволяет
пользователям
получать
и
обрабатывать
в
автоматизированном режиме библиографические текстовые документы с Internet-сайтов
электронных журналов и ориентирован на широкий круг пользователей, не имеющих
специальных знаний в области теории классификации и программирования.
6.
Теоретические результаты и опыт использования ПК в экспериментальных исследованиях
обобщены в методике использования ПК для классификации библиографических документов
из научно-технических журналов, получаемых из сети Internet.
Спасибо за внимание !
4. После сообщения о диссертационной работе Некрасов И.В. ответил на заданные
вопросы.
Д.т.н., профессор Фролов А.Б.
Вопрос. Скажите, пожалуйста, как в Вашей работе представляются объекты и как
измеряется расстояние между двумя объектами?
Ответ. Каждый документ представляется в виде вектора, элементами которого являются
веса терминов, определенные с помощью одного из методов взвешивания терминов,
содержащихся в документе. Расстояние между объектами определяется с помощью евклидова
расстояния.
Вопрос. Существенен ли порядок терминов при взвешивании?
Ответ. Нет, не существенен.
Вопрос. Получена функция определения расстояния на множестве объектов. Какими
свойствами она обладает?
Ответ. Функция расстояния – это евклидова метрика и она обладает всеми свойствами
евклидовой метрики.
Вопрос. Пусть существуют два документа: один из области медицины, другой – из области
математики. Может ли набор терминов первого документа совпадать с набором терминов второго
документа? Что будет в этом случае?
Ответ. Наборы терминов документов различных предметных областей могут совпадать и
это является одной из причин ошибки классификации.
Д.т.н., профессор Диденко В.И.
Вопрос. Можно ли рассматривать ошибку классификации как случайную величину?
Ответ. Да, можно.
Вопрос. Вы пытались определить закон распределения этой случайной величины,
рассчитать СКО?
Ответ. Нет. Эти вопросы в диссертации не определялись и не исследовались по причине
малого количества выборок. Вместо этого в работе рассчитывалось среднее значение ошибки и
максимальное и минимальное отклонения.
Вопрос. Насколько будет правомерным использовать полученные результаты для
описания ошибки классификации для других выборок по тематикам, использованным в
исследованиях?
Ответ. Даже внутри одной выборки по разному разбитой на обучающую и контрольную
выборки, ошибка классификации может изменятся в достаточно широких пределах. Например на
плакате №17 показана ошибка классификации для пяти выборок группы В5.1. Как видно из
диаграммы ошибка классификации в этих исследованиях изменяется от 5% до 35%.
Вопрос. Т.е. для других выборок будут получены совершенно другие результаты?
Ответ. Общий вид зависимостей будет такой же, но конкретные значения ошибки могут
быть другими.
Д.т.н., профессор Топорков В.В.
Вопрос. По какому принципу формировались группы выборок для исследований?
Существует представительный репозиторий UCI на задачах которого принято проводить
исследования.
Ответ.
Поскольку
в
данной
работе
рассматривается
задача
классификации
библиографической научно-технической текстовой информации для формирования обучающей и
контрольной выборок использовалась специализированная база данных COMPENDEX, которая
содержит большое количество библиографических текстовых документов по различным научнотехническим предметным областям. Кроме того, в этой базе данных существует встроенный
рубрикатор предметных областей, составленный группами экспертов, что существенно снизило
субъективизм при формировании обучающей и контрольной выборок для исследований.
Вопрос. Третья группа выборок состояла из документов по предметным областям Data
Mining, Identification, Robots и другим. Исходя из чего была сформирована выборка по этим
тематикам?
Ответ. Эта группа выборок формировалась по тематикам, которыми занимается кафедра
Управления и информатики, на которой выполнялась моя диссертационная работа, т.е.
соответствует интересам сотрудников этой кафедры.
Д.т.н., профессор Лохин В.М.
Вопрос. Задача классификации хорошо решается на базе интеллектуальных технологий.
Почему этих методов нет в обзоре?
Ответ. Интеллектуальные методы являются перспективным направлением классификации
текстовых данных, но на момент составления обзора интеллектуальные методы находились на
стадии развития, не показывали устойчивых результатов и не обладали решительными
преимуществами перед классическими методами.
Д.т.н., профессор Фролов А.Б.
Вопрос. Предположим, мы взяли документ, обработали, взвесили термины, получили
векторное представление документа, а потом поменяли местами элементы вектора. Что будет в
этом случае?
Ответ. Менять местами элементы одного вектора нельзя. Это приведет к изменению
значения расстояния между документами. Можно менять местами столбцы в матрице документтермин.
Вопрос. Какой должна быть длина вектора, чтобы охватить базу знаний по предметным
областям, принимавшим участие в исследованиях?
Ответ. Матрица документ-термин формируется по тем документам, которые имеются в
выборке. База знаний предметных областей отсутствует. Длина вектора равна количеству
уникальных терминов в выборке. Если термина нет в документе его вес в векторе документа
равен нулю.
Д.т.н., профессор Малиновский В.Н.
Вопрос. В обзоре упоминались несколько методов классификации. Какие их достоинства и
недостатки, в чем преимущества Вашего подхода?
Ответ. При написании диссертации был проведен обзор достаточно большого количества
методов классификации, их достоинства и недостатки описаны в диссертации.
Вопрос. Вы используете термин ошибка. Обычно для описания этой характеристики
используется термин погрешность.
Ответ. В теории классификации ошибка является устоявшимся термином. Под ошибкой
понимается несовпадение класса документа, присвоенного методом, с истинным классом
документа. Ошибка классификации определяется по контрольной выборке, принадлежность
документов которой известна заранее, по формуле указанной на плакате №7.
Д.т.н., профессор Бородюк В.П.
Вопрос. Вы доказываете, что предложенный Вами метод лучше. За счет чего это
улучшение достигается?
Ответ. Основное преимущество модифицированного метода ближайшего соседа – малое
время классификации, которое достигается путем структурирования документов обучающей
выборки на этапе обучения метода. Это происходит один раз. В результате чего на этапе
классификации, который происходит многократно, сокращается количество вычислительных
операций, а следовательно сокращается время определения класса документа.
Председатель совета, д.т.н., профессор Державин О.М. Имеются ли еще вопросы по
диссертации?
Вопросов нет.
5. Слово
предоставляется
научному
руководителю
соискателя
к.т.н.,
доценту
Толчееву Владимиру Олеговичу. (Отзыв прилагается).
6. Ученый секретарь диссертационного совета, д.т.н., В.М. Беседин зачитывает
заключение кафедры Управления и информатики Московского энергетического
института (технического университета), подписанное зав. кафедры д.т.н., профессором
Колосовым О.С., ученым секретарем кафедры, к.т.н., доцентом Виноградовой Н.А. и
утвержденный проректором МЭИ по научной работе Скибицким Н.В. (заключение
прилагается).
Ученый
секретарь
государственного
зачитывает
учреждения
отзыв
ведущей
Научно-исследовательского
организации
института
–
Федерального
“Республиканского
исследовательского научно-консультационного центра экспертизы” (ФГУ НИИ РИНКЦЭ),
подписанный заместителем генерального директора, кандидатом технических наук Стяжкиным
В.Б. и утвержденного генеральным директором, доктором экономических наук Белоусовым В.Л.
(отзыв прилагается).
Дается обзор отзывов, поступивших на автореферат диссертации.
Заключение и все отзывы положительные.
Отзыв ведущей организации содержит следующие замечания:
1. Ориентация на обработку и анализ англоязычных публикаций сокращает области возможного использования разработанных алгоритмов и программного обеспечения.
2. В методике использования ПК “СКАТ” было бы целесообразно более подробно
изложить принципы отбора наиболее ценных (релевантных для пользователя)
журналов для последующей классификации публикуемых в них документов
(библиографических описаний).
3. Для настройки параметров методов классификации было бы целесообразно
использовать k-кратную перекрестную проверку (k-fold crossvalidation).
Отзывы на автореферат поступили из следующих организаций:

Журнал “Информационные технологии”. Подписал заместитель главного редактора, к.т.н.
Филимонов Н.Б. Замечания: 1. Диссертационные исследования проводились с использованием
библиографической базы данных COMPENDEX, в то время как большинство зарубежных
исследований ориентированны на базу данных новостей агентства “Рейтер”. 2. В автореферате
не очерчены четкие границы применимости разработанного метода. В частности, неясно,
правомерно ли его применение при распознавании графических объектов и группировке
фактографических данных.

Московский Инженерно – Физический Институт (Государственный Университет). Подписал
к.т.н., доцент кафедры “Информационные технологии” Марковский М.В. 1. Не указано, какие
программные средства использовались для разработки программного комплекса “СКАТ”. 2. Не
ясно, имеется ли в ПК “СКАТ” возможность отнесения документа одновременно к нескольким
классам.

Петрозаводский Государственный Университет. Подписал д.т.н., профессор кафедры
“Математического моделирования систем управления” Рогов А. А. 1. Недостаточно полный
обзор рынка современных программных средств, обеспечивающих интеллектуальную
обработку данных. 2. Не ясно, можно ли проводить с помощью ПК “СКАТ” классификацию
других типов текстовых документов (сообщений электронной почты и новостных сообщений,
анкет и т.п.).

Российский институт стратегических исследований. Подписал ведущий научный сотрудник,
к.т.н. Личидов В. В. 1. Перспективным направлением обработки текстовых документов
является проведение морфологического и семантического анализа, однако автор их не
рассматривает даже в обзоре. 2. Для учета синонимов и повышения точности классификации
для многих выборок лучше использовать метод латентного семантического анализа вместо
простого индексирования с помощью процедуры TF-IDF и ее модификаций.

Московский Институт Радиотехники, Электроники и Автоматики. Подписал к.т.н., профессор
кафедры “Проблемы управления” Тягунов О. А. Без замечаний.
7. Слово для ответа на замечания предоставляется диссертанту.
Что касается сокращения области возможного использования разработанных алгоритмов и
программного обеспечения в связи с ориентацией программного комплекса на обработку и анализ
англоязычных публикаций, могу ответить, что на момент начала работы над проблемами
обработки текстовой информации (1998 г.) в Internet не существовало достаточного количества
русскоязычных публикаций на которых можно было бы проводить исследования. Доступ к БД
ВИНИТИ был только в тестовом режиме и позволял просматривать не более 50 документов.
Разработанный метод может работать с документами на любом языке. В ПК “СКАТ” для работы с
русскоязычными документами необходима доработка модуля предварительной обработки
документов. Необходимо отметить, что в настоящее время в большом количестве российских
научно-технических журналов вместе с текстом публикуется краткое описание на английском,
что позволяет использовать ПК “СКАТ”.
С замечанием о целесообразности более подробного изложения принципа отбора наиболее
ценных журналов для последующей классификации я соглашаюсь. Вместе с тем, этот процесс
плохо формализуется, т.к. во многом зависит от квалификации пользователя. Данная проблема
является задачей дальнейших исследований.
Настройка параметров метода с помощью перекрестной проверки представляется
эффективной и широко используемой в задачах классификации текстовой информации.
Настройка параметров в данной работе проводилась во многом аналогично k-fold crossvalidation
при k = 5. Однако в моих исследованиях для каждой выборки формировалась отдельная
контрольная выборка, после чего также как и в методе перекрестной проверки проводилось
усреднение.
Теперь перейдем к вопросам из отзывов, поступивших на автореферат.
Что касается БД агентства “Рейтер”, то действительно, при исследовании методов
классификации в литературе достаточно часто ссылаются на эту БД. Однако, в данной
диссертации классификация текстовых документов рассматривается в контексте обработки и
анализа научно-технической информации в то время как в БД “Рейтер” содержатся в основном
документы по общеполитической и экономической тематикам.
По поводу границ применимости разработанного метода необходимо отметить, что ММБС
может использоваться для классификации любых многомерных данных. Однако, его применение
эффективно в том случае, когда время классификации ММБС меньше времени классификации
других методов (как показали исследования ошибка ММБС сопоставима с ошибкой других
методов). В целом для решения любой задачи классификации необходимо иметь несколько
методов
и применять тот, который показывает лучшие результаты на конкретной выборке
объектов.
ПК “СКАТ” разработан с использованием среды разработки Borland Delphi. Для хранения
данных используется СУБД Borland InterBase.
В ПК “СКАТ” нет, возможности отнесения документа одновременно к нескольким
классам нет. Рассматривается задача классификации в непересекающиеся классы.
Что касается рынка программных средств интеллектуального анализа данных, то данный
рынок развивается очень динамично. Возможно после составления обзора появились новые ПК,
однако в обзоре присутствуют наиболее известные IBM Intelligent Miner for Text, StatSoft Statistica
Text Miner, SAS Enterprise Miner и ряд других.
Обработка текстовых документов других типов зависит от организации хранения
документов на Internet-сайте.
Проведение морфологического и семантического анализа действительно является
перспективным направлением обработки текстовых документов, однако на момент начала работы
над диссертацией, эти методы не давали устойчивых результатов. А настоящее время они еще
находятся в стадии становления и требуют существенных трудозатрат.
Анализ результатов использования латентного семантического анализа (ЛСА) в
российских и зарубежных публикациях позволяет сделать вывод, что применение ЛСА приводит
лишь к незначительному сокращению ошибки, однако при этом требуются значительные
трудозатраты на реализацию и отладку достаточно сложного метода, существенно усложняется
процедура предварительной обработки данных. Поэтому, на мой взгляд, целесообразность
использования ЛСА не очевидна.
8. Слово предоставляется официальному оппоненту д.т.н., профессору Климанову В.П.
(положительный отзыв прилагается).
Вопросов официальному оппоненту задано не было.
9. Слово предоставляется официальному оппоненту к.т.н., доценту Волгину В.В.
(положительный отзыв прилагается).
Вопросов официальному оппоненту задано не было.
10. Слово для ответа на замечания предоставляется диссертанту.
На некоторые вопросы я уже дал ответы. Что касается оценки точности ошибки при
заданном объеме выборки, действительно, проблема оценки точности и достоверности
полученных результатов является существенной частью любых исследований. При этом
необходимо ответить на вопрос: как сильно отклоняется полученная на выборке оценка от
истинного значения. В данной работе указаны средняя ошибка классификации на выборке
документов, а также найдены минимальное и максимальное значение ошибки, что дает довольно
полное представление об изменении ошибки классификации на группе выборок. Такой способ
оценки ошибки классификации использовался прежде всего потому, что было затруднено
формирование независимых и случайных выборок текстовых документов для построения
доверительных интервалов. Кроме того, в работе исследовалось влияние структуры выборки,
длины обучающей выборки, количества классов, что на мой взгляд достаточно полно
характеризует точностные свойства разработанного метода.
По поводу тезиса на странице 17: “Задача классификации библиографических научнотехнических документов является статистической, так как документ может одновременно
принадлежать к нескольким предметным областям”: например статья, в которой решается
химическая задача (анализ цепочек ДНК) с помощью методов математического моделирования,
одновременно относится к предметным областям математики и химии.
Упоминание методов факторного и компонентного анализ, редуцированных методов на
мой взгляд необходимо, иначе может возникнуть впечатление, что автор решает задачу не
исследовав существующих и альтернативных методов ее решения.
С замечанием о неудачности классификация документов на документы по техническим,
прикладным и технологическим вопросам и с замечанием об использовании терминов “векторный анализ” и “аналитическая геометрия” вместо терминов “линейная алгебра” и “вычислительная геометрия” я в целом согласен, но термин “вычислительная геометрия” является давно
устоявшимся, например есть книги Ф. Препарата, М. Шеймос “Вычислительная геометрия”, М.:
МИР, 1989 или А. Фокс, М. Пратта “Вычислительная геометрия. Применение в проектировании и
производстве”, М.: МИР, 1982.
Что касается примера по классификации текстовой информации нетехнической (например,
биологической) природы хочу отметить, что формирование обучающей и контрольной выборки
представляет собой проблему и корректное решение такой задачи требует привлечения эксперта –
специалиста в области биологии.
11. Председатель совета д.т.н., профессор О.М. Державин открывает дискуссию.
Д.т.н., профессор Фролов А.Б. Я работу поддерживаю, хотя для меня было несколько
неожиданным, что для классификации текстовой информации применяются методы векторного
анализа. Несмотря на то, что для классификации текстовой информации традиционно
используется семантический подход, мне было интересно посмотреть как для классификации
применяются классические статистические подходы.
Д.т.н., профессор Топорков В.В. Семантический анализ действительно является
перспективным направлением классификации текстовой информации. Скоро должна выйти книга
Сухомлина из МГУ по этой тематике. По диссертации хочется отметить, что задача поставлено
четко, цель достигнута, поэтому я считаю, что работу надо поддержать.
Председатель совета д.т.н., профессор Державин О.М. Уважаемые коллеги. Работа
несколько раз обсуждалась на семинаре на кафедре Управления и информатики. В процессе этих
обсуждений к работе было предъявлено несколько серьезных замечаний. Мне понравился подход
соискателя к устранению этих замечаний, направленный на улучшение работы. Я присоединяюсь
к положительной оценке данной работы.
12. Соискателю предоставляется заключительное слово.
В заключении, я хотел бы поблагодарить всех тех людей, которые помогли мне в
выполнении этой работы, в первую очередь, моего научного руководителя Толчеева Владимира
Олеговича, кафедральных оппонентов Бородюка Виталия Павловича и Фомина Геннадия
Александровича, а также всех, кто ознакомился с работой и высказал свои пожелания и
замечания. Я с благодарностью принимаю все предложения и замечания и обязательно
постараюсь учесть их в своей дальнейшей работе.
13. Председатель совета д.т.н., профессор Державин О.М.
Для проведения процедуры тайного голосования предлагается счетная комиссия в составе:
д.т.н., профессор Колосов О.С., д.т.н., профессор Фролов А.Б., д.т.н., профессор Лохин В.М.
Счетная комиссия избирается единогласно.
14. Проводится процедура тайного голосования. Слово Предоставляется председателю
счетной комиссии д.т.н., профессору Колосову О.С.
Председатель счетной комиссии д.т.н., профессор Колосов О.С. оглашает протокол
заседания счетной комиссии (протокол имеется в деле). При проведении тайного голосования
диссертационный совет в количестве 14 человек (из них 7 докторов наук по специальности
рассматриваемой диссертации), участвовавших в заседании, из 19 человек, входящих в состав
совета, проголосовал: “за” – 14, “против” – нет, недействительных бюллетеней – нет.
Председатель совета д.т.н., профессор Державин О.М. предлагает утвердить протокол
заседания счетной комиссии.
Результаты открытого голосования: “за” – 14, “против” – нет, воздержавшихся – нет.
Утверждение протокола – единогласно.
Постановили:
На основании результатов тайного голосования членов диссертационного совета (“за” – 14,
“против” – нет, недействительных бюллетеней – нет) считать, что диссертация соответствует
требованиям, предъявляемым к диссертациям на соискание ученой степени кандидата
технических наук и присудить Некрасову И.В. ученую степень кандидата технических наук.
15. Председатель совета д.т.н., профессор Державин О.М. предлагает обсудить проект
заключения по диссертации Некрасова И.В.
В результате обсуждения в проект заключения вносятся изменения и открытым
голосованием единогласно принимается следующий текст заключения.
ЗАКЛЮЧЕНИЕ
диссертационного совета Д 212.157.08 по диссертационной работе Некрасова Ивана
Валериевича “Разработка и исследование метода классификации библиографической
текстовой информации”, представленной на соискание ученой степени кандидата
технических наук по специальности 05.13.01 – Системный анализ, управление и
обработка информации (по отраслям).
Диссертация
представляет
собой
законченную
научно-исследовательскую
работу,
посвященную актуальной тематике – решению задачи автоматизации процесса обработки и анализа
библиографических научно-технических документов с Интернет-сайтов электронных журналов.
Диссертация удовлетворяет п. 8 Положения о порядке присуждения ученых степеней. Работа
выполнена в рамках основных направлений научно-технической деятельности МЭИ.
Наиболее существенные научные результаты, полученные лично автором
1. Разработан модифицированный метод ближайшего соседа с использованием опорных
точек, который позволяет без существенного увеличения ошибки классификации
значительно сократить время классификации по сравнению с прототипом (методом
ближайшего соседа).
2. Обосновано количество и месторасположение опорных точек, даны рекомендации по
выбору настраиваемых параметров в разработанном методе.
3. Определена зависимость ошибки и времени классификации разработанного метода от
способа взвешивания терминов, меры определения близости между документами, длины
выборки и количества классов.
Степень научной новизны полученных результатов
1. Разработан новый метод классификации библиографических текстовых документов –
модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа,
в котором с целью увеличения быстродействия по сравнению с прототипом предложено
ввести опорные точки.
2. Получены оценки сложности алгоритма (по количеству вычислительных операций) для
модифицированного метода ближайшего соседа и его прототипа.
Достоверность и обоснованность научных результатов и положений диссертации
Обоснованность научных положений, выводов и рекомендаций, сформулированных в
диссертации, подтверждается результатами экспериментальных исследований и сопоставлением
полученных автором результатов с представленными в литературных источниках.
Практическая значимость полученных результатов
Основные теоретические результаты работы доведены до уровня практического применения.
Разработан новый программный комплекс (ПК) “СКАТ” (“Система Классификации и Анализа
Текста”). ПК “СКАТ” ориентирован на использование широким кругом пользователей, не имеющих
специальных знаний в области теории классификации и программирования. Опыт использования ПК
“СКАТ” в экспериментальных исследованиях обобщен в методике, предназначенной для получения
и обработки в автоматизированном режиме библиографических текстовых документов с Internetсайтов электронных журналов.
Рекомендации по использованию результатов работы
Полученные результаты могут найти практическое применение в организациях, занимающихся
обработкой и анализом библиографических текстовых документов, в том числе в Всероссийском
институте научной и технической информации (ВИНИТИ), Всероссийском институте межотраслевой
информации (ВИМИ), Институте научной информации по общественным наукам (ИНИОН),
Международном центре научно-технической информации (МЦНТИ) и др.
Председатель диссертационного
О.М. Державин
совета Д 212.157.08
Ученый секретарь диссертационного
совета Д 212.157.08
В.М. Беседин
Download