Text Mining - tolstykh.com

advertisement
Из цикла лекций «Современные Internet-технологии» для студентов 5-го курса кафедры Компьютерных технологий
физического факультета Донецкого национального университета
Text Mining
Глубинный анализ текста
ДонНУ, кафедра КТ, проф. В. К. Толстых
Задача: выбрать ключевую и наиболее значимую информацию.
Text Mining позволяет анализировать большие объемы информации в
поисках тенденций, шаблонов и взаимосвязей, способных помочь в
принятии стратегических решений.
Text Mining – это новый вид поиска, который, в отличие от традиционных
подходов не только находит списки документов, формально релевантных
запросам, но и позволяет получить ответ на просьбу: "Помоги мне
понять смысл, разобраться с этой проблематикой".
Под Text Mining понимается механизм обнаружения в потоке данных
интересных новых знаний, таких как модели, конструкции, ассоциации,
изменения, аномалии и структурные новообразования.
2
Рождение Text Mining
Контент-мониторинг — это методика объективного и систематического изучения
содержимого сетевой информации. Это перспективное направление развития
систем сетевой интеграции, появление которого вызвано, прежде всего, задачей
систематического отслеживания тенденций и процессов в постоянно обновляемой
сетевой информационной среде. Важнейшей теоретической основой контентмониторинга является контент-анализ.
Контент-анализ — это содержательный анализ информационных потоков с
целью получения необходимых качественных и количественных срезов, который
производится постоянно, т.е. на протяжении не определяемого заранее
промежутка времени.
Начиная с 60-х годов, с появлением средств автоматизации и
формирования текстов в электронном виде, получил начальное развитие контентанализ информации больших объемов — баз данных и интерактивных медиасред. При этом выделилось направление, получившее самостоятельное развитие
— Data Mining и Text Mining
3
Проблемы и вопросы

Text Mining не может заменить аналитика!

Сложность разработки и эксплуатации приложенияText Mining:





•
Квалификация пользователя
Сложность подготовки данных
Большой процент ложных, недостоверных или бессмысленных
результатов
Высокая стоимость
Отсутствие достаточного количества репрезентативных данных
Закрытий коммерческий характер многих разработок
4
Типичные задачи Text Mining













Классификация
Кластеризация
Реферирование
Поиск по ключевым словам
Прогнозирование
Ассоциация
Выявление феноменов
Визуализация
Анализ и обнаружение отклонений
Оценивание
Анализ связей
Ответы на вопросы
Подведение итогов
5
Основные задачи Text Mining
Классификация — это отнесение каждого документа к определенному классу
(кластеру) с заранее известными признаками, полученными на этапе обучения. В
современных системах классификация применяется, например, в таких задачах:
группировка документов в intranet-сетях, размещение документов в определенные
папки, избирательное распространение новостей подписчикам.
Кластеризация — это разбиение множества документов на кластеры, создание
кластеров (в т.ч. автоматическое), представляющих собой подмножества, смысловые
параметры которых заранее неизвестны. Кластеризация широко применяется при
реферировании больших документальных массивов, определении взаимосвязанных
групп документов, для упрощения визуализации информации, выявления дубликатов
или близких по содержанию документов.
Классификация и кластеризация представляют собой две противоположные
крайности в отношении человеческого участия в процессе группировки документов.
Механизм классификации обычно обучается на отобранных документах только после
того, как заканчивается стадия автоматического выявления классов (кластеров).
6
Системы автоматических ответов на вопросы пользователей, задаваемых
на естественном языке, задумывались еще на заре кибернетики.
В качестве базы знаний в этих системах предполагается использовать
ресурсы Internet, обработанные современными средствами глубинного
анализа текстов.
Сегодня корпорация Microsoft уже пытается создать первую реально
работающую систему, способную отвечать на вопросы пользователей. Работы
в этом направлении ведутся в исследовательском центре корпорации.
Согласно разработанным алгоритмам, сначала анализируется
структура вопроса, определяется подлежащее (объект поиска), преобразуется
вопрос в поисковый запрос, последний отправляется на обычный поисковик,
получают результаты, а потом ищут необходимые слова среди найденных
страниц и выдают ответ.
Разрабатываются еще более сложные системы с зачатками
искусственного интеллекта, которые могли бы давать не односложные, а
развернутые варианты ответов до десятка слов.
7
Автоматическое реферирование (Automatic Text Summarization) —
составление кратких изложений материалов, аннотаций или дайджестов, т.е.
извлечение наиболее важных сведений из одного или нескольких документов, и
генерация на их основе лаконичных и информационно емких отчетов.
На сегодня существует множество путей решения задачи, которые
достаточно четко подразделяются на два направления, — квазиреферирование и
краткое изложение содержания первичных документов.
Квазиреферирование основано на экстрагировании фрагментов
документов, т.е. выделении наиболее информативных фраз и формировании из
них квазирефератов.
Краткое изложение исходного материала основывается на выделении из
текстов с помощью методов искусственного интеллекта и специальных
информационных языков наиболее существенной информации и порождении
новых текстов, содержательно обобщающих первичные документы.
Главное различие между средствами реферирования состоит в том, что
они формируют или набор выдержек, или краткое изложение документа.
8
Примеры внедрения
Text Mining
Например, если в Google набрать "классическая музыка", то
поисковик выдаст ссылки на сайты, так или иначе касающиеся классической
музыки. Если же искать "классическую музыку" через ИПС с кластеризацией
и систематизацией данных на основе Text Mining, то будет выдан
тематически сортированный список композиций, которые можно тут же
прослушать.
Другой пример, по запросу "Гарри Поттер" пользователь получит не
просто набор ссылок, а отсортированный отчет, в котором часть ссылок будет
лежать в графе "фильмы", другая часть - в колонке "книги", а третья - в
колонке "рецензии".
9
Пример 1
Группировка
результатов
поиска «мышь»
по известным классам
на ИПС vivisimo.com
(классификация)
10
11
Пример 2
Пример 3
Сюжетный подход при классификации
документов (новости)
12
Пример 4
Не так давно Центральное Разведывательное Управление США
представило широкой публике свои технологии "добычи данных", используемые
для поиска информации в текстах, радио- и телепередачах. Отдел современных
информационных технологий, входящий в состав управления науки и техники
Центрального разведывательного управления США, продемонстрировал
общественности технологии "извлечения текстовых данных", используемые для
поиска значимой информации в огромной массе документов и в радио- и
телепередачах на различных языках.
Поиск ведется как по систематизированным, так и по случайным
источникам, причем объектами поиска являются тексты в печатных изданиях и в
цифровом виде, графические изображения, аудиоинформация на 35 языках. Для
отсеивания аудиоинформации используется методика "Oasis", которая распознает
речь и превращает ее в текст. При этом технология позволяет отделять мужские
голоса от женских, а также голоса, принадлежащие разным людям, и записывать
их в виде диалогов. Методика "Oasis" позволяет выделять из аудиопотока только
те голоса или ту конкретную информацию, которая заложена в настройках поиска.
13
Download