Большакова Е.И., Васильева Н.Э., Морозов С.С. Лексико

advertisement
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ
ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА
НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
Е. И. Большакова,
Н. Э. Васильева, С.С. Морозов
МГУ им. М.В. Ломоносова
Факультет ВМиК
bolsh@cs.msu.su
Научно-техническая проза:
функции и стилевые особенности
Функции оформления,
сохранения и передачи
научной информации:
отбор
лингвистических
средств
Средства разных уровней:
лексика и фразеология;
дискурс и композиция;
морфология и синтаксис.
Лексико-фразеологические
особенности
 Специальная терминология научной области
 Общенаучные слова и словосочетания
(по этой причине, суммируя вышесказанное,
далее мы докажем и т.п. )
 Стандартизованные конструкции - клише
общенаучной речи (обозначить направления
дальнейших исследований, всесторонний анализ
проблемы показывает и т.п.)
Системный характер;
Взаимосвязь с дискурсивными особенностями
Дискурсивные и композиционные
особенности
Научный дискурс (речь) – рассуждение,
отражающее последовательность операций
научного мышления (выдвижение гипотезы,
введение термина, обобщение и т.п.)
Дискурсивные маркеры
(общенаучные слова и выражения)
- помечают эти операции (предположим, что;
далее кратко изложен … и др.),
- упорядочивают и связывают их (во-первых,
наконец; благодаря тому, что и др.),
Дискурсивные операции
и маркеры
Исследование текстов (научные статьи, аннотации) из
нескольких областей дало список операций:
•
•
•
•
•
•
•
Конкретизация и уточнение (в дополнение к);
Актуализация темы (перейдем к);
Выделение информации (особо подчеркнем,);
Предположения и допущения (предположим, что);
Иллюстрация и приведение примеров (к примеру);
Обобщение и резюмирование (в общем);
Сравнение и противопоставление (в отличие от);
• И др.
Словарные средства анализа
научного текста
 Словарь общенаучных слов и словосочетаний:
функционально-семантическая классификация
разнородных единиц (классы квазисинонимов).
 Лексико-синтаксические шаблоны - отображают
характерные конструкции научных текстов
Гипотеза: распознавание дискурсивной структуры
текста и примененных в нем дискурсивных
операций (т.е. поверхностное понимание) –
на основе частичного синтаксического анализа и
лексикона общенаучных слов и выражений
Лексико-синтаксические
шаблоны
содержат
конкретные словоформы общенаучных слов
свободные места (слоты), заполняемые
согласованными именными группами
Пример шаблона определения нового термина
NGACC [«мы»] «будем называть» TINS
NGACC – определяющее выражение
TINS – определяемый термин
Методика создания шаблонов
Основная проблема – определение контекстов,
сигнализирующих дискурсивный характер слов.
Проведено исследование контекстов конструкций,
определяющих новые термины.
«По результатам генерации форм, слова были
разбиты на группы, названные профилями»,
Но - «...устойчивого выражения, названного в
заголовке…».
Фразы – Лексемы – Контексты –
Синтаксические конструкции – Шаблон
Составные элементы
шаблонов
• Литералы, т.е. конкретные лексемы из словаря
(«определим», «будем называть» и др.)
• Символьные обозначения слов определенной
части речи (например, V – глагол)
• Обозначения определенных грамматических
конструкций (например, Ng – именная группа)
• Условия, уточняющие грамматические
характеристики рассмотренных элементов
(например: <Ng.number=V.number> )
Основные шаги процедуры
анализа текста
1) Выделение слов и словосочетаний
общенаучной лексики.
2) Наложение лексико-синтаксических
шаблонов, извлечение именных групп
(например, определений терминов)
Без полного синтаксического разбора;
проверка согласования и управления слов
Заключение
Разрабатываемые средства нужны для:
извлечения знаний из научных текстов
реферирования и аннотирования текстов
литературно-научного редактирования
структуризации текстов для быстрого
прочтения и внутритекстового поиска.
Спасибо за внимание!
Download