Лекция 1.7. Парадигматическая модель текста

advertisement
Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словарятезауруса.
1.5. Пример исследования ЕЯ ресурса.
Лекция 7.
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ
ТЕКСТА
 Парадигматическая модель
ЕЯ описания ПОРМ
 Производные парадигматические
конструктивы
Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 64–73.
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ
ЕЯ ОПИСАНИЯ ПОРМ
ЕЯО ПОРМ
СТО ПОРМ


СИНТАГМАТИЧЕСКАЯ
МОДЕЛЬ СТО ПОРМ



G  СТО
K
STG
Stg G 


I
ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
представление его в виде множества основных
парадигматических конструктивов, или интерпретированных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формально-языкового
теоретико-множественного описания:
G
 {K i
}
PRD
K
PRD
i

Pr d G   { K
STG
,
I }  {Stg G  , I }
СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО
КОНСТРУКТИВА
ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА
Синтагматическая
Парадигматическая
I

PRD
G

K
i
K
формально-языковое описание.
естественно-языковое описание,
формально-языковое описание,
словарно-тезаурусное описание.
PRD 1
i

 
Pr d I   { Stg I  , I }
1
 
{Stg G  , Stg I 1 , Stg I 2
PRD
G
—
PRD 1
—
—

 
, ... ,


Stg I X 1 , I }
{Stg G  , {Stg I x }, I }
x 1
парадигматическая модель
множество синтагматических моделей текста и его
интерпретаций
X
Литература
Ю.Н.Филиппович
Интеграция предмета, образа и субъекта в
концептуальном проектировании
информационных технологий и систем
// Интеллектуальные технологии и системы.
Сборник статей аспирантов, стажеров и студентов.
Вып. 1.
– М.: Изд-во МГТУ им Н.Э.Баумана,1998.
С. 9–33.
Ю.Н. Филиппович
Семиотическая концепция интеграции
информационных технологий
// Sсriрtа linguistiсае аррliсаtае. Проблемы
прикладной лингвистики – 2001. Сб.ст.
/ Отв. ред. А.И. Новиков.
– М.: «Азбуковник», 2001.
С. 319–342.
ПАРАДИГМАТИЧЕСКИЕ
КОНСТРУКТИВЫ
ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс основных и производных
парадигматических конструктивов.
Основные парадигматические конструктивы:
 словарные статьи,
 парадигматические отношения.
Производные парадигматические конструктивы:
 частичные словники
(ограниченные неформальным признаком),
 словоуказатели (предметные, именные, и т.п.),
 конкордансы,
 словари,
 ареалы,
 тезаурусы и др.
ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ)
УКАЗАТЕЛЬ
В предметный (терминологический) указатель могут быть
включены основные термины и понятия ПОРМ, выраженные
словами, словосочетаниями (2-х и 3-х словными). Отдельно могут
быть представлены аббревиатуры.
Предметный
указатель получается путем интерпретации указателя слов,
,
образованного на основе формально-языкового преобразования текста.
Интерпретация состоит в выделении в нем «слов-предметов».
K
PRD  ПУ
Stg G 
У
,

Pr d
ПУ
G 
— указатель слов,
I
 {Stg
ПУ
У
G 
,
ПУ
I },
где:
— выбор слов, обозначающих
предметы реального мира.
ИМЕННОЙ УКАЗАТЕЛЬ
В именной указатель могут быть включены все имена собственные,
в т.ч. и представленные словосочетаниями. Отдельно могут быть
представлены различные их типы:
аббревиатуры, персоналии, организации,топонимы и др.
Именной указатель получается путем интерпретации указателя слов,
образованного на основе формально-языкового преобразования текста.
Интерпретация состоит в выделении в нем «слов-имен».
K
PRD  ИУ
Stg G 
У

Pr d
ИУ
G 
— указатель слов,
 {Stg
I
ИУ
У
G 
,
ИУ
I },
где:
— выбор слов, являющихся
именами.
ГРАММАТИЧЕСКИЙ СЛОВАРЬ
Грамматический словарь ЕЯ описания ПОРМ может включать:
существительные, прилагательные, глаголы, наречия, числительные,
предлоги, междометия, союзы, частицы и местоимения.
Структура словарной статьи грамматического словаря
<ЛЕММА> <МИ> {S} [S]
<СЛОВОФОРМА1> <МИ1> [i1]
<СЛОВОФОРМА2> <МИ2> [i2]
...
<СЛОВОФОРМАk> <МИk> [ik]
ЛЕММА — слово в основной форме; МИ — морфологическая
информация о слове; МИj — подробная грамматическая информация;
s — количество словоформ в тексте; S — общее количество
словоформ в тексте; ij — частота j-ой словоформы.
Интерпретация состоит в лемматизации путем формального
морфологического анализа с последующим разрешением
проблем омонимии субъектом.
Литература
Г.О.Сидоров.
Лемматизация в автоматизированной
системе построения словарей языка
писателей
// Слово Достоевского. Сб. ст.
/ Под ред. Ю.Н.Караулова.
– М.: Инт.Русск. яз. РАН, 1996.
С.266–300.
СЛОВАРЬ СЛОВОСОЧЕТАНИЙ
Структура словарной статьи словаря словосочетаний
<ЛЕММА>
(СЛОВОСОЧЕТАНИЕ1),
(СЛОВОСОЧЕТАНИЕ2),
...
.
(СЛОВОСОЧЕТАНИЕk).
Здесь:
ЛЕММА — слово в основной форме из грамматического
словаря; СЛОВОСОЧЕТАНИЕ — двух-, трехсловное
словосочетание из предметного указателя, являющееся
термином или основным понятием ЕЯ описания ПО.
Интерпретация состоит в выборе
устойчивых словосочетаний.
КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ)
Структура словарной статьи конкорданса (словаря контекстов)
<ЛЕММА/ СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>.
Здесь:
КОНТЕКСТ — ближайшее “окружение” словоформы или
словосочетания, размер которого может быть выбран
произвольно, однако в большинстве случаев его следует
ограничить предложением (количество контекстов для одной
леммы должно быть от трех до пяти, а для словосочетания
достаточно одного – двух);
АДРЕС — указание на источник контекста.
Интерпретация состоит в выборе контекстов,
их величины и количества.
СЛОВАРЬ ОПРЕДЕЛЕНИЙ
(1)
Словарь определений может включать описание основных
понятий ПОРМ, взятых из предметного указателя.
Словарная статья может включать следующие сведения:
•заголовочное слово (понятие из предметного указателя),
•варианты определений (толкований) из других словарей
определений,
•устойчивые словосочетания (из словаря словосочетаний)
•эксцерпции (примеры контекстов из текстов ЕЯ описания ПО)
•указания источников контекстов из конкорданса
•и др.
Интерпретация состоит в определении состава и
структуры словарной статьи
СЛОВАРЬ ОПРЕДЕЛЕНИЙ (2)
СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ.
ИСКУССТВО, с.
1. Умение, знание, искусство. Како не зримъ прилежно
мысленнымъ своимъ окомъ древняго дракона, врага нашего
бодрого, и никогда же спящаго, и множаишими л#ты искуство
злобы имущаго.
Курб. Пис., 387. XVII в.  XVI в.
4 ч<еловека> бомбардировъ, немецкой породы, которые бы
им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и
свид#телствованное искуство.
ДАИ XII, 383. 1695 г.
2. Опыт; способ к узнаванию чего-л., эксперимент. Искусством
бо сие разум#хомъ.
М. Гр. I, 300. XVI—XVII вв.  XVI в.
Т#мъ искусствомъ опознаваемъ.
Травник Любч., 407. XVII в.  1534 г.
СЛОВАРЬ ОПРЕДЕЛЕНИЙ
(3)
Структура словарной статьи Словаря русского языка XI-XVII вв.
ВОКАБУЛА
морф. призн.
ВОКАБУЛА
морф. призн.
Толкование.
I.
Толкование.
II.
Толкование.
А.
Б.
III.
{
{
Эксцерпция.
Эксцерпция.
Ук. источн.
Ук. источн.
Пагинация
Пагинация
Дата
Дата
}
Толкование.
1.
Толкование.
{
Эксцерпция.
Ук. источн.
Пагинация
Дата
}
2.
Толкование.
{
Эксцерпция.
Ук. источн.
Пагинация
Дата
}
Толкование.
{
Эксцерпция.
Ук. источн.
Пагинация
Дата
}
Толкование.
1.
Толкование.
{
Эксцерпция.
Ук. источн.
Пагинация
Дата
}
2.
Толкование.
{
Эксцерпция.
Ук. источн.
Пагинация
Дата
}
}
ТЕЗАУРУС (1)
Парадигматический конструктив тезаурус
может быть представлен как тройка формальных объектов:
{ K
STG
I
K
PRD
R
K
STG
J
}
или
{<синтагма XI ><отношение R ><синтагма XJ >}.
Такое представление парадигматического
конструктива позволяет рассматривать его как
элемент формального языка RX-кодов:
X-термины; R-релатемы
ТЕЗАУРУС (2)
Примерами парадигматических отношений являются
формальные модели оценки «силы связи» между языковыми
элементами — коэффициенты
K
R
AB
.
В частности можно представить конструктив парадигматического
отношения в следующем виде:
PRD
 { K AB ,
R
I }
R
R
, где
AB является
соответствующей интерпретацией R коэффициента.
K
R
I
AB
Парадигматическое отношение является элементом графа
VT {{ K I },{ K R }}
одной из формальных моделей представления знаний, (сетевых,
фреймовых и т.п.).
STG
PRD
ТЕЗАУРУС
(3)
Описание тезауруса в виде простой семантической сети
<ui, uj> – ориентированная
связь от вершины ui к
вершине uj
<ui, uj>
Ui
R(u i, u j)
Uj
L = (U, V), где:
U – множество вершин сети (лемм),
V – множество связей.
U = { u1, u2, ..., uK }, где:
k – число выделенных лемм.
V  U2 , V = { <ui,uj> }
R(ui,uj) – функция, определенная на
множестве U2 – количественная
мера связи между вершинами ui и uj.
Свойства:
R(ui,uj): R(ui,uj) = 0  <ui,uj> V;
если <ui, uj>  <uj, ui>,
то R(ui,uj)  R(uj,ui).
ТЕЗАУРУС
(4)
Задача построения функции R(ui,uj)
на основе корпуса текстов
T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]
Введем характеристики:
|T| – число слов в тексте T,
|Сi(T)| – число слов в i-ом контексте текста T.
При условии, что Сi(T) Cj(T)=, i,j (ij) [1,q], имеем
q
| T |  | Ci (T ) | , где q – гранулярность разбиения, т.е. число
i 1
непересекающихся контекстов, на которые разбивается текст T.
Будем считать, что |Ci(T)|=|Cj(T)|, для  i,j [1,q], тогда
|T| = q|C(T)|, где С(T) некоторый контекст из выбранных.
ТЕЗАУРУС
(5)
Поскольку С(T) тоже является текстом, то для него можно
определить частотную функцию N(w,C(T)), значение которой равно
числу слов w в контексте С(T).
Такая частотная функция вводится на всех контекстах
N(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T)).
Будем рассматривать два слова w1 и w2, принадлежащие тексту T.
Для них можно записать два ряда:
N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T))
N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T))
Обозначим:
N(w1,C(T)) – число слов w1 в некотором контексте из числа
выбранных;
N(w2,C(T)) – число слов w2 в некотором контексте из числа
выбранных;
ТЕЗАУРУС (6)
Определим функцию n(х, у) числа контекстов,
в которых слово w1 имело частоту х, а слово w2 – частоту у.
n(х,у) = n(N(w1,C(T)), N(w2,C(T)))
N(w1,C(T))=1
N(w1,C(T))=2
...
N(w1,C(T))=R
N(w2,C(T))=1
n(1,1)
n(1,2)
n(1,R)
N(w2,C(T))=2
n(2,1)
n(2,2)
n(2,R)
N(w2,C(T))=3
n(3,1)
n(3,2)
n(3,R)
n(R,1)
n(R,2)
n(R,R)
nу
...
N(w2,C(T))=R
nх
ух
R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам,
y x – средние значения по столбцам =
1
nx
R
 yn( x, y)
y 1
ТЕЗАУРУС (7)
Для построения семантической сети требуется построение
корреляционной матрицы для имеющихся в T пар слов <wi, wj>.
В качестве меры связи между словами w1 и w2 могут
использоваться значения коэффициентов корреляции или
корреляционного отношения.
Факторы построении семантической сети :
а) процедуру лемматизации исходного множества слов;
б) размерность корреляционной матрицы RхR, ее избыточность;
в) гранулярность разбиения q;
г) «направленность» связи.
Литература
А.В.Прохоров.
Методы исследования естественноязыкового описания предметной
области «Информатика и
вычислительная техника»
// Интеллектуальные технологии и системы.
Сб. ст. аспирантов, стажеров и студентов.
Вып. 1.
– М.: Изд-во МГТУ им. Н.Э.Баумана, 1998.
АРЕАЛ (1)
Парадигматический конструктив ареал
— часть тезауруса, выделенная по значению селективного
критерия, например коэффициента «силы связи».
Построения парадигматических ареалов — задача кластерного
анализа.
В случае представления тезауруса в виде простой
семантической сети задача сводится к нахождению подграфа с
заданными свойствами вершин (лемм) или дуг (коэффициентов
«силы связи»).
АРЕАЛ (2)
R(u 2 , u 1 )
u1
u2
R(u 1 , u 2 )
R(u 4 , u 2 )
R(u 1 , u 3 )
u4
R(u 3 , u 4 )
R(u 4 , u N )
uN
U = { u1, u2, ..., uN },
R(u N , u 3 )
u, 3
Тезаурус —
неполносвязанный
ориентированный
граф L = (U,V) :
u N -1
V  U2 , V = { <ui,uj> },
R(ui,uj) = k(ui,uj)
u5
АРЕАЛ (3)
Тезаурус в виде простой семантической сети
L = (U,V)

Удаление ребер <ui, uj>, для которых R(ui,uj)<R0 и Vij < V0.

Приведенная семантическая сеть
L(R0,V0)
Семантическим ареалом A в семантической сети L(R0,V0)
будем называть совокупность вершин A = { ui }, для которых
выполняются следующие условия:
Для  ui, uj A, Vij > V0;
Для  ui, uj A верно, что R(ui,uj) > R0
Для  ui A и uj  A верно, что R(ui,uj)  R0
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
1.
2.
3.
4.
5.
6.
Что такое парадигматическая модель текста?
Какую структуру имеет парадигматический конструктив?
Какую структуру имеют парадигматические конструктивы:
предметный и именной указатели, словарь?
Какую структуру имеют парадигматические конструктивы
словарей: грамматического, словосочетаний, текстов,
определений?
Какую структуру имеет парадигматический конструктив
тезаурус?
Какую структуру имеет парадигматический конструктив
ареал?
Download