Семантические расстояния: проблемы и перспективы

advertisement
О.А. Митрофанова
(Санкт-Петербургский государственный университет)
СЕМАНТИЧЕСКИЕ РАССТОЯНИЯ:
ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ
1. Постановка проблемы
1.1. Измерение семантических расстояний, или количественная
оценка семантических связей в системе языка и в тексте, – это исследовательская задача, для решения которой существует необходимый и достаточный теоретический аппарат, однако ее практические решения далеки от
совершенства.
1.2. Измерение семантических расстояний на уровне лексикона и речевых произведений возможно лишь в том случае, если выполняются следующие условия:
– существует семантическое описание тех единиц, теснота связи между
которыми подлежит измерению;
– существует подробное описание разнообразных семантических отношений, связывающих языковые единицы и их комплексы;
– используемый математический аппарат (теория множеств, топология,
математическая статистика и пр.) адаптирован с учетом качественной природы измеряемых отношений.
1.3. Основные вопросы, связанные с измерением семантических расстояний, сводятся к следующим:
– можно ли говорить об измеримости семантических связей в системе
языка или в тексте;
– каков объект измерения: связи в лексиконе или в тексте, синтагматические или парадигматические связи, связи внутри текста или между текстами и пр.;
– какова конечная цель измерения и для каких областей знаний данные
измерения представляют интерес: количественное описание качественных
отношений, разработка и применение лексических баз данных, информационный поиск, реферирование и пр.
2. Направления исследования
2.1. В существующих исследованиях по измерению семантических
расстояний задействованы два подхода: парадигматический и синтагматический.
2.1.1. Парадигматический подход предполагает измерение семантических расстояний в лексиконе. Исходный тезис таков: семантическую
близость следует определять, опираясь на данные о значении, хранящиеся
«внутри» языкового знака, а не за его пределами.
Определив лексикон языка как сложным образом упорядоченное
множество классов слов, связанных парадигматическими отношениями
2
(семантических полей или группировок иного толка, например, лексикосемантических групп, синонимических рядов), и описав значения единиц
данных классов с помощью набора неких семантических признаков, можно применить к описанию языкового материала несложный математический аппарат. Класс лексических единиц при этом интерпретируется как nмерное метрическое пространство, в котором каждое из значений лексем
можно задать как точку или вектор. Для пары лексем расстояние определяется через число совпадающих или различающихся семантических признаков в их значениях. С данной целью могут быть использованы мера Хэмминга, мера Евклида, разнообразные коэффициенты ассоциации и пр.
Каждому из семантических признаков, описывающих значения лексических единиц класса, может быть приписан вес, отражающий важность той
или иной семы в иерархии. Не менее эффективно представление класса
лексем в виде матрицы (в строках такой матрицы содержатся признаковые
описания значений слов, в столбцах – возможные реализации семантических признаков), в виде таблицы расстояний или сети (в узлах сети располагаются лексемы, связывающие их дуги могут иметь метку типа семантического расстояния, т.е. содержать указание на какое-либо из парадигматических отношений: синонимия, антонимия, конверсия, гипонимия, меронимия и т.д., а также количественного значения семантического расстояния). При всем изяществе и простоте данного решения все же остается
неясным:
– какие меры лучше приспособлены для той или иной цели: мера, учитывающая расхождения между сравниваемыми объектами по всевозможным
признакам (мера Хэмминга, мера Евклида и пр.) или мера, пренебрегающая периферийными признакам сравниваемых объектов и учитывающая
расхождение по основному признаку, особенно если у него много значений (мера Чебышева); мера, учитывающая расхождения между сравниваемыми объектами по всевозможным признакам, но значение которой во
многом определяется значением доминирующего признака (мера Евклида)
или мера, значение которой в одинаковой степени определяется всеми
признаками, рассматриваемыми как равноправные (мера Хэмминга) и пр.
– по каким признакам необходимо сравнивать те языковые единицы, связи между которыми подлежат измерению: выделяя денотативные признаки
означаемого для знака, можно определять близость слов на основе сравнения соответствующих им понятий; выделяя сигнификативные признаки
означаемого для знака, можно определять близость слов на основе сравнения их внутриязыкового содержания;
– как формировать признаковое пространство: какими должны быть признаки – бинарными, тернарными, n-арными, каким должно быть их количество, должно ли признаковое пространство быть структурировано по
иерархическому принципу, как определять веса признаков, насколько точными должны быть измерения и пр.
3
2.1.2. Синтагматический подход предполагает измерение семантических расстояний в тексте и между текстами. Исходный тезис таков: обращение к корпусу позволяет использовать данные о значении слова, хранящиеся «вне» языкового знака, и определять содержательную близость лексических единиц, сопоставляя их синтагматические свойства. Данный подход вполне согласуется с теорией значения как употребления, с идеей неаддитивного сложения смыслов (речь идет о реализации в тексте отношения семантического согласования, т.е. о дублировании в контексте той семантической информации, которая содержится в слове). Синтагматический
подход лежит в основе процедуры латентного семантического анализа
(ЛСА). ЛСА – это статистический метод извлечения и анализа текстовой
информации, не требующий предварительного создания лексикографических описаний, семантических сетей, обращения к базам знаний, концептуальным иерархиям и пр. В основе метода ЛСА лежит гипотеза о том, что
между отдельными словами и обобщенным контекстом (предложениями,
абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных
ограничений. ЛСА активно используется для формирования групп близких
по значению слов на основе статистического анализа их сочетаемости с
элементами контекста1, однако отношение содержательной соотнесенности понимается при этом очень широко, и сейчас еще рано говорить об
ЛСА как о точном инструменте семантического исследования.
2.2. Разработанность проблемы в отечественной науке и за рубежом
(см. избранную литературу) сильно разнится, ее нельзя признать достаточной, но по разным причинам. Отечественные работы об измерении семантических расстояний предоставляют методологическую базу для подобных
исследований и обосновывают предлагаемые решения с точки зрения
лингвистической теории. Зарубежные работы об измерении семантических
расстояний сфокусированы на подготовке формального аппарата для осуществления исследований и обосновывают предлагаемые подходы с точки
зрения практических решений и возможных областей применения полученных результатов.
3. Перспективы
3.1. Нельзя не признать, что вопросов о семантических расстояниях
значительно больше, чем ответов, – и это одна из причин, по которым данная проблема не оставляет исследователей равнодушными.
3.2. Как все-таки лучше измерять семантические расстояния? При
парадигматическом подходе необходимо аргументированно задать метриС результатами исследований в области ЛСА можно ознакомиться в ряде электронных источников (см. http://lsi.research.telcordia.com/lsi/LSIpapers.html); практической
иллюстрацией использования данного метода является ресурс Google-Sets (см.
http://labs.google.com/sets).
1
4
ческое пространство и сформировать множество признаков, на основе которых будут производиться семантические измерения, также необходимо
выбрать оптимальную меру. При синтагматическом подходе необходимо
обращаться к представительному корпусу текстов, снабженному в том
числе и семантической исследовательской информацией, и учитывать не
только вероятность/частоту встречаемости сравниваемых единиц в том или
ином контексте/конструкции, но и частоту самой конструкции.
3.3. Что должно быть еще сделано? Необходимо признать продуктивность совмещения парадигматического и синтагматического подходов
и привлечь внимание исследователей к корпусам текстов как к богатейшему источнику информации для измерения семантических расстояний.
ИЗБРАННАЯ ЛИТЕРАТУРА
1. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М., 1969.
2. Апресян Ю.Д. В какой мере можно формализовать понятие синонимии? // Облик слова. М., 1997.
3. Фитиалов С.Я. Синонимия и осмысленность текстов // Синонимия в
языке и речи. Новосибирск, 1970.
4. Макагонов П., Александров М., Гельбух А. Формулы проверки подобия
слов с обучением на примерах: построение и применение // Труды международной конференции «Корпусная лингвистика – 2004». СПб., 2004.
5. Новиков А.И., Ярославцева Е.И. Семантические расстояния в языке и в
тексте. М., 1990.
6. Пиотровский Р.Г. Текст, машина, человек. Л., 1975. Гл. 7. Измерение
смысловой информации.
7. Скороходько Э.Ф. Оценка и сопоставление токовых словарей // Научнотехническая информация. Сер. 2. 2000. № 5.
8. Budanitsky A., Hirst G. Semantic Distance in WordNet: An Experimental,
Application-Oriented Evaluation of Five Measures // Workshop on WordNet
and Other Lexical Resources. Pittsburgh, 2001.
9. Gamallo P., Gasperin C., Augustini A., Lopes G.P. Syntactic-Based Methods for
Measuring Word Similarity // V. Matoušek, P. Mautner, R. Mouček, K. Taušer
(eds.). Text, Speech and Dialogue. LNAI 2166; Springer-Verlag, 2001.
10.Pantel P., Lin D. Document Clustering with Committees // SIGIR–02. Tampere, 2002.
11.Rychly P., Smrž P. Manatee, Bonito and Word Sketches for Czech // Труды
международной конференции «Корпусная лингвистика – 2004». СПб.,
2004.
12.Smrž P., Rychlý P. Finding Semantically Related Words in Large Corpora //
V. Matoušek, P. Mautner, R. Mouček, K.Taušer (eds.). Text, Speech and Dialogue. LNAI 2166; Springer-Verlag, 2001.
13.Young A.M. The Geometry of Meaning. San Francisco, 1976.
Download