Автореферат диссертации Чумариной Г.Р.

advertisement
На правах рукописи
Чумарина Гузель Раисовна
ТЕОРИЯ И ПРАКТИКА
СОСТАВЛЕНИЯ ЭЛЕКТРОННЫХ СЛОВАРЕЙ
(на материале татарского языка)
10.02.02 – языки народов Российской Федерации (татарский язык)
Автореферат
диссертации на соискание ученой степени
кандидата филологических наук
Казань- 2010
2
Работа выполнена в отделе лексикографии Института языка,
литературы и искусства им. Г. Ибрагимова Академии наук Республики
Татарстан
Научный руководитель:
кандидат филологических наук
Тагирова Фяридя Инсановна
Официальные оппоненты: доктор филологических наук, профессор
Рамазанова Дария Байрамовна
(г. Казань)
кандидат филологических наук
Галиуллина Гульнара Вагизовна
(г. Казань)
Ведущее учреждение:
ГУ «Чувашский государственный
институт гуманитарных наук»
Защита диссертации состоится «21» октября 2010 года в 15:00
часов на заседании диссертационого совета Д 022.001.01 по защите
диссертаций на соискание ученой степени доктора филологических наук
при Институте языка, литературы и искусства им. Г. Ибрагимова
Академии наук Республики Татарстан по адресу: 420011, г. Казань, ул.
Лобачевского, 2/31.
С диссертацией можно ознакомиться в Центральной научной
библиотеке Казанского научного центра РАН (г. Казань, ул. Лобачевского,
2/31).
Электронная версия автореферата размещена на официальном сайте
ИЯЛИ им. Г. Ибрагимова АН РТ. «21» сентября 2010г. (http://
www.iyali.antat.ru/dissertacii.html). Режим доступа: свободный.
Автореферат разослан «21» сентября 2010 г.
Учёный секретарь
диссертационного совета
доктор филологических наук доцент
А.А. Тимерханов
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность данной диссертационной работы обусловлена тем,
что в настоящее время в языкознании отсутствует детальное и
комплексное исследование электронных словарей татарского языка. Это
ставит на повестку дня проблему систематизации существующего
мирового опыта в области теории и практики электронной лингвографии,
а также анализа состояния татарской электронной лексикографии с целью
формирования
важнейших
принципов
и
разработки
конкретных
перспективных направлений развития.
Одним из актуальных направлений развития прикладной науки
представляется разработка лексикографического анализа текстовой базы
данных и интегрированного электронного словаря, осуществляемая на
материале татарского языка.
Достижения
расширение
научно-технического
человеческих
деятельности.
Резервом
производства
является
деятельности,
прогресса
возможностей
повышения
автоматизация
заключающихся
в
направлены
различных
эффективности
сферах
общественного
интеллектуальных
главным
на
образом
в
процессов
создании,
распространении и использовании разнообразной информации. Это,
несомненно, относится и к гуманитарной науке. Изучение опыта
автоматизации процедур обработки информации показывает, что в
настоящее
время
необходимо
создание
специальных
технологий,
позволяющих оптимальным образом использовать предоставляемые
компьютером возможности в области татарской лексикографии и
лексикологии. Современный уровень информатизации предоставляет
важное преимущество – гипертекстуальный доступ. Словарь может быть
связан с другими информатизированными словарями, с базами данных,
которые послужили основой для его составления. Структура электронного
словаря должна удовлетворять многим условиям, так как этот тип словаря
4
предназначен только для пользователя компьютера. Лексическая база
данных, которую он включает в себя, должна быть абсолютно
формализованной. Поэтому эффективное решение проблемы осуществимо
на стыке двух научных дисциплин: лексикографии, имеющей большие
традиции, и информативной лингвистики, которая является относительно
молодой областью науки.
Объектом диссертационного исследования являются электронные и
бумажные словари татарского языка как лексикографическая система и
справочный материал для пользователя.
Предмет исследования – особенности разработки электронных и
печатных словарей, в частности словарей татарского языка.
Цель исследования – комплексное изучение существующего опыта
составления
электронных
словарей
в
свете
развития
татарской
электронной лексикографии и разработка модели лексикографического
анализа текстовой базы данных и интегрированного в него электронного
словаря татарского языка.
Для достижения поставленной цели необходимо решить следующие
задачи теоретического и практического характера:
- провести сравнительно-сопоставительный анализ словарей и
выявить преимущества и недостатки использования бумажных и
электронных словарей, перспективы их существования;
-
рассмотреть
историю
создания
словарей
и
основные
характеристики традиционных печатных и электронных словарей;
- исследовать современное состояние татарской электронной
лексикографии, определить ее особенности;
- сформулировать принципы создания татарских электронных
словарей, их специфику;
-
собрать
данные
стратегии
электронными и бумажными словарями;
поиска
и
консультирования
5
- выработать принципы построения лексикографического анализа
текстовой базы данных и функциональной модели интегрированного
словаря татарского языка и системно-структурного подхода при описании
модели анализа текстовой базы данных и интегрированного татарского
словаря;
- разработать структуру модели электронного интегрированного
татарского словаря и принципы организации данных в моделируемом
словаре;
-
создать
электронную
оболочку
лексикографического
анализа
текстовой базы данных с применением интегрированного электронного
татарского словаря.
Цель
и
лингвистических
задачи
потребовали
методов
использования
исследования:
следующих
типологического,
функционального и параметрического анализа, структурного анализа. Для
характеристики изучаемых объектов применены описательный метод, метод
сопоставительного анализа существующих электронных и бумажных
словарей и метод лингвистического конструирования интегрированной
модели словаря.
Материалом диссертационного исследования послужили электронные
и бумажные словари различных типов татарского, русского, а так же ряда
иностранных языков. Основным источником набора словарной базы
послужили «Татарско-русский словарь», 1966, (Татарча-русча сүзлек)
объемом 38000 слов, «Татарско-русский словарь», 1995, (Татарча-русча
сүзлек) объемом 25000 слов, «Толковый словарь татарского языка» в трех
томах (1977-1981) (Татар теленең аңлатмалы сүзлеге) объемом 46890 слов и
следующие электронные словари: Татарско-русский словарь новых слов и
новых значений, Татарско-русский он-лайн словарь, Он-лайн словарь
татарского языка tatsoft, Толковый словарь татарского языка Аңлатмалы,
Толковый словарь турецкого языка Türkçe sözlük ve Yazım Kılavuzu и
Словарь мари, мордовского и удмуртского языков, Lingvo Татарско-русский,
6
Русско-татарский словарь, βerençe on-line tatar-rus-tatar süzlege, Татарскорусский большой словарь п/р Сабиров Р.А, Комплексный Автоматический
Универсальный Мультилексемный Словарь КАМУС, Казахско-русский,
Русско-казахский словарь.
Научная новизна диссертационного исследования заключается в том,
что впервые электронные словари татарского языка подвергаются анализу и
рассмотрению в функциональном аспекте. Создана лингвистическая модель
татарской текстовой базы данных с выполнением лексикографического
анализа на основе интегрированного электронного татарского словаря в
текстовую
базу
данных
с
возможностью
его
пополнения;
создана
электронная оболочка для лексикографического анализа текстовой базы
данных и интегрированного электронного словаря, применимая для создания
подобных словарей в других языках.
Теоретическая значимость проведенного исследования состоит в
разработке концепции лексикографического анализа электронной текстовой
базы данных на основе электронного интегрированного татарского словаря,
что является определенным вкладом в развитие прикладной татарской
лексикографии. Исследование позволяет расширить арсенал известных
средств моделирования электронных словарей в татарской лингвистике. В
работе представлена целостная картина современного состояния мировой и
татарской
электронной
лексикографии
и
намечены
перспективные
направления ее развития. Основные положения и выводы комплексного
анализа
способствуют
дальнейшему
углублению
и
расширению
исследовательской базы в области татарской лексикологии и лексикографии.
Практическая
значимость
диссертационного
исследования
заключается в том, что реализованная модель анализа татарской текстовой
базы данных и функциональная модель интегрированного татарского
электронного словаря является основой для создания татарских электронных
7
интегрированных словарей, и предназначена, в первую очередь, для
лексикографов-практиков. Словарь может быть использован студентами,
школьниками и широким кругом пользователей и как учебный материал.
Теоретические положения могут быть использованы в преподавании курса
лексикографии, а также при обучении татарскому языку.
Методологической основой проведенного исследования является
теория общей и двуязычной лексикографии. Наиболее значимым в
предпринятом исследовании представляется анализ, отраженный в работах
В.М.Андрющенко, А.Н.Баранова, Л.Н.Беляевой, В.П.Беркова, В.Г.Гака,
А.С.Герда,
П.Н.Денисова,
Н.Н.Леонтьевой,
В.В.Дубчинского,
Ю.Н.Марчука,
Ю.Н.Караулова,
В.В.Морковкина,
С.В.Никитиной,
А.А.Поликарпова, В.Д.Табанаковой, З.М.Шаляпиной, Л.В.Щербы, и др.
Среди исследований, посвященных вопросам татарской лингвистики и
лексикографии, можно отметить работы: М.М.Аюпова, Р.Г.Бухараева,
К.Р.Галиуллина,
Г.В.Галиуллиной,
Ф.С.Сафиуллиной,
Д.Ш.Сулейманова
А.И.Еникеева,
и
др.
В
ходе
И.И.Сабитовой,
работы
были
использованы материалы различных исследований на английском и
французском языках, относящихся к проблематике данной работы. В
зарубежной лексикографии широко представлены труды, посвященные
проблемам электронной лексикографии, словарям на электронных носителях,
а также теории и практике создания различного рода автоматизированных
справочных, словарных, переводческих систем. Среди этих работ можно
выделить: R.Blain, B.Bougaraev, P.Bouillon, E.J.Briscoe, R.J.Byrd, N.Calzolari,
M.Chodorow, K.W.Church, A.Clas, L.Clause, J.Clear, J.Dancette, Ch.Dupriez,
D.Dutoit, J-L.Ferre, W.N.Francis, F.Gruhier, R.K.K.Hartmann, G.Hatherall,
P.Hanks, T.Heth, M.Kay, P.Longuet, W.Meijs, J-F.Mostert, E.Picchi, J.A.H.Potet,
J.Pruvost, B.Quemada, Th.Selva, D.Walker, H.E.Wiegand, R.Wooldridge,
A.Zampolli, L.Zgusta и др.
На защиту выносятся следующие положения:
8
1. Результаты анализа электронных словарей татарского языка
свидетельствуют о функциональной ограниченности большинства из них по
сравнению с электронными словарями европейских языков. Научная
концепция развития электронных словарей татарского языка находится на
стадии формирования.
2.
Изучение
и
обобщение
опыта
существующей
мировой
и
отечественной лексикографии и анализ бумажных и электронных словарей
позволяют создать эффективную модель лексикографического анализа базы
данных и интегрированного электронного словаря татарского языка.
3.
Концепция
интегрированного
словаря
татарского
языка
основывается на принципе свободы лексикографических параметров и
функциональной вариативности словаря, возможности его корректировки,
дополнения, выбора и совмещения разных словарных параметров и функций.
Словарь является универсальным, полифункциональным, реализующим
систематизирующую, нормативную, справочную, учебную функции.
4. Отражение точной семантики леммы в электронном словаре
татарского языка требует контекстуального описания средствами именно
татарского языка. Для этих целей словарь должен быть интегрирован в
модель лексикографического анализа текстовой базы данных на татарском
языке и представлять собой универсальный инструмент, обеспечивающий
возможность работы с большим корпусом текстов.
Апробация
работы.
Основные
положения
диссертации
были
представлены на следующих конференциях: Всероссийская тюркологическая
конференция «Урал-Алтай: через века в будущее» (Уфа, 2008, 2010), Научнопрактическая конференция молодых ученых и аспирантов Института языка,
литературы и искусств им. Г.Ибрагимова (Казань, 2008). Результаты
исследования обсуждались на заседаниях отдела лексикографии Института
языка, литературы и искусств им. Г. Ибрагимова. Основные положения и
9
выводы исследования отражены в 6 публикациях, в том числе в издании из
списка рекомендованных ВАК.
Структура и объем работы определяются ее исследовательскими
задачами и целью, отражают основные этапы и логику исследования.
Диссертация
состоит
из
введения,
трех
глав,
заключения,
библиографического списка и приложений. Работа объемом в 199 страниц
включает 4 приложения и список литературы из 222 наименований.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во
введении
обосновывается
выбор
темы,
ее
актуальность,
определяются объект и предмет исследования, формулируются цель и задачи
работы, положения, выносимые на защиту; отмечаются новизна полученных
результатов,
теоретическая
и
практическая
значимость
диссертации,
характеризуется методологическая база и методы исследования, приводятся
данные
об
апробации
результатов
работы,
описывается
структура
диссертации.
В первой главе «Информационная база электронных словарей и
тенденции
развития
современной
компьютерной
лексикографии»
представлена эволюция методов разработки и форм электронных словарей,
типологическая и частичная демонстрация использования информационных
технологий в лексикографии, состоящая из основных применений и
примеров словарного продукта на компьютерной основе в области
татарского языка, и развитие лексикографии в эпоху WWW и Интернет, как
глобальной информационной среды, представляющей собой уникальный
источник лингвистической информации.
Изучение опыта автоматизации процедур обработки информации
показывает, что для создания активных лексикографических систем
недостаточно
простой
замены
традиционных
словарей
на
автоматизированные. Необходима разработка специальных технологий,
10
позволяющих
оптимальным
образом
использовать
предоставляемые
компьютером возможности применительно к каждому языку, в том числе к
татарскому.
Гипертекстовая технология позволяет повысить качество электронного
словаря, ускорить работу пользователей, оптимизировать поиск нужной
информации.
Существуют разные типы словарей. Это разнообразие объясняется,
прежде
всего,
сложностью
и
многоаспектностью
самого
объекта
лексикографического описания, т.е. языка. Составление электронных
словарей является сложным процессом. Кроме лингвистических положений
о лемме, его значениях и употреблении, грамматических и фонетических
характеристик,
необходимо
знать
технику
составления
словарей,
представлять состав словаря, который состоит из словника, т.е. подбора со
взаимными ссылками и отсылками; филиации, т.е. расчлененной подачи
значений той или иной вокабулы; стилистических, грамматических и
фонетических ремарок или помет к словам и их значениям; иллюстративных
примеров; идиоматических и фразеологических сочетаний к данному слову и
перевода (в разноязычных словарях) или толкования (в одноязычных
словарях).
В настоящее время выпущено довольно много электронных словарей, в
российской лексикографии особого внимания заслуживают «Lingvo»
компании Abbyy, «МультиЛекс», разработанный фирмой МедиаЛингва., в
татарской лексикографии КАМУС, Аңлатмалы сүзлек.
Для массовых программных продуктов, каковыми являются электронные
словари, характерны частая смена версий и наличие постоянной обратной
связи с тысячами пользователями. Поэтому компьютерная лексикография это неизбежно актуальная лексикография.
Во второй главе «Сравнительная характеристика электронных и
бумажных словарей в функциональном аспекте» исследуется роль
11
электронного
словаря
в
лексикографической,
лингвистической
и
переводческой практике, характеристики и перспективы для будущих
поколений
словарей
на
электронных
носителях,
представлен
и
охарактеризован ряд электронных словарей татарского языка. Основные из
существующих электронных словарей татарского языка проанализированы с
точки
зрения
их
использования,
презентации,
содержания,
исследовательских возможностей, технических функций и технического
окружения, раскрыты проблемы лексикографии в татарском языкознании с
целью выработки собственной концепции моделируемого словаря.
В этой главе также представлены тест и анкета, которые имеют целью
сбор данных по стратегии поиска и консультирования пользователями
электронного словаря и печатного словаря, а также оценке пользователями
двух типов словарей; исследуются четыре разные методики (анкетирование,
контрольный опыт, прямое наблюдение, устный протокол), используемые
для сбора этих данных, обосновывается выбор методик. Далее описываются
этапы, которые были пройдены при разработке теста и анкеты. В итоге
представлены полученные результаты и проанализированы результаты
тестирования.
До недавнего времени лексикография считалась одной из наиболее
консервативных
областей
лингвистики.
Это
объяснялось
тем,
что
традиционный бумажный словарь требовал многолетнего труда по сбору
языкового материала путем эксцерпирования письменных источников,
использования картотек. Современная лексикография становиться более
прогрессивной и перспективной в плане создания активных электронных
словарей на базе информационных технологий, что позволяет гарантировано
в сжатом объеме собирать, хранить, накапливать и перерабатывать
лексикографическую информацию.
12
Различные
методы
анкетирования,
которые
применены
для
определения преимуществ и недостатков бумажных и электронных словарей,
явились объективными параметрами для анализа словарей.
Традиционные словари значительно отстают от языковой реальности.
Электронные словари, в свою очередь, можно пополнять практически
ежедневно. Электронный словарь принципиально может обойти ключевое
противоречие книжной лексикографии: чем больше информации предлагает
словарь, тем объемнее и прогрессивнее научный аппарат. Современные
электронные словари не только существенно превосходят по объему
книжные, но и находят искомое слово или словосочетание за несколько
секунд. Для пользователей преимуществами компьютерного словаря
являются возможность входа через любую характеристику, возможность
манипулирования
большими
объемами
информации,
возможность
организовать информацию в виде гипертекста.
Идея
создания
татарских
компьютерных
словарей
послужила
предметом многочисленных дискуссий, результатом которых стало создание
таких электронных словарей on-line как βerenche on-line tatarcha-ruscha
su'zlek
(http://www.suzlek.ru/),
Татарско-русский
он-лайн
словарь
(www.tatar.com.ru/tat-rus.php), Он-лайн словарь татарского языка tatsoft
(http://tatsoft.biz/vocabulary/translate) Татарско-русский словарь новых слов и
новых значений (www.chelny.su/down/file_75/); словари на электронных
носителях:
Комплексный
Автоматический
Универсальный
Мультилексемный Словарь КАМУС, Татар теленең аңлатмалы сүзлеге.Jahat Lab., KAI, 2004, ABBYY Lingvo 12. Многоязычная версия.
Электронный словарь, 2009 – татарский язык. Из представленных
электронных словарей только Lingvo и КАМУС отвечает современным
требованиям, которые предъявляются к электронным словарям, остальные
являются упрощенной версией бумажных словарей, часто представляющих
из себя список слов с переводом.
13
В третьей главе «Модель лексикографического анализа текстовой
базы данных и интегрированного электронного словаря татарского
языка» представлена модель лексикографического анализа текстовой базы
данных и интегрированного электронного словаря татарского языка,
выполненная с учетом результатов анализа опыта создания электронных
словарей. Основная цель данного лексикографического проекта – создание
модели анализа текстовой базы данных активного типа на основе интеграции
словаря татарского языка. На наш взгляд, информационная модель является
продуктивным методом исследования лексической системы вообще и
татарской, в частности. Компьютерная лексикография представляет собой
актуальное направление современной прикладной лингвистики. Разработка и
использование компьютерных словарей, даже локальных по содержанию,
внедренных в электронный анализ тексов, позволяет исследовать лексику как
системно-структурное
образование.
технологии
проблему
снимают
Современные
объема
словаря,
информационнные
быстрого
поиска
необходимой информации.
Словарь является полифункиональным, так как предназначен для
широкого круга пользователей. В нем реализуются справочная, переводная,
систематизирующая, нормативная и учебная функции. Интегрированный
словарь принадлежит к открытому типу, что предполагает возможность
постоянного
пополнения
и
доработки,
обновления
информации,
корректировки. Это является большим преимуществом для современной
лексикографии.
Интегрированный
электронный
татарский
словарь
значительно упрощает поиск необходимых слов. Использование гиперссылок
и
макросов
способствует
систематизации
текстовой
информации.
Информация, отображенная при поиске, представляется в удобном для ее
дальнейшей обработки виде.
Словарь предназначен для специалистов, чья профессиональная
деятельность связана с практической лексикографией, а также для людей,
изучающих татарский язык, имеющих навыки самостоятельной работы,
14
поиска и обработки лексической информации. Представленный в данном
исследовании подход к созданию модели лексикографического анализа
текстовой базы данных и интегрированного электронного словаря может
найти применение при создании аналогичных и более совершенных
лексикологических программ как по татарскому языку, так и по другим
языкам.
Результатом исследования является разработка электронной модели
анализа текстовой базы данных и интегрированного словаря татарского
языка. Содержательная структура словаря может быть описана синтетически,
то есть в развернутом виде, как описание словарных статей, и аналитически,
как описание отдельно взятой леммы. Модель состоит из корпусов текстов,
которые можно добавлять и изменять, из интегрированного словаря
татарского языка и модуля поиска лексических единиц в корпусном тексте. В
словарных статьях мы использовали входы наиболее репрезентативные, то
есть слова, которые появляются в текстах наиболее часто.
Рис.1
15
Возможность автоматической обработки и поиска слова в корпусе
текста (рис.1) является большим преимуществом электронного словаря по
отношению к традиционному. Эта эффективная функция позволяет быстро
обработать слово, что очень цениться пользователями.
Рис.2
Пользователь словаря может редактировать словарь и словарную
статью, добавляя или удаляя из словаря любое слово (рис.2). Также словарь
предоставляет возможность редактировать поля «Корень», «Часть речи»,
«Пометы» и «Перевод». Пользователь может менять или создавать авторский
комментарий к словарной статье или словарю. В поле «Слово» лексикограф
указывает максимально возможные формы слова, которые система должна
будет выбрать для анализа из текста. Модуль анализа базы данных
просматривает всю парадигму слова. При этом слово для поиска можно
набирать как в нужной форме (если есть необходимость поиска слова только
в одной форме), так и в виде корня (рис.3). В последнем случае модель
найдет в тексте все слова, производные от этого корня.
16
Рис.3
Каждой словарной статье можно приписать ряд символьных признаков,
которые могут использоваться при поиске. В этом случае система позволит
вести библиотеку типовых наборов признаков, что существенно поможет при
создании словаря. Таким образом, интегрированный в систему анализа
текстов
словарный
редактор
данных
является
мощным
средством
модификации и пополнения словаря. Интегрированный словарь имеет
гибкую функцию управления. Пользователь может исключить словарь или
добавить новый. Контекстный и внеконтекстный анализ может относиться ко
всем элементам как глобально, так и выборочно.
Разработанная технология действительно способствует оптимальному
использованию предоставляемых компьютером возможностей.
17
Обратимся к примеру. Ограничив поиск цитат из текста «Кәрим
Тинчурин» словом килә, введенным в строке поиска, получим в правом поле
все предложения со словом килә. В нашем тексте система выделила два
предложения с этим словом. В оригинальном тексте «Кәрим Тинчурин» в
левом поле все предложения с анализируемым словом будут выделены
красным
цветом.
Пользователям
эта
функция
дает
определенные
преимущества, так как позволяет проследить, из какой части текста были
извлечены предложения для анализа и в каком контексте они употреблены
(рис.4).
Рис.4
Представленная
модель
лексикографической
базы
данных
и
интегрированного электронного словаря татарского языка ориентирована на
изучающих
контексто-направленную
лексику
из
крупных
текстовых
объектов. Она удобна для разработки и пополнения интегрированного
электронного словаря, позволяющего отметить тонкие оттенки контекстного
слова, которые сложно выявить при работе со словарями общего
18
пользования, не поддерживаемыми текстовой базой данных. Данная модель
не
ограничена
объемом
текстовых
объектов
и
интегрированного
электронного словаря, легка в хранении, удобна в доступе к информации.
В Заключении представлены выводы, результаты, достигнутые в ходе
работы. Достижения в области компьютерных технологий обеспечивают ряд
инструментов, которые могут помочь в исследовании текстов очень
большого объема. Но использование языковых текстов предполагает
включение
в
представляющей
электронный
корпус
кодифицированной
экстралингвистический
и
информации,
внутриязыковой
тексты,
связанные друг с другом.
1) Проанализированные нами электронные словари языка обладают, в
основном, одинаковыми базовыми составляющими. Однако некоторые из
них отличаются своей презентацией (Lingvo, Аңлатмалы, КАМУС, Казахскорусский, Русско-казахский словарь), своими поисковыми возможностями
(Lingvo, Türkçe sözlük ve Yazım Kılavuzu, КАМУС) и техническими
характеристиками (Lingvo, Türkçe sözlük ve Yazım Kılavuzu).
2)
Основным
различием
между
бумажными
словарями
и
электронными словарями является поддержка, на которой представлена
информация. Это различие влечет за собой многие другие на уровне
использования,
презентации,
содержания,
возможностей
поиска
и
технических функций.
3) Электронные словари лучше подходят для поиска простой лексемы
во входе и для поиска составного выражения из нескольких смыслонесущих
слов. Что касается бумажных словарей, они облегчают задачу пользователя,
если тот должен исследовать один за другим более подробные дефиниции
значений одного входа, или, если он должен найти элемент, находящийся в
отдельном блоке.
19
4) Словари на электронных носителях представляют некоторые
неудобства для начинающих пользователей с технической точки зрения. Но
они обладают значительными преимуществами по сравнению с бумажной
версией: гибкое консультирование, легкое манипулирование, быстрая
навигация, мощные и разнообразные возможности поиска, технические и
практические функции.
5) Разработчики электронных словарей татарского языка находятся на
начальном этапе компьютерной лексикографии и имеют все шансы для более
полного эксплуатирования возможностей электронной поддержки: доступ к
корпусам текстов, включение большого количества сведений (входов,
составных слов, примеров и т.д.), изменение метаязыка, адаптация к
требованиям пользователя (тематический перевод, например), интеграцию в
программу
функций
обработки
текста,
нормализация
интерфейса,
периодическое обновление.
6) Нами предложена модель лексикографического анализа текстовой
базы данных активного типа на основе интеграции словаря татарского языка.
На наш взгляд, информационная модель является продуктивным методом
исследования лексической системы вообще и, в частности, татарской.
Разработка и использование компьютерных словарей, даже локальных по
содержанию,
внедренных
в
электронный
анализ
тексов,
позволяет
исследовать лексику как системно-структурное образование.
7) Интеграция системно-структурного и функционального подходов
позволила нам разработать структуру модели лексикографического анализа
базы данных и интегрированного словаря татарского языка. Состав единиц
словаря может пополняться регулярными вариантами исходных базовых
лемм.
8) Содержательная структура словаря имеет статичный характер и
может быть описана синтетически, то есть в развернутом виде как описание
словарных статей и аналитически как описание отдельно взятой леммы. Он
20
состоит из корпусов текстов, которые можно добавлять и изменять, из
интегрированного словаря татарского языка и модуля поиска лексических
единиц в корпусном тексте. В словарных статьях мы использовали входы
наиболее репрезентативные, то есть слова, которые появляются в текстах
наиболее часто.
9) Нами предложена методика создания электронного словаря
татарского языка с открытым кодом, лексический материал и функции
которого можно изменять, дополнять и корректировать. Пользователю
предоставляется
возможность
дополнения
словаря
по
собственным
требованиям.
10) Разработанная модель лексикографического анализа текстовой
базы данных и интегрированного электронного словаря татарского языка
удовлетворяет
следующим
требованиям:
полифункциональность,
универсальность в плане применения, возможность расширения татарской
лексикографической базы, открытость, т.е. возможность изменять и
дополнять словник словаря и его функции в зависимости от конкретных
требований пользователя, многоаспектность, то есть возможность обучения
нескольким видам речевой деятельности.
11) Экспериментальная модель лексикографического анализа базы
данных и интегрированного электронного словаря татарского языка – это
комплексный
словарь
нового
активного
типа,
имеющий
признаки
содержательно-упорядоченного, объяснительного, функционально-языкового
словаря. Потенциальные возможности разработанной модели татарского
интегрированного
словаря
позволяют
интенсифицировать
лексикографическую работу, сделать ее более точной, так как значение слова
можно напрямую сверить с контекстом, выведенным из базы данных.
12)
Проведенный
лексикографических
подтвердил
его
эксперимент
навыков
по
проверке
эффективности
с
помощью
разработанного
эффективность.
Скорость
нахождения
словаря,
единицы
в
разработанном компьютерном словаре, а также точность перевода лемм
21
очень высоки, так как семантику слова можно проверить по контексту их
текстовой базы данных.
В Приложении представлены данные анкетирования по бумажным и
электронным словарям, тест по электронным словарям, тест по бумажным
словарям,
обоснование
выбора
элементов
для
теста,
опросник
по
электронным и бумажным словарям и данные анкетируемых.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ:
Публикация в рецензируемом журнале из перечня ВАК:
1) Чумарина Г.Р. Сравнительная характеристика электронных и
бумажных словарей в функциональном аспекте // Вестник Чувашского
университета, Гуманитарные науки. №4. – Чебоксары, 2009. – С. 265-270.
Статьи в других научных сборниках и журналах:
2) Чумарина Г.Р. К проблеме электронных словарей // Урал-Алтай:
через века в будущее: Материалы III Всероссийской тюркологической
конференции, посвященной 100-летию со дня рождения Н.К. Дмитриева.
Уфа, 2008. – С. 318-321.
3) Чумарина Г.Р. О современном состоянии электронных словарей в
татарском языке // Трибуна молодого ученого - 2009: сборник научных
трудов. – Казань: Изд-во “Познание” Института экономики, управления и
права, 2009. – С. 181-184.
4) Чумарина Г.Р. Информационные технологии в лексикографии и
перспективы развития электронных словарей // Трибуна молодого ученого 2009: сборник научных трудов. – Казань: Изд-во “Познание” Института
экономики, управления и права, 2009. – С. 185-186.
22
5) Чумарина Г.Р. Цели и методы разработки электронных словарей (на
основе татарского языка). // Яшь галимнәр һәм аспирантлар эшләре
җиентыгы: Тел, әдәбият һәм халык иҗаты мәсьәләләре. – 5 чыг. – Казан,
2010. – С. 216-220.
6) Чумарина Г.Р. Актуальные тенденции татарской лексикографии и
электронной диалектологии // Урал-Алтай: через века в будущее: Материалы
IV Всероссийской научной конференции. Уфа: ИИЯЛ УНЦ РАН, 2010. – С.
376-378.
23
Download