К вопросу построения кодовых таблиц кыргызского языка для

advertisement
Кодовые таблицы кыргызского языка
для применения в компьютерной технике и ИКТ
Э.Д. Асанов.
Институт кибернетики и информационных технологий,
кафедра. "Компьютерная лингвистика"
О кодировках. Краткий обзор и анализ
Кодировки, применяемые в компьютерных системах и ИКТ, представляет
собой таблицы символов (кодовые таблицы), где каждой букве алфавита, включая также цифры и специальные знаки, присвоен свой уникальный номер, так
называемый код символа.
При однобайтовой системе кодирования кодовая таблица состоит из 256
(по количеству состояний, который может принять один байт) символов, из
которых первые 128 символов используются для кодирования букв латинского
алфавита. Вторая же половина таблицы отдана под национальные символы, и в
каждой стране эта часть различна. Так, например, в странах бывшего СССР
существует 5 различных кириллических кодировок. Термин "различные"
обозначает то, что одному и тому же коду (позиции в таблице символов)
соответствуют разные символы. Т.е. если мы неправильно определим и
настроим кодировку текста, то нашему вниманию предстанет абсолютно
нечитаемый текст. Кириллические кодировки:
1. KOI-8. Она появилась в результате адаптации к русскому языку системы
UNIX1.
2. DOS-таблица или CP_866 кодовая страница Microsoft.
3. MAC-таблица для Macintosh-совместимых компьютеров.
4. Win-кодировка или кодовая страница CP_1251, называемая также ANSIтаблицей. Де-факто, в связи с тотальным распространением самой
Windows, кодовая таблица CP_1251 стала самой распространенной в
СНГ.
1
До сих пор в системе UNIX кодировка KOI-8 считается основной.
5. Таблица ISO-8859-5. В настоящий момент эта кодировка практически
нигде не применяется. Ее используют как основную только в базе данных
Oracle. Тем не менее, ее поддержка присутствует во всех браузерах.
Кодовые таблицы кыргызской кириллицы
Аналогичная ситуация сложилась и с кыргызским языком. Так, для
системы
Windows
сегодня
используются
различные
ANSI-кодировки
кыргызской кириллицы, что очень затрудняет, а порой и делает невозможным
обмен документами в электронном виде. На настоящий момент существует
четыре различных кодировки, построенные на основе модификации кодовой
страницы CP_1251, причем каждая со своими шрифтами. Назовем их условно
по названию шрифтов, в которых они используются:
1. MENCHIK, авторство неизвестно;
2. KYRGYZ BALTIKA, авторство неизвестно;
3. UniToktom, © Информационный Центр "Токтом";
4. тип "Q", © Асанов Э.Д.2
В отличие от первых трех последняя кодировка при работе со
стандартными средствами Windows на кыргызском языке позволяет корректно
работать как с кодовой страницей CP_866 (DOS), так и с кодовой страницей
CP_1251 (Windows). Кроме того, поддержка этой кодировки обеспечена
обширной библиотекой кыргызских шрифтов (на сегодняшний день это
порядка 26 гарнитур и около 70 начертаний3), а сама кодировка и шрифты с
1995 года успешно используется большинством кыргызскоязычных СМИ и
рядом полиграфических предприятий Кыргызстана. Рассмотрим эту кодировку
более подробно.
Кыргызские компьютерные шрифты. Авторское свидетельство, Кыргызспатент, регистрационный №35, дата
регистрации 31.10.01.
3
Полное описание приведено на Интернет-сайте, адрес http://tamga.aknet.kg.
2
При разработке кодовых таблиц типа "Q" в качестве шаблонов для
совместимости были использованы стандартные кодовые таблицы кириллицы
корпорации Майкрософт (кодовые страницы Microsoft 1251/ANSI и OEM/DOS).
Эти таблицы являются 8 битовыми и, соответственно, общее число символов
равно 256. Поэтому для расположения 6 дополнительных (с точки зрения
стандартной кириллицы) символов были использованы знакоместа символов
украинского (Є, є, Ї, ї) и белорусского (Ў, ў) языков. Таким образом, были
получены следующие модифицированные таблицы кыргызской кириллицы.
Знакоместа кыргызских букв Ң, ң, Ө, ө, Ү, ү (десятичные коды)
в кодовых страницах CP_1251 (таблица ANSI) и CP_866 (таблица DOS)
Символ
Ң
ң
Ө
ө
Ү
ү
№ знакоместа в таблице 1251
№ знакоместа в таблице 866
161
246
162
247
170
242
186
243
175
244
191
245
ANSI таблица символов кыргызской кириллицы4 (HEX коды)
0
2
"
2
B
R
b
r
‚
’
(ў)
ң
І
3
#
3
C
S
c
s
ѓ
“
Ј
B0 °
1
!
1
A
Q
A
Q
Ѓ
‘
(Ў)
Ң
±
А
Р
а
р
Б
С
Б
с
В
Т
в
т
Г
У
г
у
20
30
40
50
60
70
80
90
A0
C0
D0
E0
F0
0
@
P
`
p
Ђ
ђ
і
4 5 6 7 8 9 A B
$ % & ' ( ) * +
4 5 6 7 8 9 : ;
D E F G H I J K
T U V W X Y Z [
d e f g h i
j k
t u v w x y z {
„ … † ‡ € ‰ Љ ‹
” • – — ˜ ™ љ ›
¤ Ґ ¦ § Ё © (Є) «
Ө
ґ µ ¶ · ё № (є) »
ө
Д Е Ж З И Й К Л
Ф Х Ц Ч Ш Щ Ъ Ы
д е ж з и й к л
ф х ц ч ш щ ъ ы
C
,
<
L
\
l
|
Њ
њ
¬
D E F
- . /
= > ?
M N O
] ^ _
m n o
} ~ •
Ќ Ћ Џ
ќ ћ џ
- ® (Ї)
Ү
ј Ѕ ѕ (ї)
ү
М Н О П
Ь Э Ю Я
м н о п
ь э ю я
В этой и следующей таблицах замененные символы украинского и белорусского языков приведены в скобках,
а знакоместа выделены серым цветом.
4
DOS таблица символов кыргызской кириллицы (HEX коды)
0
1 2 3
20
! " #
30 0 1 2 3
40 @ A B C
50 P Q R S
60 ` a b c
70 p q r s
80 А Б В Г
90 Р С Т У
A0 а б в г
E0 р с т у
F0 Ё ё (Є) (є)
Ө ө
4
$
4
D
T
d
t
Д
Ф
д
ф
(Ї)
Ү
5
%
5
E
U
e
u
Е
Х
е
х
(ї)
ү
6
&
6
F
V
f
v
Ж
Ц
ж
ц
(Ў)
Ң
7
'
7
G
W
g
w
З
Ч
з
Ч
(ў)
ң
8
(
8
H
X
h
x
И
Ш
и
ш
°
9
)
9
I
Y
i
y
Й
Щ
й
щ
A B C
* + ,
: ; <
J K L
Z [ \
J K l
z { |
К Л М
Ъ Ы Ь
к л м
ъ ы ь
·
№
D
=
M
]
m
}
Н
Э
н
э
¤
E
.
>
N
^
n
~
О
Ю
о
ю
F
/
?
O
_
o
•
П
Я
п
я
Международная система кодирования Unicode
В этой таблице на каждый символ отведено 2 байта. Таким образом,
максимальное количество знаков в таблице расширилось до 65535. Кодировка
Unicode была принята как стандарт лидерами компьютерной индустрии, в том
числе и корпорацией Microsoft. Именно эта схема кодирования используется в
современных информационных технологиях, так как именно Unicode позволяет
создавать единый программный продукт или Интернет-сайт для любых
платформ, языков и стран без каких-либо переделок и особых адаптаций5.
Ниже приведен фрагмент таблицы Unicode, отведенный для символов
кириллицы.
Стандарт кыргызской кириллицы, поддерживаемый Microsoft и реализованный в Windows XP, основан на
кодировке Unicode 2.0, а кодовые номера букв кыргызской кириллицы находятся в зоне Cyrillic Unicode.
(диапазон шестнадцатеричных значений от 0400 до 04FF) и совпадают со знакоместами одинаковых по
начертанию букв казахской кириллицы.
5
0
Таблица символов кириллицы6 согласно
международному стандарту Unicode 2.0
1 2 3 4 5 6 7 8 9 A B C D E
Ё Ђ Ѓ
0400
Є
Ѕ
0410 А Б В Г Д Е
0420 Р С Т У Ф Х
0430 а б в г д е
0440 р с т у ф х
0450
ё ђ ѓ є ѕ
І
Ї
Ј Љ Њ Ћ Ќ
F
Ў Џ
Ж З И Й К Л М Н О П
Ц Ч Ш Щ Ъ Ы Ь
и й
ж
з
ц
ч ш щ ъ ы ы э ю я
і
ї
ј
к
Э Ю Я
л м н
љ њ ћ
0460
Ѣ ѣ
0470
0480
0490 Ґ ґ Ғ ғ Ҕ ҕ Җ җ Ҙ ҙ
04A0 Ҡ ҡ Ң ң Ҥ ҥ Ҧ ҧ Ҩ ҩ
04B0 Ұ ұ Ҳ ҳ Ҵ ҵ Ҷ ҷ Ҹ ҹ
04С0 Ӏ Ӂ ӂ Ӄ ӄ
Ӈ ӈ
04D0
Ә ә
04E0
Ө ө
04F0
ќ
о п
ў
џ
Қ
қ Ҝ ҝ Ҟ
ҟ
Ҫ
ҫ
ү
Һ
һ Ҽ ҽ Ҿ ҿ
Ѫ ѫ
Ӌ
Ҭ
ҭ
Ү
ӌ
Следует отметить, что, начиная в версии Windows XP (осень 2001 года),
корпорацией Microsoft обеспечена "мягкая" поддержка кыргызского языка на
уровне клавиатурного ввода и базовых шрифтов согласно стандарту Unicode.
Вопросы стандартизации кыргызских кодовых таблиц
На сегодняшний день в Кыргызстане отсутствуют государственные
стандарты кодирования символов кыргызской кириллицы для использования в
компьютерной технике и ИКТ (кодовые таблицы, клавиатурные раскладки и т.
д.), что заметно тормозит процесс широкого внедрения уже готового и
разработки нового программного обеспечения. Кроме того, часто происходит
дублирование
работ
в
данной
области,
что
ведет
к
распылению
Символы кыргызской кириллицы выделены жирным шрифтом. Знакоместа, выделенные для служебных
целей, заретушированы темным цветом. Неиспользуемые знакоместа выделены серым цветом.
6
государственных средств и появлению "не стыкующегося между собой"
программного обеспечения. Для сравнения, скажем, в соседнем Казахстане
таблица DOS для казахских символов была стандартизована еще в 1991 году
(стандарт Республики Казахстан СТ РК 920-91), а стандарт на Windows-таблицу
казахской кириллицы (СТ РК 1048-2002, "Информационная технология. 8битовая кодовая таблица казахского алфавита") действует с начала 2002 г.
Хотя, конечно следует признать, что в казахском языке потребность в
стандартизации ощущается гораздо более острее, чем в кыргызском, т.к. вместо
трех кыргызских букв (Ң, Ө, Ү) в казахском языке дополнительных букв 9, а
именно: Ә, Ғ, I, Қ, Ң, Ө, Ү, Ұ, Һ.
Кодовые таблицы и шрифты, разработанные автором и описанные в
данной статье, на протяжении более восьми лет активно применяются на
практике и показали свою полную работоспособность. Приведем далеко не
полный перечень организаций, официально пользующихся результатами данной
работы:
1. Национальная аттестационная комиссия при Правительстве Кыргызской
Республики;
2. Редакции газет "Кыргыз Туусу", "Эркин Тоо", "Асаба", ZAMANKyrgyzstan";
3. Полиграфические предприятия "Билд", "Аян", "Кырсекон";
4. Управление геодезии и картографии при Правительстве Кыргызской
Республики;
5. Фонд кыргызского языка;
6. Национальная комиссия по госязыку при Президенте Кыргызской
Республики;
7. Главная редакция кыргызской энциклопедии.
Литература.
1. http://www.microsoft.com/rus/ - Российская страница корпорации
Microsoft.
2. Асанов Э.Д. Кыргызские компьютерные шрифты для Windows.
Авторское свидетельство №35. // Вестник интеллектуальной
собственности Кыргызской Республики, №10, 2001, Кыргызпатент.
3. Асанов Э.Д. О проблемах функционирования национальных языков в
информационно-коммуникационных технологиях. Сборник трудов IV
Международной конференции "Табият, техника илимин мамлекеттик
тилде окутуунун түйүндүү көйгөйлөрү". // КТУ им. И.Раззакова, Бишкек,
2002, с.153-161.
4. Леонтьев В.П. ПК: универсальный справочник пользователя, Москва
2000.
5. Материалы журналов по персональным компьютерам "PC Magazine
Russian Edition" и "Компьютер Пресс".
Download