Русско-кыргызский терминологический электронный словарь-справочник, объем 5600 терминов Специальное ПО для оптического распознавания кыргызских текстов в программе Fine Reader

Информационные технологии для кыргызского языка: состояние и перспективы.
Асанов Э.Д., ст. преп., каф. "Программное обеспечение компьютерных систем" КТУ им. И.Раззакова.


Введение в проблему.

Широкое внедрение достижений современной компьютерной техники и информационных технологий в нашу повседневную жизнь диктует необходимость более полного использования национальных языков и обеспечение их функционирования в сфере информационно-коммуникационных технологий (ИКТ) наравне с основными мировыми языками, для которых существуют свои национальные версии общемировых операционных систем и программного обеспечения (ПО). Это позволит новым независимым странам, в том числе и Кыргызстану, более активно интегрироваться в новое информационное сообщество путем вовлечения широких слоев населения в процесс усвоения и применения всех достижений мировой цивилизации, не теряя при этом своих национальных и культурных особенностей.

Поддержка языков в операционной системе Windows.

Корпорация Майкрософт, мировой лидер в производстве ПО для персональных компьютерных систем, при разработке ОС Windows для поддержки языков придерживается следующей идеологии:

Для языков, уже имеющих свои версии Windows, обеспечивается полная поддержка этих языков средствами самой ОС, а именно:
клавиатурный ввод
шрифты;
системные сообщения;
меню;
справочные системы;
правила сортировки;
обозначения дат, названия валют;
встроенные функции обработки текстов, а именно проверка орфографии и грамматики, словарь синонимов, переносы.
Для языков, еще не имеющих полной поддержки, по мере добавления новых языков в саму Windows используется, так называемая, "мягкая" поддержка, включающая средства для ввода и отображения текстов на этих языках, т.е. клавиатурный ввод и шрифтовая поддержка.

К вопросу о стандартизации применения кыргызского языка в ИКТ.

Несмотря на бурное развитие ИКТ, однако, в Кыргызстане на сегодняшний день отсутствуют единые, т.е. государственные стандарты кыргызского языка в ИКТ. Это заметно тормозит процесс широкого внедрения уже наработанного и создание нового языкового ПО.
Отсутствие стандарта привело к тому, что, например, для системы Windows сегодня у нас используются различные 8-битовые кодировки кыргызской кириллицы, что очень затрудняет, а порой и делает невозможным обмен документами. На настоящий момент существует, как минимум, четыре различных кодировки и каждая со своими шрифтами. Назовем их условно по названию шрифтов, в которых они используются, а именно:
MENCHIK;
KYRGYZ BALTIKA;
UniToktom;
тип "Q".
Авторы трех первых кодировок и шрифтов неизвестны. Особняком стоит кодировка типа "Q", автор которой известен [1]. Эта 8-битовая кодировка, в отличие от остальных, при работе с Windows на кыргызском языке позволяет корректно работать как с кодовой страницей 866 (DOS), так и с кодовой страницей 1251 (Windows). Поддержка этой кодировки обеспечена обширной библиотекой кыргызских шрифтов (около 70 начертаний), а сама кодировка и шрифты с 1994 года успешно используется практически всеми кыргызско-язычными газетами и большинством полиграфических предприятий.
Сейчас во всем мире находится в стадии завершения работа над созданием новой универсальной 16-битовой кодировки (UNICODE), в которой предполагается в одной кодовой таблице разместить все языки мира. Кодировка Unicode была принята как стандарт лидерами компьютерной индустрии. Именно эта схема кодирования используется в современных информационных технологиях. Использование Unicode в многоуровневых приложениях или программных комплексах, построенных в рамках архитектуры клиент-сервер, а также при обменах данными в сети Интернет приводит к значительному снижению расходов на поддержку этих продуктов по сравнению с использования прежних систем кодирования. Кроме того, Unicode позволяет создавать единый программный продукт или сайт Интернет для любых платформ, языков и стран без каких-либо переделок и особых адаптаций.
Стандарт кыргызской кириллицы, реализованный корпорацией Microsoft в Windows XP (с осени 2001 г.), основан на кодировке Unicode, а кодовые номера букв кыргызской кириллицы находятся в зоне Cyrillic Unicode.

Современное состояние процесса компьютеризация кыргызского языка.

Процесс этот начался в основном с внедрением технологии настольных издательских систем в СССР в конце 80-х годов 20 века, а именно с внедрения программного комплекса "Ксерокс Вентура Паблишер 2.0". Процесс заметно ускорился с момента обретения Кыргызстаном независимости и, особенно с началом внедрения ОС Windows 3.1. В это время (1993-94 годы) появились программные компоненты Windows, позволяющие работать с кыргызскими текстами. Это, в первую очередь кыргызские компьютерные шрифты формата TrueType, основанные на модифицированной кодовой таблице ANSI/1251, и драйверы кыргызской клавиатуры.
Появления Windows 95, а затем 98 и текстового процессора Word 97 вызвали к жизни необходимость использования стандарта ANSI/Unicode 1.0 и нового поколения кыргызских шрифтов и программ для раскладок клавиатуры (1998-1999 годы) [2]. Следующее поколение ОС Windows версий NT/2000/XP позволили в полной мере использовать все достоинства кодировки Unicode 2.0 наравне с кодировкой ANSI.
В данное время это наиболее удачное решение для функционирования кыргызского языка и работы с компьютерными технологиями в мульти-языковом режиме. Кроме того, в это же время в Windows XP корпорацией Майкрософт была включена "мягкая" поддержка кыргызского языка.
К 2001 году значительный опыт "кыргызификации" Windows, накопленный за предшествующие годы, позволил выпустить многофункциональный программный продукт «Тамга-Кит» и первый национальный текстовый редактор "Тамга 1.0/2.0" уровня MS Word со встроенными средствами проверки кыргызской орфографии и работы с кыргызскими шрифтами в различных кодировках.

Программный продукт «Тамга-Кит» состоит из следующих компонентов:
Кыргызификатор Windows 9x/ME/NT/2000/XP. Включает клавиатурные раскладки, системные и экранные шрифты и комплект шрифтов TTF- формата в стандарте ANSI/Unicode, а также встроенный модификатор системных настроек Windows для совместного использования шрифтов в кодировках ANSI и Unicode (основная система кодирования – Unicode 2);
Утилиты для работы с текстами на кыргызском языке (конвертор кыргызских шрифтов TTF- формата в стандарте ANSI и программа расстановки переносов);
Библиотека кыргызских шрифтов формата TrueType в стандарте ANSI;
Текстовый редактор «Тамга 2.0» с встроенными функциями проверки кыргызской орфографии, а также переносов и транслитерации;
DLL-модуль для реализации функции проверки кыргызской орфографии при работе с программами MS Office 97/2000.
Русско-кыргызский терминологический электронный словарь-справочник, объем 5600 терминов;
Специальное ПО для оптического распознавания кыргызских текстов в программе Fine Reader, версия 5 и выше.

Программный продукт «Тамга-Кит» целиком и его отдельные компоненты прошли успешную апробацию на ряде предприятий, кроме того, продукт был представлен на выставке "Современные информационные технологии в образовании" в конце августа 2002 года. По результатам комплексного тестирования получены положительные отзывы в:
Нацкомиссии по госязыку при Президенте Кыргызской Республики;
Отделе Информационных систем управления образованием Министерства образования и культуры КР;
Фирме Areopag, подразделение Areopag-IT.

Основные позиции, отмеченные в отзывах:
Полная работоспособность и отсутствие конфликтов при работе с Windows 95/98/ME и NT/2000/XP;
Интуитивно-понятный интерфейс;
Взаимосвязь всех компонентов программного продукта друг с другом, что дает возможность удобной и комфортной работы с кыргызскими текстами;
Реализованные функции взаимной перекодировки текстов в кодировках ANSI(Unicode(DOS позволяют переносить тексты и документы на кыргызском языке как с компьютера на компьютер посредством магнитных носителей, так и через среду Интернет.
На сегодня это единственное ПО такого рода в Кыргызстане.
Программный продукт «Тамга-Кит» незаменим для пользователей, активно использующих кыргызский язык в таких областях как делопроизводство, офисные применения, разработка и сопровождение баз данных, Интернет и электронная почта, а также в сфере просвещения и науки.

Обзор состояния языковых проблем в других странах

Для анализа и сравнения существующего программного обеспечения текстообработки (по языковым семействам, группам и языкам) ниже приведена таблица, в основном построенная на материалах корпорации Microsoft на конец 2001 года [3].
Сводная таблица реализации функций текстообработки в продуктах корпорации Microsoft (по основным языковым семьям и группам)



Функции текстообработки

Семья
Группа
Язык
Провер-ка орфо
Провер-ка грамм.
Тезау-рус
Пере-нос

Индоевропейская семья
Славянская
Болгарский

·



·



Польский

·

·

·

·



Русский

·

·

·

·



Словенский

·


·

·



Украинский

·

·

·

·



Хорватский

·


·

·



Чешский

·


·

·


Герман-ская
Английский

·

·

·

·



Голландский

·

·

·

·



Немецкий

·

·

·

·



Норвежский

·

·

·

·



Шведский

·

·

·

·


Роман-ская
Испанский

·

·

·

·



Итальянский

·

·

·

·



Португальский

·

·

·

·



Румынский

·


·

·



Французский

·

·

·

·

Алтайская и уральская семьи
Тюркская
Азербайдж.
? 






Казахский

·



·



Кыргызский

·



·



Татарский
?


?



Турецкий

·


·

·



Узбекский
?





Угро-фин-ская
Венгерский

·

·

·

·



Финский

·

·

·

·



Эстонский

·


·

·


Корей-ская
Корейский

·

·




Япон-ская
Японский


·




Как видно из приведенной таблицы наиболее благоприятно дело обстоит с индоевропейскими языками. Что же алтайских и уральских языков, то наиболее продвинутыми оказались угро-финские и корейский языки. По нашему мнению в дальнейшем может быть потребуется интеграция усилий специалистов ряда стран и регионов СНГ для разработки языкового ПО сразу для ряда близкородственных тюркских языков стран Центральной Азии и России.

Какое ПО необходимо нам сейчас для дальнейшего развития кыргызского языка и ИКТ на кыргызском языке.

В первую очередь это:
Программы грамматического контроля кыргызских текстов;
Программы оптического распознавания текстов на кыргызском языке;
Программы голосового ввода и синтезаторы кыргызской речи;
Разнообразные электронные словари и справочники;
Обучающие программы на кыргызском языке и для кыргызского языка;
Двухсторонние программы перевода с кыргызского на основные мировые языки и обратно.
Кроме разработки перечисленного ПО, потребуется ещё подготовка специалистов по компьютерной лингвистике, т.е. специальности на стыке языкознания и компьютерных технологий.
Появление вышеперечисленного ПО позволит внедрить в полном объеме технологии "безбумажного" документооборота и делопроизводства на кыргызском языке. Это, в свою очередь, позволит значительно быстрее внедрить принципы "электронного" правительства в жизнь нашего общества на региональном уровне. И придаст импульс дальнейшему развитию образования и науки на государственном языке.

Заключение и выводы.

На основании сказанного, нам кажется, что по мере внедрения достижений ИКТ в нашу жизнь более отчетливо проявляет себя проблема разработки унифицированного ПО для применения в сферах образования и науки. В первую очередь это касается разработки "первичного", т.е. системного и инструментального ПО, на базе которого и будет разрабатываться "вторичное", т.е. прикладное ПО на кыргызском языке и для кыргызского языка. Все эти проблемы требуют своего решения и, конечно же, их надо решать, опираясь на общемировой опыт.

Литература.

Асанов Э.Д. Кыргызские компьютерные шрифты для Windows. Авторское свидетельство №35. // Вестник интеллектуальной собственности Кыргызской Республики, №10, 2001, Кыргызпатент.

Асанов Э.Д. Разработка и построение кыргызской национальной клавиатурной раскладки для применения в ИКТ и компьютерных технологиях. // Известия ВУЗов, №№3-4, Бишкек, 2002, с.143-146.

Асанов Э.Д. Сохранение национальных и культурных особенностей в условиях глобального информационного общества. // Доклад на Бишкекскаой конференции по информационному обществу, 9-11 сентября 2002, Чолпон-Ата.


 По башкирскому, туркменскому, алтайскому, хакасскому, тувинскому и якутскому языкам информации по интересующему нас вопросу не обнаружено. Далее вопросительным знаком отмечена непроверенная информация, полученная по новостным каналам Интернет, а также информация с Интернет-сайтов некоторых фирм-производителей ПО.
 Отдельный (не интегрированный в ОС Windows) программный модуль.
 Функция доступна только для кириллицы.

13PAGE 14415






Заголовок 1 Заголовок 2 Заголовок 3 Заголовок 4 Заголовок 5 Заголовок 6 Заголовок 7 Заголовок 8 Заголовок 915

Приложенные файлы

  • doc 26440409
    Размер файла: 149 kB Загрузок: 0

Добавить комментарий