30 Дек

АРАБСКИЙ ЯЗЫК И ПРОБЛЕМЫ ЛОКАЛИЗАЦИИ




Номер части:
Оглавление
Содержание
Журнал
Выходные данные


Науки и перечень статей вошедших в журнал:

Введение

Современный этап развития научного знания характеризуется все увеличивающими количеством междисциплинарных исследований. Данное обстоятельство особенно актуально в контексте распространения использования технологических решений во всех сферах жизнедеятельности человека [4, с. 3, 376]. Тенденции глобализации в свою очередь подталкивают IT — компании к созданию локализованных версий своих программных приложений. В данном исследовании мы рассмотрим особенности локализации для арабоязычного ареала с учетом объективных трудностей формализации арабского языка. Во многом это связано с тем, что «решения, эффективные при обработке материала европейских языков с алфавитным письмом, богатой парадигмой словообразования и четко выраженными на графике границами слов, оказываются малопригодны для восточных языков с иероглифической письменностью, а также языков, письменность которых хотя и построена на алфавитном принципе, однако не всегда позволяет четко маркировать границы между словами, где критерии выделения слов могут трактоваться по-разному» [2, с.12].

Необходимо отметить, что использование термина «локализация» в последнее время достаточно вариативно, поэтому необходимо рассмотреть его семантическое поле, а также актуальные в данном контексте экстралингвистические факторы.

Понятие локализации

Локализация – комплексная адаптация программного обеспечения к языковым и национальным особенностям другой страны. Процесс локализации программного обеспечения (далее ПО) включает в себя комплекс мероприятий, проводимых совместно программистами и лингвистами. Как правило, данные мероприятия включают в себя исследование имеющегося материала, проведение его лексического анализа, приведение символов и написания в соответствие с нормами языка, перевод текстовой части продукта и документации к нему, перевод элементов интерфейса, справочной информации, решение проблемы языковых соответствий, тестирование, внесение необходимых корректировок, выпуск готового продукта. При этом в переводе должна учитываться приемлемость для пользователя материала с точки зрения норм, стандартов и законов соответствующей страны (порядок письменной индексации дат, обозначений валют, специфика оформления документации и т.д.).

Работа, по локализации российского программного обеспечения для стран Ближнего и Среднего Востока, учитывая особенности графической системы арабского языка, специфику его принципиально иных типологических особенностей, а также неустоявшуюся систему технической и компьютерной терминологии восточных языков требует привлечения специалистов различного профиля.

Одним из важнейших условий освоения новых и расширения существующих рынков ПО, является перевод продукции и сопутствующей документации на язык потенциальных пользователей, корректировка ПО с учетом их культурных и национальных особенностей. Практика показывает, что грамотная адаптация ПО приводит к расширению доли рынка и, как следствие, росту доходов продавца ПО.

Особенности арабской локализации. Перевод веб-сайтов

Наиболее востребован сегодня вид локализации, связанный с адаптацией веб-сайтов компаний, нацеленных на развитие экономических отношений со странами Ближнего Востока. Определим основные особенности, которые необходимо учитывать при локализации веб-страниц:

  1. Языковая ситуация в арабских странах заставляет учитывать лингвистические особенности каждой конкретной страны. И даже, несмотря на то, что при переводе текстовой информации целевым языком выступает арабский литературный язык, особенности той или иной страны могут проявляться на уровне использования лексических особенностей и т.д. Кроме того, зачастую компании, занимающиеся локализацией, привлекают для перевода текстовой информации носителей языка, которые в свою очередь, не всегда избегают использования особенностей диалектов своих стран как на уровне лексики, так и грамматики. Поэтому выбор и следование языковому стилю остается крайне актуальной задачей.
  2. Передача информации при переводе с языка на язык также может быть неполной в силу ряда экстралингвистических возможностей передачи той или иной информации на арабский язык.
  3. Особое внимание следует обращать на передачу изображений и символики: одни и те же рисунки и символы в одних странах могут восприниматься корректно, тогда как в других могут быть запрещенными.
  4. Одна из особенностей арабского сайта – это навигация, которая обусловлена чтением арабского текста справа налево, что отражается и на «зеркальном» расположении информации.

Мониторинг арабоязычных версий вебсайтов позволяет выделить типичные закономерности:

— Не вся имеющаяся информация переводится на арабский язык (название логотипа, названия городов и т.п.).

— При создании версии сайта, ориентированной на весь Ближний Восток зачастую указывается флаг отдельно взятого арабского государства, что не вполне корректно, если компания планирует сотрудничать с различными арабскими странами.

— Интересна и передача названия известных брендов арабской вязью: компании стараются сохранить отличительные особенности написания названия своего бренда, что бывает достаточно тяжело, особенно учитывая отсутствие заглавных букв в арабском языке.

Рисунок 1. Образец локализации бренда на арабский язык

Машинный перевод

В процессе локализации перевод играет ключевую роль, однако зачастую мы можем свидетельствовать факт использования автоматических систем перевода, что приводит к значительному количеству ошибок в локализованных версиях программных продуктов и сайтов. К основным причинам низкого качества технологий машинного перевода применительно к арабскому языку можно отнести следующие:

— Особенности арабской графики, многовариантное написание одних и тех же букв.

— Корректность передачи морфологических значений в арабском языке во многом обусловлена спецификой его системы письменности: отсутствие огласовок на письме способствует утрачиванию ряда маркеров словоизменительных моделей, что приводит к ошибкам в их переводе. Решением в данном контексте являлась бы интеграция в систему моделей, опирающихся на синтез морфологических моделей и семантику использованных лексем. Данная задача сложна и уже используется применительно к арабскому языку, однако носит фрагментарный характер.

— Основным выводом тестирования платформы является тенденция обеспечивать перевод с арабского языка посредством использования языка-посредника (в данном случае – английского). Неудачность выбора такого рода перевода обусловлена спецификой систем арабского, английского и русского языков. Известно, что типологически арабский и русский относят к языкам синтетического строя речи, тогда как английский — аналитического. Этот фактор обуславливает и развитость системы морфологических моделей в русском и арабском языках. Таким образом, процесс создания алгоритмов соответствия конкретных морфологических моделей содействовал бы обеспечению более высокого качества перевода.

Синтез речи. Макросинтез

К одному из элементов локализации программного обеспечения можно отнести и технологию синтеза речи – технологию, позволяющую преобразовывать имеющуюся текстовую алгоритмическую информацию в звучащую речь. Технологию синтеза речи обычно делят на две большие группы: «синтез формантный, при котором звук формируется «из ничего», складывается из элементарных гармонических колебаний на разных частотах, и синтез компилятивный, при котором используется заранее записанная и тщательно обработанная вручную звуковая база, представляющая собой набор фрагментов живой речи диктора-человека» [1].

Сегодня технологии автоматического синтеза речи применяются в самых широких сферах: телекоммуникации, автомобильном производстве, образовательных обучающих продуктах, системах ограничения доступа и т.д.

Достаточно распространено и использование макросинтеза – разновидности синтеза речи, который заключается в комбинировании заранее записанных речевых фрагментов необходимой тематической направленности.  Такого рода решения используют при передаче стандартных обращений (телекоммуникация, системы оповещения и т.п.).

Рассмотрим принцип использования лингвистического материала в процессе макросинтеза, а также специфику его разработки. Представим создание программного продукта для сотовой связи. Предполагается, что данный продукт должен автоматически предоставлять следующую информацию: время, дату, количество денег на счете и т.д. Таким образом, очевидно, что перечисленный набор информации будет содержать перечень как стандартных неизменяемых компонентов, так и варьируемых. В случае арабского языка, ситуация осложняется значительным преобразованием словоформ при изменении используемых числительных.

Таким образом, лингвистическая часть работы при проведении макросинтеза с указанными выше задачами может включать в себя следующий перечень действий:

Перевод словарного контента

Транслитерация

Составление алгоритмов реализации макросинтеза

количественные числительные

порядковые числительные

дробные числительные (целые, десятки, сотые части)

сочетания с некоторыми существительными (абонент, факс, сообщение и др.)

денежные суммы (необходимо определить список валют)

телефонные номера

время суток

длительность

даты и дни недели

консультации

Техническое озвучивание представляемого материала

Техническое озвучивание файлов макросинтеза

Тестирование

Тестирование удаленно

Проверка перевода документации (технической, маркетинговой)

Предварительная проверка голосового интерфейса

Тестирование программного обеспечения

 Приведем образец написания алгоритмов числительных:

Таблица 1

Алгоритм образования числительных от 11 до 19

  М.р Ж.р.
11 ’aHada+N

(где N= ‘ashara)

’iHdaa+X

( где  X= ‘ashrata)

12 ’ithnaa + N[1] ’ithnata + X[2]
13 thalaathata + N thalaatha + X
14 ’arba‘ata + N ’arba‘a + X
15 khamsata + N khamsa + X
16 sittata + N sitta + X
17 sab‘ata + N sab‘a + X
18 thamaaniyata + N thamaaniya + X
19 tis‘ata + N tis‘ata + X

Рисунок 1. Пример образования числительных от 21 до 99

Заключение

В данной статье был рассмотрен вопрос локализации программных решений для арабоязычного региона. Отмечены национальные и языковые особенности такого рода деятельности, а также изучены вопросы макросинтеза и адаптации вебсайтов.

Для обеспечения высокого качества локализованных программных решений для арабского языка необходимо учитывать факторы как лингвистического, так и национального характера. При этом структурная формализация языка должна носить гибкий и комплексный характер. Изучение имеющихся методик лингвистического анализа, опыт составления свода морфологической парадигмы арабского языка, словарей и корпуса текстов позволяет разработать языковую модель, которая являлась бы источником с одной стороны для создания и совершенствования технологии машинного перевода, поисковых систем, создания лингвистических программных продуктов, а с другой стороны содержала бы максимальный объем информации для проведения лингвистических исследований, как в рамках одного языка, так и типологического характера. Предлагаемая модель концентрируется на взаимодействии морфологической базы, тематически маркированного словаря, корпуса текстов. Каждый из представленных элементов несет свою функциональную нагрузку, однако лишь их комплексная интеграция может способствовать совершенствованию разрабатываемых технологических решений для арабского языка.

Список литературы:

  1. Жарков И., Скрелин П., Гусев М. Голос времени // КомпьютерПресс, 2005. Вып. 8. URL: http://compress.ru/Archive/CP/2005/8/53/ (дата обращения 20.12.2015).
  2. Редькин О. И. Формирование корпуса текстов и определение частотности слов в арабском языке: проблемы и решения // Вестник СПбГУ. Сер. 13. 2014. Вып. 1. C. 14-22.
  3. Izwaini S. Amateur Translation in Arabic-speaking Cyberspace // Perspectives: Studies in Translatology. Vol. 22. Issue 1. 2014. P. 96-112.
  4. Redkin O., Bernikova O. ICT and New Approach to Arabic Learning // International Multidisciplinary Scientific Conference on Social Sciences and Arts. 2014. Vol.3. P. 375-371.

[1]  В косвенном падеже ’ithnay + N

[2] В косвенном падеже ’ithnatay + X

АРАБСКИЙ ЯЗЫК И ПРОБЛЕМЫ ЛОКАЛИЗАЦИИ
Целью настоящего исследования является анализ специфики локализации программных продуктов на арабский язык. Опираясь на опыт разработки лингвистических программных приложений, автор делает выводы относительно особенностей арабского языка, а также ряда экстралингвистических характеристик, которые необходимо учитывать при создании локализованных версий программных продуктов. В ходе работы рассматривается понятие термина локализация, а также ее возможные классификации. Междисциплинарный характер работы определяет использование методов, свойственных компьютерной лингвистике в сочетании с социолингвистикой. Результаты исследования имеют практическую значимость и могут способствовать совершенствованию технологий обработки арабоязычного материала.
Written by: Берникова Ольга Александровна
Published by: БАСАРАНОВИЧ ЕКАТЕРИНА
Date Published: 01/10/2017
Edition: euroasia-science.ru_29-30.12.2015_12(21)
Available in: Ebook