Аналитический машинный перевод

Машинный перевод на основе правил или Rule-based Machine Translation – первая технология, получившая широкое распространение. Процесс перевода по этой технологии можно разделить на несколько этапов анализа:

  • Морфологический анализ, в ходе которого определяются морфологические характеристики слов в зависимости от части речи -  род, число, падеж. При этом возникает проблема многозначности, так как слово или его словоформа могут принадлежать к разным частям речи. Например, «печь» - это и существительное женского рода  в единственном числе именительном или винительном падеже и глагол в форме инфинитива.  На данном этапе анализа фиксируется информация для всех частей речи.

  • Формирование групп, при котором отдельные слова объединяются  в группы на основе ближайшего контекста. Например, словосочетание «русская печь»  образует единую (именную) группу с главным словом «печь».

  • Синтаксический анализ, в ходе которого выделяется прежде всего сказуемое, затем подлежащее,  прямое или косвенное дополнение, определяются границы простых предложений внутри сложного.

После того, как выполнен анализ, предложение происходит преобразование структуры входного предложения в соответствии с формальными требованиями языка перевода и синтезируется предложение на языке перевода.

Аналитический машинный перевод PROMT

Уникальная технология аналитического машинного перевода PROMT характеризуется  рядом особенностей,  которые отличают ее от классического подхода «по правилам». К таким особенностям относятся:

  • Семантические сети
    Словарные базы данных в аналитических системах PROMT имеют сложную структуру, которая позволяет описывать морфлогические, синтаксические и семантические характеристики слов и словосочетаний. Для основных частей речи -  существительных, глаголов, прилагательных и наречий -  разработана семантическая классификация с классами и подклассами. Информация о принадлежности слова к тому или иному семантическому классу учитывается как в процессе анализа, так и в процессе синтеза. Например, при анализе учитывается сочетаемость слов определенных классов (или подклассов) для разрешения грамматической или семантической многозначности слова или  определения синтаксической структуры предложения.

  • Многоуровневый семантико-синтаксический анализ
    Синтаксический анализ устроен таким образом, что анализ предложения происходит в несколько проходов, на каждом из которых решаются те задачи, для которых достаточно данных, например, достаточно ближайшего окружения для разрешения многозначности  или формирования синтаксических групп. Если по ближайшему окружению нельзя принять непротиворечивое решение, то решение будет отложено на следующий уровень, когда будет более точная информация не только о ближайшем окружении, но и о других словах в пределах предложения.

  • Интеллектуальный анализ  имен собственных
    Для систем на основе правил характерен анализ внутри предложения. При этом в системах  PROMT  разработан специальный механизм для хранения и  передачи информации между предложениями внутри текста (документа). Прежде всего  это важно для анализа имен собственных. Иногда имена могут быть достаточно точно выделены в предложениях  на основе ближайшего окружения, но в других предложениях контекст не настолько информативен, и могут быть ошибки в идентификации имен собственных. Передача  информации об именах собственных внутри текста (документа) позволяет точно анализировать и переводить имена собственные независимо от контекста.


Преимущества аналитического машинного перевода PROMT

  • Надежность
  • Возможность обучения специальной терминологии
  • Скорость перевода
  • Минимальные требования к аппаратным ресурсам

Ограничения аналитического машинного перевода PROMT

  • Машинный акцент в переводе
  • Высокая стоимость разработки и поддержки лингвистических алгоритмов и баз данных

Аналитический машинный перевод PROMT доступен в любой комбинации для перевода с и на

  • Русский
  • Английский
  • Немецкий
  • Французский
  • Испанский
  • Итальянский
  • Португальский

Глоссарий