В первую очередь, PROMT зарекомендовал себя как производитель систем RBMT и ТМ, но с 2011 г. успешно осваивает рынок Hybrid MT и SMT.
Технология PROMT RBMT представляет собой систему по типу Transfer и основана исключительно на собственных лингвистических разработках компании PROMT, которые ведутся уже более двадцати лет. Безусловно, PROMT использует все доступные лингвистические знания и сведения, существующие в открытой форме, но морфологические, синтаксические, семантические модели, лежащие в основе технологии, – это собственная разработка компании. Например, количество используемых в системе типов словоизменений в зависимости от спряжения, времени, склонения, числа и т. д. для английского языка достигает почти 300 (для русского языка – почти 1300), а количество синтаксических и семантических правил, используемых для разбора английских предложений, составляет несколько десятков тысяч.
В основе технологии PROMT RBMT лежат следующие компоненты:
- Лингвистические базы данных
- Двуязычные словари
- Общелексический словарь
- Специализированные или отраслевые словари (охватывают различные предметные области, такие как нефть и газ, металлургия, IT и телекоммуникации, медицина и биология, а также многие другие)
- Пользовательские словари
- Файлы имен и транслитерации
- Морфологические таблицы
- Модуль перевода
- Грамматические правила
- Алгоритмы перевода
Важные особенности систем PROMT на основе RBMT:
- Управление терминологией
- Пользовательские словари могут создаваться в двух интерфейсах:
- Простой интерфейс расчитан на неспециалистов в лингвистике и позволяет заводить статьи, не думая о морфологических и семантических настройках. Система сама способна по аналогии определить характеристики слов и словосочетаний с точностью до 99 %.
- Расширенный интерфейс словаря позволяет при создании словарной статьи делать любые морфологические, семантические и лексико-грамматические настройки. При создании словаря в этом режиме предполагается определенный уровень владения лингвистическими понятиями.
- Автоматический импорт глоссариев любых объемов позволяет моментально получать из глоссария словарь машинного перевода в формате PROMT и использовать его при переводе.
- Функция парных словарей. При создании, например, англо-русского словаря можно автоматически создавать парный русско-английский словарь.
- Управление стилем перевода
- В решения PROMT входит уникальная технология управления стилем перевода – «Правила перевода». Она позволяет получать разный перевод для разных типов документов. Например, в зависимости от характера переписки (личной или деловой), английские местоимения «you/your» можно переводить на русский как «ты/твой», «вы/ваш» или «Вы/Ваш». Для инструкций можно использовать разные формы перевода императива, например, Activate your account может быть переведено как «Активируйте Вашу учетную запись», или «Активировать Вашу учетную запись», или «Активация Вашей учетной записи».
- Набор лингвистических настроек сохраняется в Профилях перевода, что позволяет переводить разные типы текста с разным набором лингвистических данных.
- Контроль качества перевода.
- В решения входят средства, которые позволяют сравнивать варианты перевода (например, выполненные с разными Профилями перевода или разным набором словарей, или сравнить варианты машинного перевода и его аналога, выполненного человеком) и видеть все изменения, а также считать процент изменений во всем тексте.
С перечнем продуктов PROMT на базе RBMT технологии можно ознакомиться
здесь.
Статистические модули перевода PROMT основаны на использовании доступных статистических систем с открытым кодом. Такая разработка невозможна без создания так называемой Языковой модели или Language Model. Языковая модель – это набор n-грамм многоязычного корпуса с их вероятностными характеристиками, на базе которого ведется поиск наиболее вероятного перевода. Языковая модель, используемая в PROMT SMT, разработана специалистами компании PROMT.
Решение по статистическому машинному переводу PROMT имеет ряд преимуществ:
- Устойчивость.
Платформа PROMT обладает встроенными настраиваемыми средствами обеспечения устойчивости, позволяющими вовремя отслеживать критические ошибки и автоматически перезагружать процесс перевода, сохраняя стабильность системы.
- Скорость перевода.
Статистические модули PROMT используют встроенные средства многопоточного перевода, обеспечиваемые базовой системой, за счет чего достигается существенное увеличение скорости.
- Многоплатформенность.
Статистические модули PROMT работают как на UNIX, так и на Windows.
- Легкость и скорость тренировки.
Тренировка данных для статистических модулей PROMT осуществляется с использованием многопоточных средств, что позволяет максимально сократить сроки для любых языковых пар на любых исходных текстах.
- Уникальные know-how-алгоритмы обработки текстов.
Алгоритмы PROMT позволяют улучшать выравнивание текстов заказчика, идентифицировать и исправлять ошибки в параллельных текстах заказчика, проводить постобработку переведенных текстов, исправляя ошибки статистического модуля, учитывать специфику определенных алфавитов (например, японского языка).
Так как статистический машинный перевод предполагает тренировку на тематически однородном корпусе параллельных текстов, компания PROMT разрабатывает такие решения только для конкретного клиента.
В последнее время наметилась тенденция взаимопроникновения технологий: статистический МП стремится использовать лингвистические данные для повышения качества перевода, а RBMT-системы ищут способы применения статистических методов.
Компания PROMT с 2008 года ведет разработки в области применения статистических методов, результатом которых стала гибридная технология перевода PROMT DeepHybrid.
PROMT DeepHybrid использует RBMT-технологию и статистические методы для:
- автоматического построения словарных баз на основе корпусов параллельных текстов,
- формирования нескольких вариантов перевода – на уровне лексики и структуры предложения,
- постредактирования в автоматическом режиме,
- выбора лучшего (наиболее вероятного) перевода на основе Языковой модели.
Такой подход позволяет
- сохранить преимущества технологии rule-based (формирование синтаксически связанного и грамматически правильного текста, однородность терминологии),
- получить преимущества статистического МП (быстрая обучаемость, получение данных из параллельных корпусов в автоматическом режиме, гладкость текста).
Следует также отметить, что если статистический машинный перевод требует колоссальных объемов параллельных текстов, то при гибридной технологии можно обойтись сравнительно небольшими объемами.
Гибридную технологию можно использовать как в корпоративном сегменте, где уже могут быть готовые объемы параллельных текстов, так и на онлайн-сервисах, предложив интернет-сообществу принять участие в создании параллельных корпусов в режиме онлайн.
Внедрение нового решения PROMT каждый раз реализуется в виде индивидуального проекта. Первые пользователи решения появились в 2011 году на американском рынке.
Преимущества PROMT DeepHybrid
- быстрая автоматическая настройка на основе Translation Memory заказчика,
- терминологическая точность и единство стиля,
- получение дополнительных полезных данных – глоссариев, двуязычных терминологических словарей.
Скачать презентацию «Гибридная технология перевода»