Нейронный машинный перевод

Перевод на основе корпусов параллельных текстов

В начале 21 века к системам машинного перевода на основе правил добавились системы на основе параллельных текстов, так называемые статистические системы машинного перевода. В их основе работа не с готовыми правилами (аналитический подход), а эмпирический подход, где правила формируются на основе параллельных двуязычных корпусов текстов. Из предложения выделяются отдельные грамматические единицы – слова и фразы (n-граммы), перебираются все варианты перевода для каждого фрагмента на основе тренировочных данных и взвешивается вероятность каждого из них.

К достоинствам таких систем можно отнести относительно небольшие сроки разработки системы при наличии параллельных данных. Однако дефицит параллельных данных является и существенным ограничением технологии. Статистической системе необходимо несколько миллионов параллельных сегментов (предложений) для тренировки. Для многих языковых комбинаций нет достаточного количества параллельных данных. Кроме того, статистический машинный перевод отличается нестабильностью, а это значит, что технология ограничена в возможностях роста качества перевода.

Нейронный машинный перевод

В основе нейронного переводчика лежит механизм двунаправленных рекуррентных нейронных сетей, построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики.

Как и статистический перевод, нейронный перевод требует для обучения параллельные корпуса, позволяющие сравнить автоматический перевод с эталонным «человеческим», только в процессе обучения он оперирует не отдельными фразами и словосочетаниями, а целыми предложениями. Основная проблема в том, что для тренировки такой системы требуется существенно больше вычислительных мощностей.

Для ускорения процесса разработчики используют графические процессоры (GPU), адаптированные специально для технологий машинного обучения. Но даже при всем этом тренировка одной нейронной модели требует от 1 до 3 недель, тогда как статистическая модель примерно того же размера настраивается за 1-3 дня.

В общем случае перевод с применением нейронных сетей превосходит по качеству перевод статистический, и у этой технологии есть огромный потенциал для развития. Однако, есть у этой технологии и свои особенности, которые могут сказаться на результате. Нейронная сеть, даже будучи обученной на достаточно больших объемах данных, может допускать трудно диагностируемые ошибки при работе с материалом, который не попал в обучающую выборку, другими словами, не зная ответа, сеть его “придумает”, что, например, особенно актуально при обработке имен собственных (персоналий, топонимов и т.д.).





Преимущества нейронного машинного перевода

  • Качество, близкое к переводу, выполненному человеком
  • Возможность перевода контента, который отсутствует в обучающих данных
  • Обучение специальной терминологии
  • Стоимость разработки

Ограничения нейронного машинного перевода

  • Особые требования к аппаратным ресурсам
  • Отсутствие возможности настройки без параллельных данных
  • Зависимость результата от объема и качества обучающих данных

Глоссарий