Top.Mail.Ru
Настройка машинного перевода на параллельных данных | PROMT

ОБУЧЕНИЕ НА ПАРАЛЛЕЛЬНЫХ ДАННЫХ

Настройка системы машинного перевода на перевод терминологии и стилистических клише, уникальных для предметной области заказчика, на параллельных данных – самый эффективный способ повышения качества перевода

Что такое параллельные данные?

Параллельные данные – это оригинальные тексты и их переводы в структурированном виде, т.е. каждому предложению на языке оригинала соответствует предложение на языке перевода. При настройке на параллельных данных система обучается таким образом, что адаптирует стиль и лексику данных, на которых она обучалась.

Какие данные подходят для обучения?

Для того, чтобы данные стали пригодны для обучения нейронной модели, они должны обладать следующими свойствами:

Не должны содержать технических ошибок . Например, непараллельные строки, не до конца переведенные предложения, сегменты на других языках, слишком длинные строки должны быть удалены.
Быть достаточного объема. Рекомендуемый объем данные для обучения - от 10 000 параллельных сегментов. Чем больше данных используется для настройки, тем выше качество перевода с помощью модели.
Должны быть тематически однородными, чтобы обеспечивать точность в переводе терминологии, аббревиатур, имен собственных.

С точки зрения качества и пригодности тренировки нейронных моделей данные условно можно разделить на 3 группы:

  • Данные «плохого» качества: сайты, субтитры и т.д.
  • Данные «среднего» качества: юридические и правовые данные ООН/Евросоюза
  • Данные «хорошего» качества: клиентские данные, небольшие специализированные корпуса.

Однако даже в хороших данных могут быть ошибки, которые могут повлиять на качество модели, поэтому необходима предварительная подготовка данных для обучения.

Как происходит подготовка данных для обучения?

Для подготовки данных для обучения в PROMT применяется разнообразные технологии. Например, базовая прочистка включает в себя:


Удаление дубликатов

Удаление слишком длинных и слишком коротких строк

Удаление тегов

Удаление строк, в которых меньше 30% алфавитных символов

Удаление одинаковых source/target строк

Нормализация апострофов и кавычек и т.д.

А также применяются некоторые другие технологии. Подробнее

В процессе прочистки объем данных может значительно уменьшиться.

Где происходит обучение?

Достаточно часто обучение происходит в облаке, однако главным недостатком при таком подходе является уязвимость обрабатываемой информации. Как правило,  данные для настройки носят конфиденциальных характер, что накладывает существенные ограничения на их использование на сторонних сервисах. Компания PROMT предлагает решения для настройки на стороне заказчика. При использовании PROMT Neural Training Addon любая используемая информация защищена от утечки, так как обучение происходит на стороне заказчика.

PROMT Neural Training Addon позволяет создавать специализированные модели перевода, которые подключаются к  PROMT Neural Translation Server, PROMT Translation Factory и позволяют получать перевод, отличающийся высокой терминологической и стилистической точностью. Решение доступно для Windows и Linux.


PROMT Neural Training Addon


ВОЗМОЖНОСТИ
  • Работает вместе с PROMT Neural Translation Server
  • Тренировка на стороне клиента
  • Данные для тренировки – файлы в формате tmx, UTF-8
  • Рекомендуемый объем от 10 000 сегментов
БЕЗОПАСНОСТЬ И КОНФИДЕНЦИАЛЬНОСТЬ
  • Работает офлайн
  • Тренировочные данные не доступны третьим лицам
РЕЗУЛЬТАТ
  • Специализированная модель
  • Модель подключается в PROMT Neural Translation Server через профиль перевода
  • Профиль перевода доступен для перевода текста, документа, сайта, в CAT-инструменте (PROMT Translation Factory, Phrase, Trados Studio)
Запросить консультацию


Пример внедрения

Сертификаты

Решение включено в единый реестр российских программ.
№ заявления (Linux) 11648
№ заявления (Windows) 11647



Остались вопросы?
Свяжитесь с нами для получения консультации по корпоративным решениям PROMT.

Отправить