ОБУЧЕНИЕ НА ПАРАЛЛЕЛЬНЫХ ДАННЫХ

Настройка системы машинного перевода на перевод терминологии и стилистических клише, уникальных для предметной области заказчика, на параллельных данных – самый эффективный способ повышения качества перевода

Запросить консультацию

Что такое параллельные данные?

Параллельные данные – это оригинальные тексты и их переводы в структурированном виде, т.е. каждому предложению на языке оригинала соответствует предложение на языке перевода. При настройке на параллельных данных система обучается таким образом, что адаптирует стиль и лексику данных, на которых она обучалась.

Какие данные подходят для обучения?

Для того, чтобы данные стали пригодны для обучения нейронной модели, они должны обладать следующими свойствами:

Не должны содержать технических ошибок . Например, непараллельные строки, не до конца переведенные предложения, сегменты на других языках, слишком длинные строки должны быть удалены.

Быть достаточного объема. Рекомендуемый объем данные для обучения - от 10 000 параллельных сегментов. Чем больше данных используется для настройки, тем выше качество перевода с помощью модели.

Должны быть тематически однородными, чтобы обеспечивать точность в переводе терминологии, аббревиатур, имен собственных.

С точки зрения качества и пригодности тренировки нейронных моделей данные условно можно разделить на 3 группы:

Данные «плохого» качества: сайты, субтитры и т.д.
Данные «среднего» качества: юридические и правовые данные ООН/Евросоюза
Данные «хорошего» качества: клиентские данные, небольшие специализированные корпуса.

Однако даже в хороших данных могут быть ошибки, которые могут повлиять на качество модели, поэтому необходима предварительная подготовка данных для обучения.

Как происходит подготовка данных для обучения?

Для подготовки данных для обучения в PROMT применяется разнообразные технологии. Например, базовая прочистка включает в себя:

✔

Удаление дубликатов

✔

Удаление слишком длинных и слишком коротких строк

✔

Удаление тегов

✔

Удаление строк, в которых меньше 30% алфавитных символов

✔

Удаление одинаковых source/target строк

✔

Нормализация апострофов и кавычек и т.д.

А также применяются некоторые другие технологии. Подробнее

В процессе прочистки объем данных может значительно уменьшиться.

Где происходит обучение?

Достаточно часто обучение происходит в облаке, однако главным недостатком при таком подходе является уязвимость обрабатываемой информации. Как правило, данные для настройки носят конфиденциальных характер, что накладывает существенные ограничения на их использование на сторонних сервисах. Компания PROMT предлагает решения для настройки на стороне заказчика. При использовании PROMT Custom AI любая используемая информация защищена от утечки, так как обучение происходит на стороне заказчика.

PROMT Custom AI позволяет создавать специализированные модели перевода, которые подключаются к PROMT Neural Translation Server, PROMT Translation Factory и позволяют получать перевод, отличающийся высокой терминологической и стилистической точностью. Решение доступно для OC Linux.

PROMT Custom AI

ВОЗМОЖНОСТИ

Тренировка на стороне клиента
Параллельные данные для тренировки – файлы в формате tmx, UTF-8
Рекомендуемый объем от 10 000 сегментов

БЕЗОПАСНОСТЬ И КОНФИДЕНЦИАЛЬНОСТЬ

Работает офлайн
Тренировочные данные не доступны третьим лицам

РЕЗУЛЬТАТ

Специализированная модель
Модель подключается в PROMT Neural Translation Server и PROMT Translation Factory через профиль перевода

Запросить консультацию

Пример внедрения

Центральный банк Российской Федерации

Была проведена кастомизация решения PROMT на основе ранее выполненных переводов специалистами заказчика (почти 100 000 предложений и их переводов) и корпоративного глоссария из 2 000 терминов. В результате настройки рост качества перевода со специализированной нейронной моделью и глоссарием составил 10-15%

Сергей Кожевников, Консультант Управления информационно библиотечного обеспечения Центрального банка Российской Федерации

«‎Сразу после внедрения мы видим рост заявок на перевод на английский беспрецедентно большого объема. Совершенно точно можно сказать, что без машинного перевода выполнить такой объем в поставленный срок было бы просто невозможно».

Полное описание кейса

Сертификаты

Решение включено в единый реестр российских программ.
№ заявления (Linux) 11648
№ заявления (Windows) 11647

Остались вопросы?
Свяжитесь с нами для получения консультации по корпоративным решениям PROMT.

Отправить