Вопрос повышения качества машинного перевода остро стоит во многих крупных компаниях, где перевод большого объема документов со специализированной лексикой является каждодневной задачей.
Часто в компаниях накапливаются большие объемы данных, которые могут быть использованы для создания специализированных моделей, существенно улучшающих качество машинного перевода.
Для того, чтобы создать такую модель, необходимо выполнить обучение системы на параллельных данных. Для осуществления этого процесса требуется соответствующее программное обеспечение. Как правило, это облачные сервисы, которые работают по подписке и требуют оплаты каждой тренировки. Главным недостатком при таком подходе является то, что заказчик должен передать на облачный сервис свои данные, что создает риск утечки. В некоторых компаниях передача данных невозможна по правилам корпоративной безопасности.
Компания PROMT предлагает решение для настройки на стороне заказчика. PROMT Neural Training Аddon позволяет заказчикам самостоятельно создавать специализированные модели перевода на своих данных. При использовании PROMT Neural Training Addon любая используемая информация защищена от утечки, а количество тренировок неограниченно.
ТРЕБОВАНИЯ К ДАННЫМ
✔ Рекомендуемый объем от 10 000 сегментов
БЕЗОПАСНОСТЬ И КОНФИДЕНЦИАЛЬНОСТЬ
✔ Тренировка на стороне заказчика
✔ Тренировочные данные не доступны третьим лицам
РЕЗУЛЬТАТ
✔ Модель подключается в PROMT Neural Translation Server через профиль перевода
✔ Профиль перевода доступен для перевода текста, документа, сайта, в CAT-системе (PROMT Translation Factory, Phrase, Trados Studio)
с ОС Linux
Примеры внедрения
Центральный банк Российской Федерации
Была проведена кастомизация решения PROMT на основе ранее выполненных переводов специалистами заказчика (почти 100 000 предложений и их переводов) и корпоративного глоссария из 2 000 терминов.
В результате настройки рост качества перевода со специализированной нейронной моделью и глоссарием составил 10-15%.
Требования для PROMT Neural Training Addon для Linux
Компьютер со следующими характеристиками:
- Процессор класса Intel Core i5(или выше) или Xeon E3 (или выше) с 4 ядрами минимум (рекомендуется 8 ядер)
- Графический процессор (GPU) с выделенной видеопамятью не менее 16 Гб и с поддержкой CUDA 12*
- Оперативная память: 32 Гб (при объеме тренировочных данных до 1 млн.сегментов)
- Место на диске: 20 Гб
* требуется установить последнюю версию драйвера GPU для соответствующей ОС
Поддерживается работа на следующих ОС:
- AstraLinux SE 1.7
- Alt Linux 10.0
- РЕД ОС 7.3
- Ubuntu 20.04
- Ubuntu 22.04
- Ubuntu 23.04
- Debian 10
- Debian 11
ОС должны включать следующие системные библиотеки и компоненты:
- GLIBC версии 2.17 или выше
- libgcc_s.so.1
- libstdc++.so.6
- менеджер системных служб systemctl
Дополнительно перед установкой продукта требуется установка следующих пакетов (дистрибутивы входят в поставку):
- Python версии от 3.6.4 до 3.10
- пакет Numpy для Python
- пакет PyYAML 6.0 для Python
- пакет CTranslate2 2.14.0 для Python
- пакет Vcredist 2015
Веб-интерфейс продукта поддерживает работу в последних версиях следующих браузеров:
- Chrome
- Яндекс-браузер
- Firefox
- Opera
- Edge
- Safari (macOS)