Настройка нейросетевого машинного перевода: память перевода и глоссарий

15.04.2020

Уже несколько десятилетий машинный перевод используется как в бизнесе, так и в работе профессиональных переводчиков. Однако до появления нейронных сетей основным кейсом использования машинного перевода был gisting. Gisting (от англ. gist – смысл) – это применение перевода с помощью компьютера для общего понимания смысла текста. Были, конечно, и исключения: например, IT-компании успешно применяли машинный перевод для локализации документации к ПО. Но, чтобы получить результат, пригодный для постредактирования, требовалась длительная и кропотливая настройка.

С появлением нейронных сетей произошла революция, и, в первую очередь, она затронула качество перевода. Нейросетевой машинный перевод можно использовать для перевода почти любой корпоративной документации, контента интернет-магазинов, сообщений служб поддержки. Кроме того, нейросетевой машинный перевод позволяет ускорять работу профессиональных переводчиков.

NMT – Non-magic Machine Translation

Увидев результат нейросетевого машинного перевода, действительно можно поверить в магию. Однако в основе нет никакого колдовства. Вместо этого – механизм двунаправленных рекуррентных нейронных сетей. Этот механизм построен на матричных вычислениях и позволяет создавать сложные вероятностные модели.

Нейронная сеть обучается на корпусах параллельных текстов, где переводы выполнены человеком. В процессе обучения она оперирует не отдельными фразами, а целыми предложениями. Благодаря умной технологии и высокому качеству данных результат получается гладким, без «машинного акцента», а все слова в предложении согласованы между собой и стоят в правильном порядке.

Универсальные NMT-модели (Generic NMT) обучаются на огромных массивах данных (речь идет о десятках миллионов пар предложений!) разных тематик и стилей. После обучения NMT-модель считывает предложение на языке оригинала, а затем преобразует его в тензор – суммарное математическое представление. Основываясь на этом представлении, модель начинает порождать наиболее вероятные слова или словосочетания на языке перевода, а затем синтезирует целое предложение. Однако если нейросетевая модель встречает незнакомое слово на языке оригинала, то при переводе она может повести себя непредсказуемо, и, например, выдумать несуществующее слово.

Универсальные модели не подходят для перевода узкоспециализированных текстов, так как они порождают преимущественно общеупотребимые переводы слов и не сильны в предметной терминологии. Поэтому для узких переводческих задач их нужно настраивать дополнительно.

Настройка – залог идеального перевода

Настройка универсальной NMT-модели схожа с курсом повышения квалификации, когда человек, уже обладающий неким набором знаний, получает новые навыки. В процессе настройки модель осваивает узкую терминологию. Например, если перевод требуется IT-компании для перевода документации к программному обеспечению, то модель будет обучаться на текстах по теме «информационные технологии». Причем данные для настройки – обучающую выборку – чаще всего предоставляет заказчик, потому что только тогда настройка будет максимально эффективной, ведь именно в данных заказчика будет та самая узкоспециализированная лексика и стилевые особенности, которые должна выучить модель.

Обучающая выборка должна соответствовать ряду критериев. Во-первых, данные должны быть посвящены одной тематике и выдержаны в едином стиле. Во-вторых, для качественной настройки данные должны быть структурированы по парам предложений (одно предложение на языке оригинала, второе – на языке перевода). В-третьих, требуются сотни тысяч примеров с контекстами, где встречаются слова и фразы, которые модель NMT должна запомнить.

Нейросетевой машинный перевод в продуктах PROMT

Компания PROMT создала уникальную гибридную технологию – PROMT Neural. В ее основу лег классический подход на основе правил (RBMT) и новый нейросетевой подход (NMT). Сочетание этих подходов позволило, с одной стороны, избавиться от «машинного акцента», присущего RBMT, а с другой – исключить непредсказуемость нейронных сетей.

Технология PROMT Neural использовалась при разработке флагманских решений компании: клиент-серверного решения PROMT Neural Translation Server и десктопной корпоративной программы PROMT Professional Neural.

Нейросетевые продукты PROMT отличает гибкость настройки – они обучаются на данных, предоставлемых заказчиком. И чем больше данных предоставит заказчик, тем выше будет качество перевода. Специалисты PROMT провели немало экспериментов, и пришли к выводу, что значимый прирост в качестве перевода начинается при обучении модели на 100 000 предложений и их переводов. Ознакомиться с результатами этих экспериментов более подробно вы можете здесь.

Параллельные данные для обучающей выборки

Нейронные сети обучаются на корпусах, состоящих из пар предложений – параллельных данных. Идеальный материал для настройки – база памяти переводов (Translation Memory) в формате tmx. Если у компании-заказчика есть отдел переводов, то, как правило, у них есть корпоративные базы памяти перевода, которые создаются в рамках CAT-систем. Эти системы позволяют создавать базы памяти переводов и пополнять их переводами, выполненными человеком. Преимущество данных, полученных через CAT-системы, заключается в том, что они уже выровнены по парам предложений и готовы для настройки модели NMT.

Если же у заказчика нет возможности предоставить данные в формате tmx, он может предоставить тексты на языке оригинала и языке перевода в MS Word. Однако в данном случае процесс обучения будет состоять из еще одного этапа – выравнивания данных по предложениям. Это отдельный технический процесс, которым занимаются специалисты PROMT. При выравнивании данных часть из них может быть отбракована, поэтому лучше если данных для выравнивания будет «с запасом».

Глоссарий – инструмент точной настройки

При работе с узкоспециализированными текстами очень важен точный перевод терминов. Настройка нейросетевой модели позволяет добиться потрясающих результатов, однако не исключает сбоев при переводе. Например, если заказчику нужно, чтобы слово account во всех текстах переводилось как «учетная запись», после настройки на параллельных данных система будет его переводить именно так в большинстве предложений, но в некоторых частях текста может допустить ошибку и перевести это слово как «аккаунт». Или в некоторых текстах обычные слова имеют специальные значения, и важно чтобы во всех контекстах было именно этот специальный перевод.

Для того, чтобы таких ошибок избежать, в продуктах PROMT есть дополнительный инструмент – глоссарий. Глоссарий – это пользовательский словарь, в который заказчик может вносить нужные ему термины и задавать им «правильный», то есть, нужный ему перевод. Примечательно, что пользователю не нужно думать о том, как это слово будет изменяться в контексте (склонение, спряжение, единственное или множественное число) – система PROMT выполнит эту работу автоматически.

В программах PROMT есть специальный интерфейс для создания пользовательского словаря на основе глоссария. Создать словарь можно в ручном режиме, когда пользователь вводит каждое слово или словосочетание и его перевод, или в атоматическом, когда пользователь предварительно создает текстовый файл, в котором указаны все нужные термины и переводы, а затем в интерфейсе PROMT подгружает файл. В результете в программе автоматически создается словарь на основе терминов из файла.

Откуда пользователь может взять информацию о переводе тех или иных терминов? Как правило, у профессиональных переводчиков, в отделах и бюро перевода есть свои глоссарии, которые ведутся в документах в формате xls или doc. Нужно учесть, что такие глоссарии не могут использоваться для настройки без предварительной подготовки. По нашему опыту мы знаем, что такой глоссарий содержит много неструктурированной или плохо структурированной информации: комментарии, примеры употребления, ссылки на полезные ресурсы, картинки и т.д. Даже если этого всего нет в глоссарии, то переводы из файла могут быть непригодны для создания пользовательского словаря в автоматическом режиме. Например, для одного слова может быть несколько переводов, они могут быть в неправильной форме (во множественном числе вместо единственного). Качество словаря, а потом и перевода, непосредственно зависит от качества данных, в том числе и качества глоссария как на лингвистическом уровне (адекватность подобранных терминов и их переводов), так и на техническом уровне (формат, структура, отсутствие лишней информации).

Настройка на глоссариях может быть полезной и в том случае, когда по какой-то тематике недостаточно параллельных данных. В этом случае простая и удобная настройка через глоссарий уже помогает добиться терминологической точности.

В чем секрет успеха?

Обращаясь к нейросетевым технологиям для решения переводческих задач, важно помнить, что секрет успеха кроется в настройке. Благодаря обучению нейросетевой модели на данных заказчика мы добиваемся фантастическго результата машинного перевода, который требует лишь минимального постредактирования.

Не стоит забывать и о качестве данных для настройки. Они должны быть четко структурированы по тематике, стилю, терминологии. При подготовке обучающей выборки и в формате tmx, и в формате doc следует максимально сократить число ошибок – как орфографических, так и стилистических. Ведь качество настройки напрямую зависит от количества обучающих сегментов, а ошибки могут привести к их «отбраковке». Если же такие сегменты не будут «отбракованы», то нейросетевая модель обучится на этих данных и будет допускать ошибки при переводе.

Выбирая продукты PROMT для решения бизнес-задач, вы выбираете гибкие возможности для настройки. В основе наших решений – технология, которая будет обучаться на ваших данных, что позволит добиться высокого качества машинного перевода именно вашего контента. Кроме того, вы всегда сможете управлять вашими переводами с помощью удобных пользовательских глоссариев.

Хотите попробовать возможности нейросетевого машинного перевода? Напишите нам на corporate@promt.ru.

Возврат к списку