Машинный перевод на пятёрку

24.04.2019
24.04.2019

Машинный перевод сегодня активно используется не только при решении личных задач, но и в бизнесе: для перевода документов, общения с деловыми партнерами, локализации интернет-магазина для пользователей из других стран. Он упрощает рабочие задачи, экономит время и просто позволяет быстро понять смысл текста на любом языке. Однако технологиями машинного перевода нужно пользоваться правильно, чтобы получить хороший, точный и качественный результат. В этой статье мы расскажем о важных факторах, которые влияют на качество машинного перевода.

Исходный текст

Прежде всего, стоит посмотреть на текст или документ, который нужно перевести - насколько грамотно он написан, нет ли в нем орфографических ошибок, соответствует ли он языковым нормам и правилам, написан ли он носителем языка.

Если в тексте допущены грамматические ошибки, опечатки, нет знаков препинания, то это повлияет на качество перевода. Поэтому желательно проверить текст через спеллчекер перед переводом или внимательно прочитать его и исправить ошибки.

Особенно это актуально при переводе user-generated content (UGC), который стал особо распространенным типом текста в XXI веке. UGC – это комментарии, отзывы, авторские посты, заметки и другие тексты, написанные интернет-пользователями. В таких текстах зачастую допускаются орфографические ошибки, опечатки, используется сленг.

Качество перевода зависит и от стиля исходного текста. Художественную литературу с помощью «машины» хорошо перевести невозможно – как правило, литературные произведения насыщены средствами выразительности и другими авторскими приемами: их перевод требует творческого подхода, который под силу только человеку. Зато тексты, написанные в научном, научно-деловом или официально-деловом стиле, более формальны, пишутся в едином стиле и ограничены в выборе средств, поэтому больше подходят для машинного перевода.

Нужно обратить внимание на форматирование, особенно это актуально для PDF-документов или текстов, скопированных через буфер обмена. В некоторых PDF-документах встречаются «разрывы строк». Это приводит к тому, что предложение разбивается на несколько не связанных друг с другом частей. Важно убедиться, что в тексте нет таких разрывов, иначе они могут негативно отразиться на переводе.

Перед переводом сканированных PDF или графических файлов нужно убедиться в качестве распознавания текста. Дело в том, что, если результат распознавания невысок, и в тексте присутствуют нераспознанные слова, предложения с разрывами или другие проблемы с форматом, то и качество перевода будет невысоким. Поэтому распознанный документ нужно предварительно отредактировать и только потом переводить с помощью компьютера.

Адаптация и настройка

Машинный перевод бывает разным. В случае с онлайн-переводчиками и мобильными приложениями мы имеем дело с так называемым out-of-box translation, который не позволяет нам повлиять на качество перевода. Такого «базового» качества вполне достаточно для общего понимания смысла при переводе письма, новости, короткой заметки или, например, текста из учебника. При решении бизнес-задач требования к качеству гораздо выше, ведь нужен точный перевод терминологии, сохранение форматирования и соблюдение общего стиля.

Для получения максимально точного перевода нужно использовать специализированные решения с возможностью настройки, которые позволяют:

·        влиять на перевод отдельных терминов, аббревиатур, имен собственных, заголовков,

·        оперативно добавлять в решения терминологию из глоссариев,

·        управлять стилем перевода (например, определять предпочтения по использованию при переводе тех или иных синтаксических конструкций, применять особенные правила для формата чисел и дат и т.д.),

·        делать предварительную проверку и предобработку текстов, написанных, например, только маленькими или заглавными буквами, разбитых на отдельные строки без привязки к абзацам, содержащих ссылки или метаданные.

Gisting и перевод для публикации

Машинный перевод можно использовать и для общего понимания смысла текста (gisting, от английского gist - суть), и для подготовки текстов с последующей публикацией. С помощью машинного перевода локализуют документацию к программному обеспечению, переводят контент интернет-магазинов, информационных ресурсов, СМИ. Конечно, перед публикацией полученный результат перевода нужно отредактировать: проверить терминологию, сохранение имен собственных, поправить стилистику текста и исправить любые ошибки, которые может сделать «машина».

Многие клиенты PROMT – международные компании, которым приходится работать с документами на разных языках. Они успешно применяют машинный перевод с постредактированием для локализации документации и сайтов. Для того, чтобы наши заказчики получили максимально высокое качество перевода, мы используем средства настройки. Они отличаются в зависимости от используемой технологии перевода: при аналитическом машинном переводе это словари и правила перевода для определенного стиля, а при статистическом и нейросетевом машинном переводе – корпуса параллельных текстов.

Секреты идеального перевода

Итак, с помощью машинного перевода действительно можно получить перевод «на пятерку». Для этого нужно:

·        понимать, с какой целью переводится текст,

·        учитывать лингвистические и форматные особенности текста,

·        обучать систему перевода на правильных данных.

Мысль о том, что «машина» научится переводить тексты как человек, пока остается фантастикой. Однако получение хорошего, качественного машинного перевода – вполне реальная возможность, которая позволит повысить эффективность работы и сэкономить финансовые и временные ресурсы на подготовку перевода.

Если вы частный пользователь, которому приходится работать с текстами на иностранных языках – переводить статьи, новости или документы, например, инструкции, договоры или спецификации, попробуйте десктопный переводчик PROMT MASTER. С его помощью вы с легкостью справитесь с любой задачей по переводу и сможете переводить тексты на лету прямо в браузере или нужном вам приложении, локализовать иностранные документы с сохранением форматирования и даже подтянуть язык.

Для корпоративных пользователей, которым нужна мощная, быстрая и надежная программа по переводу, мы разработали клиент-серверное решение PROMT Translation Server. Оно позволяет эффективно работать с большим объемом иностранной документации – с его помощью можно переводить документы в любом формате, в том числе, сканированные PDF. Важная особенность PROMT Translation Server – гарантия конфиденциальности переводимой информации. Решение встраивается в корпоративную сеть заказчика и не требует подключения к интернету.

Также компания PROMT разрабатывает специальные решения для профессиональных переводчиков, интеграции в мобильные разработки, анализа Больших Данных и интеграции на сайты и СЭД.

Возврат к списку