Нейросетевой перевод: рутина - машине, творчество - человеку

25.10.2019
25.10.2019
Машинный перевод уже давно не фантастика, а вполне привычная технология, но с появлением нейронных сетей в ней произошла революция. Наша компания делится своим опытом применения нейросетевых технологий в лингвистике.

Перевод: от ручного труда к машинному

До наступления эры компьютеров слово "переводчик" ассоциировалось исключительно с человеком. Чтобы перевести книгу, документ, письмо или статью, людям приходилось обращаться к специалистам. Однако с появлением компьютеров начал развиваться и компьютерный перевод: сначала в интересах спецслужб, а затем - науки, бизнеса и всех, кому был доступен ПК.

В наши дни компьютерный перевод демонстрирует беспрецедентную скорость и столь же беспрецедентное качество. С помощью современных лингвистических решений можно получить связный, гладкий и абсолютно точный текст на другом языке, не требующий редактирования человеком, за считанные секунды. Эту возможность нам дает применение нейронных сетей.

Строили, строили... и, наконец, построили

Первые системы машинного перевода строились на подходе, который получил название "перевод на основе правил" или Rule-Based Machine Translation (RBMT). Этот подход моделировал деятельность человека, и система работала на основе лингвистической информации на исходном языке и языке перевода. Для создания системы на основе технологий RBMT требовались профессиональные лингвисты и программисты, а также достаточно много времени на разработку правил и двуязычных словарей. Такая система отличается предсказуемым результатом, но слишком ярким машинным акцентом в переводе. Преимущество системы в том, что в нее легко добавлять слова и словосочетания - благодаря тому, что основной инструмент настройки RBMT - это словарь.

В начале 2000 годов появился новый подход - статистический или Statistical Machine Translation (SMT). Он позволял создавать системы перевода значительно быстрее и дешевле и часто добиваться более гладкого перевода, чем с помощью RBMT. В основе SMT - двуязычные корпуса параллельных текстов и статистические модели, которые, опираясь на параллельные тексты, "вычисляют" наиболее вероятный перевод для произвольного предложения. В отличие от RBMT, этот подход не требует правил в явном виде - система учится в процессе анализа двуязычных корпусов. Но сложность в том, что для обучения системы необходимы значительные объемы данных: желательно несколько миллионов предложений на языке оригинала и языке перевода. Помимо того, что система требовательна к данным, она еще и выдает не всегда предсказуемый результат: в переводе нередко отсутствует согласование между словами. Это весьма критично для перевода на такие языки, как русский или немецкий. К 2010 году разработчики считали, что SMT достиг своего предела - проблемы существовали, а решений для них не просматривалось.

Хотя ученые занимаются разработкой нейросетей уже более 70 лет, в 2007 году возник первый переломный момент: в Университете Торонто создали алгоритмы глубокого обучения многослойных нейронных сетей. В 2012 году произошло второе значимое событие, когда исследователи из того же университета применили глубинные нейронные сети и выиграли в конкурсе ImageNet, научившись распознавать объекты на фото и видео с минимумом ошибок. После этого начался бум нейронных сетей, и они добрались и до машинного перевода. В конце 2016 года сразу несколько разработчиков продемонстрировало новые технологии и первые системы машинного перевода, построенные на нейросетях. Всего через 2 года, на Международном Семинаре по машинному переводу (WMT), организованном Ассоциацией компьютерной лингвистики (ACL), на основе нейронных сетей работало уже большинство представленных систем машинного перевода. Кстати, на этот семинар съезжаются разработчики технологий машинного перевода со всего мира.

В основе нейронного переводчика - механизм двунаправленных рекуррентных нейронных сетей. Он построен на матричных вычислениях и позволяет создавать более сложные вероятностные модели, чем статистические машинные переводчики. Как и SMT, нейросетевой перевод (NMT) обучается на основе двуязычных корпусов. Однако отличие в том, что в процессе обучения NMT оперирует не отдельными фразами, а целыми предложениями. Результат получается более гладким, все слова в предложении согласованы между собой и стоят в правильном порядке.

Еще одна особенность технологии, помимо необходимости подготовки больших объемов данных для обучения, заключается в том, что для тренировки системы требуется существенно больше вычислительных мощностей. Для ускорения процесса разработчики используют видеокарты - GPU (graphics processing unit) от NVIDIA. Эти видеокарты изначально оптимизированы под алгоритмы матричных вычислений и дают выигрыш в производительности в несколько раз.

Однако игра стоит свеч - новый подход позволяет получить результат машинного перевода, сопоставимый с переводом, выполненным человеком. Это подтверждают последние результаты WMT. В рамках этого мероприятия разработчики сначала тренируют свои системы на предоставленных двуязычных корпусах, а затем с помощью статистических метрик и экспертов-носителей языка оценивают результаты машинного перевода на уровне предложений. Кстати, наша компания - единственная российская компания, которая представляет свое натренированное решение для оценки качества перевода. PROMT принимает участие в семинаре с 2013 года и регулярно удостаивается высших оценок экспертов за перевод с английского на русский и с английского на немецкий.

В этом году участники семинара говорили о том, что метрики оценки нужно менять, потому что рост качества нейронного перевода превзошел все ожидания. И другой важный момент: специалисты отметили, что оценки качества на уровне сравнения предложений уже недостаточно - нужно переходить на сравнение документов.

Возникает разумный вопрос - неужели новая технология никогда не делает ошибок? У всех предыдущих подходов существовали как преимущества, так и недостатки. Неужели в этот раз нет никаких "но"? Надо признаться, что они все-таки есть. Они кроются в данных и в том, как ведет себя система, если данных для тренировки очень мало. Нейронная сеть должна быть обучена на больших, и, главное, релевантных данных, то есть, она должна предварительно "увидеть" то, что ей придется потом переводить: клинические испытания медицинского препарата или проектную документацию по строительству, модернизации или реконструкции очистных сооружений. Это можно сравнить с человеком: если кто-то разбирается в первом, совсем не обязательно, что и по второму вопросу он специалист. Иначе нейронная сеть, даже будучи обученной на достаточно больших объемах данных, может допускать трудно диагностируемые ошибки при работе с текстами, которые не попали в обучающую выборку. Другими словами, не зная ответа, сеть его "придумает", что, например, актуально при обработке имен собственных (персоналий, топонимов) и вообще редких слов. Или в ее тексте будут проскальзывать "кальки" с другого языка. Это похоже на речь иностранца, который хорошо владеет, например, русским языком - и словарный запас отличный, и в падежных формах не ошибается, но иногда проскальзывает "я беру душ" или "я беру такси".

PROMT Neural - новое слово в ИИ

Для того, чтобы машинный перевод мог применяться для конкретных бизнес-задач - перевода отраслевой документации, деловой переписки, пользовательского контента - необходимо сочетание технологии, продукта и релевантных данных.

Все это есть у нашей компании: гибридная технология на основе нейронных сетей PROMT Neural, надежный продукт PROMT Neural Translation Server, а также инструменты для обучения движков перевода на материалах заказчика, релевантных тем текстам и документам, которые заказчик планирует переводить. С помощью этих составляющих можно получить результат с невероятным качеством: многие не поверят, что перевод делала машина.

Технология

PROMT Neural - это новая гибридная технология, которая объединяет нейросетевой подход и "перевод на основе правил" (RBMT). Алгоритмы PROMT Neural предварительно анализируют текст и решают, какая технология лучше подходит для перевода того или иного фрагмента текста.

Плюсы PROMT RBMT - высокая надежность, грамотная работа с именами собственными, быстрая настройка с помощью словарей. Эта технология используется для перевода коротких предложений - заголовков, названий пунктов, наименований в шапке таблиц. Кроме того, PROMT RBMT "проверяет" фактическую точность при переводе текстов, на которые система не была предварительно натренирована. Если проверка выявит такую неточность, то перевод будет осуществляться с помощью RBMT-технологии. Во всех остальных случаях работает перевод на основе нейронных сетей.

Продукт

Специально для работы с нейронными сетями наши разработчики создали принципиально новое решение - PROMT Neural Translation Server. Его уникальная особенность - это гарантия безопасности переводимых данных и надежность в сочетании с высоким качеством перевода на основе гибридной технологии.

Большинство нейросетевых переводчиков работает в облаке. Причина очевидна - для нейронного перевода требуются немалые вычислительные мощности. Кроме того, разработчики облачных решений предлагают пользователю перевод в обмен на его данные. Это значит, что информация, которую пользователь переводит с помощью облачных сервисов, может попасть в открытый доступ. Пользователи, в свою очередь, соглашаются с этим: одни сознательно, другие - потому что невнимательно читали условия пользовательского соглашения. Для некоторых бизнес-задач конфиденциальность некритична, однако для многих корпоративных заказчиков это абсолютно исключено, ведь данные компаний - это интеллектуальная собственность, которая охраняется не менее тщательно, чем материальная.

PROMT Neural Translation Server - одно из немногих нейросетевых решений, которое работает не в облаке, а интегрируется в корпоративную сеть заказчика. Переводчик не требует подключения к интернету, и вероятность утечек данных исключена.

Еще одна важная особенность продукта - возможность работы на разных операционных системах. Это выгодно отличает его от зарубежных аналогов, которые оптимизированы только под Linux. Наше новое решение может работать как на Linux, так и на Windows без потери в качестве и скорости перевода.

Данные

Качество перевода, прежде всего, зависит от данных. PROMT Neural Translation Server работает на основе универсальной модели, которая  только для англо-русского переводчика натренирована на более чем 100 млн параллельных сегментов. Также в ее основу легли и отраслевые модели с узкоспециализированной терминологией.

Последние эксперименты и уже работающие системы перевода на основе нейронных сетей только подтверждают это: машинный перевод становится все лучше и лучше. Но, как заметили специалисты по машинному обучению, "побеждает не тот, у кого алгоритмы лучше, а тот, у кого больше данных"., поэтому качество и количество контента, по-прежнему, один из самых важных компонентов любой успешной системы перевода.

Один из секретов качества нейронного перевода PROMT - это возможность подготовки данных заказчика для быстрой настройки и интеграции в PROMT Neural Translation Server. Если вы хотите видеть в переводе привычные термины, сообщите системе об этом. Она запомнит их и будет переводить именно так, как нужно вам.

С точки зрения количества данных, базовый принцип: чем больше, тем лучше, но наши специалисты заявляют, что даже на основе образцов текстов и глоссариев они смогут создать релевантные данные и обучить систему.

Нейронный перевод - помощник человека

Качество нейросетевого перевода достигло такого уровня, что применение технологий еще плотнее войдет в жизнь каждого современного специалиста и даже отразится на профессии переводчика. Благодаря скорости, качеству и гарантии конфиденциальности машинный перевод будут использовать во всех отраслях, в том числе - в бизнесе и науке, а профессиональные переводчики все чаще будут заниматься постредактированием и готовить данные для обучения систем машинного перевода.

Конечно, в ближайшем будущем восстание машин не произойдет, и компьютер не сможет полностью заменить человека в переводческой деятельности. Однако машинный перевод войдет в инструментарий профессионалов и станет важнейшим помощником, который ускорит и упростит их работу. Рутина - машине, творчество - человеку.

Возврат к списку