Workshop on Machine Translation – ключевая конференция по машинному переводу

09.12.2020
09.12.2020

Workshop on Machine Translation (WMT) – крупнейшая конференция по машинному переводу, которая считается одним из самых известных мероприятий в области компьютерной лингвистики. WMT проводится каждый год в разных странах под эгидой Ассоциации компьютерной лингвистики (ACL) и объединяет специалистов со всего мира – в рамках мероприятия они обсуждают актуальные темы, обмениваются опытом и говорят о том, как меняется качество машинного перевода. Наша компания регулярно принимает участие в конференции с 2011 года.

Что нужно знать о WMT

Впервые конференцию провели еще в 2006 году под эгидой NAACL – североамериканского подразделения ACL. Тогда мероприятие носило название Workshop on Statistical Machine Translation, которое позднее поменяли на Workshop on Machine Translation (отсюда и аббревиатура WMT). Со временем оно превратилось в большую конференцию – Conference on Machine Translation (WMT).

К конференции участники готовятся заранее. Примерно за полгода до мероприятия организаторы размещают на сайте список практических заданий (shared tasks), связанных с машинным переводом. Разработчики систем машинного перевода выбирают любые из этих заданий и выполняют их в течение нескольких месяцев.

В 2020 году, например, среди предложенных заданий были: машинный перевод новостных текстов, перевод биомедицинских текстов, перевод обращений в службы техподдержки (chat translation task), автоматическое постредактирование, измерение качества машинного перевода и другие.

Перевод новостных текстов

Одно из самых популярных направлений – машинный перевод новостных текстов. Его главная цель – тренировка систем на релевантных параллельных данных и оценка качества перевода натренированных систем. Примерно за 4 месяца до конференции организаторы выкладывают наборы данных для тренировки (новостные тексты, тексты ООН, парламентские отчеты, стенограммы заседаний, статьи из Википедии на языке оригинала и перевода). На этих данных участники обучают свои системы машинного перевода. Также возможно использование собственных данных – правилами это не запрещается.

Затем, в определенный момент, организаторы публикуют тестовый корпус текстов для перевода – участники готовят автоматический перевод этого корпуса с помощью своей системы и размещают результат на сайте организаторов.

После этого эксперты, среди которых могут быть и участники конференции, и добровольцы, сравнивают и оценивают все переводы через веб-интерфейс специальной системы для оценки переводов – Amazon Mechanichal Turk. Оценка производится так: эксперт видит исходное предложение, несколько автоматических переводов и человеческий перевод исходного предложения. Задача состоит в том, чтобы ранжировать (разместить в порядке от лучшего к худшему) автоматические переводы. После этого организаторы обобщают результаты оценки по всем участникам, подводят итоги и публикуют их на своем сайте.

Языковые пары и их количество варьируются год от года, но обычно это перевод с английского на французский, испанский, немецкий и наоборот. Также ежегодно добавляются некоторые «редкие» языки – чешский, хинди. В 2013 году на WMT впервые был представлен русский язык, и сразу стал лидером по числу систем. Выбор языковых пар определяется, в первую очередь, наличием параллельных текстов, необходимых для тренировки систем машинного перевода.

Помощь в предоставлении данных для тренировки систем оказывают многие крупные компании и организации, такие как Microsoft, Токийский университет, Национальный исследовательский совет Канады, Евросоюз в рамках программы по исследованиям и инновациям Horizon 2020 и другие.

Участники

В конференции регулярно принимают участие научные лаборатории при университетах во всем мире, крупные компании, которые занимаются лингвистическими разработками – от IT-гигантов вроде Microsoft, Yandex и Facebook до известных компаний, специализирующихся на разработке коммерческих систем для машинного перевода – Systran, PROMT, Tilde.

Например, в 2011 году переводы с сервиса PROMT (online-translator.com) с английского на русский и немецкий были взяты для сравнения и получили самые высокие оценки за качество перевода. С 2013 года наша компания участвует не с переводами с онлайн-сервиса, а выполняет задания по переводу новостных текстов, тренируя систему на предложенных и собственных параллельных данных. Не раз за эти годы переводы PROMT с английского на русский получали самые высокие баллы.

результаты.png

Нейронный машинный перевод на WMT

С 2006 по 2015 год участники WMT представляли переводы, выполненные с помощью разных технологий – от RBMT (Rule-based Machine Translation) до статистических (SMT, Statistical Machine Translation). С 2016 года, когда в мире начался бум нейронных сетей, подавляющее большинство участников конференции постепенно стало переходить на технологии, основанные на машинном обучении – Neural Machine Translation (NMT). Сегодня на WMT сравниваются только NMT-переводы.

Нейросетевые технологии позволяют разработчикам добиваться более высокого качества перевода, чем переводы, полученные с помощью других технологий. Современный машинный перевод не имеет «машинного акцента» и больше похож на перевод, выполненный человеком. Как отмечают специалисты, год от года качество стремительно растет.

На WMT, прошедшем в 2019 году во Флоренции, участники пришли к выводу, что традиционный метод оценки качества машинного перевода – сравнение по предложениям – неактуален в новых условиях: эксперты в некоторых случаях оценивали машинный перевод выше, чем перевод, выполненный человеком. Это заставило экспертов задуматься о пересмотре системы оценки и о том, что нужно переходить к сравнению результатов перевода на уровне документа.

WMT 2020

В 2020 году конференция по машинному переводу WMT состоялась в ноябре – ее, как и большинство других масштабных мероприятий этого года, провели в онлайн-формате.

Компания PROMT приняла участие в мероприятии: мы познакомили участников WMT с последними разработками в рамках постерной сессии, а также поучаствовали в практической части. Перевод с английского на русский и с русского на английский традиционно получил высокие баллы, хороший результат показал и перевод с немецкого на английский и с английского на немецкий. Кроме того, в 2020 году наша компания впервые приняла участие в задании по переводу новостных текстов с польского на английский и с чешского на английский.

WMT – самое масштабное мероприятие по машинному переводу в мире. Конференция наглядно демонстрирует, как развиваются технологии перевода, насколько результат МП близок к профессиональному переводу, при каких условиях системы успешно обучаются на данных, какие возможности современные технологии дают разработчикам. Эти исследования и практические результаты открывают все больше сфер, где технологии могут заменить человека и обеспечить быстрый и качественный перевод контента любых объемов.

Возврат к списку