На «Диалоге» объяснили, как PROMT переводит UGC

14.06.2013

Специалисты PROMT Александр Молчанов и Леонид Евдокимов приняли участие в 19-й Международной конференции по компьютерной лингвистике «Диалог 2013», проходившей в конце мая в Подмосковье.

В этом году главными темами конференции были актуальные проблемы машинного перевода, а также лингвистический анализ social media. Наших коллег больше интересовал первый вопрос, хотя выбранная ими тема была близка и к контенту социальных сетей. Как известно, обработка сообщений социальных медиа представляет ряд сложностей, с одной стороны, из-за большого объема текстов, с другой стороны – из-за таких языковых особенностей, как неформальный стиль изложения, грамматические ошибки и опечатки.

Специалисты PROMT столкнулись с аналогичной проблемой. В кейсе, который представили Александр Молчанов и Леонид Евдокимов, говорилось о принципах разработки системы перевода пользовательского контента (User-Generated Content, UGC) на примере крупнейшего туристического сервиса TripAdvisor.

Автоматический перевод такого контента – сложная задача, так как UGC содержит большое количество разговорных выражений, эмоциональных фраз, опечаток и т. п. Решить такую задачу помогает технология PROMT DeepHybrid, позволяющая тренировать систему перевода на корпусе подходящих по содержанию текстов. Более подробно о проекте можно узнать из презентации к докладу.

Кроме того, в ходе конференции были обнародованы результаты оценки машинного перевода для конкурса РОМИП 2013. Перевод Translate.Ru получил высокие оценки в конкурсе, а по ряду параметров занял первое место.


Возврат к списку