Автоопределение языка

Автоопределение языка
Автоопределение языка – очень важная технология, которая позволяет по нескольким словам определить язык, на котором они написаны. Эта технология часто применяется в программах машинного перевода: мобильных приложениях, онлайн-сервисах, десктопных, серверных и облачных переводчиках. Функция автоопределения языка очень удобна, в особенности, когда пользователь не знает, на каком языке напечатан текст, или переводит сразу с нескольких иностранных языков: программа выбирает язык самостоятельно, и не нужно переключаться вручную.

Сложности с автоматическим определением языка
Автоматическое определение языка реализуется через словарные базы данных, то есть, текст разбивается на отдельные слова, которые, в свою очередь, сравниваются с базой данных. Затем программа подсчитывает количество совпадений и выводит наиболее вероятный язык.

Программа без труда определит язык для большого текста. Однако чем короче текст, тем эта задача становится сложнее, особенно, когда речь идет о родственных языках (немецкий-голландский, русский-украинский-белорусский, французский-итальянский-испанский). Сложности могут возникнуть и в том случае, когда текст написан с ошибками или использованием диалектизмов.

Кроме того автоопределение языка может «ошибаться», когда в тексте встречаются слова, заимствованные из других языков. Например, слово chiao встречается не только в итальянском, но и в других языках, поэтому система автоматического определения может ошибочно отнести его не к итальянскому, а к английскому или французскому языку.

К непростым задачам для автоматического определения можно отнести и тексты, где встречаются вставки на других языках. Это могут быть интервью с зарубежными собеседниками, цитирования, тексты с эпиграфами. Если эти вставки достаточно объемны, то программа может отнести весь текст к тому языку, на котором они написаны.

Переводчик с автоопределением языка
Большинство современных переводчиков определяют язык оригинала автоматически. Такая функция есть во всех продуктах PROMT: сервисе перевода и мобильном приложении PROMT.One для iOS и Android, десктопных переводчиках для Windows и MacOS, корпоративных продуктах на базе PROMT Translation Server. Опция «Определить язык» есть во всех этих продуктах по умолчанию.

Автоопределение языка включено и в API переводчика, поэтому технологии перевода PROMT могут успешно интегрироваться для перевода текстовых потоков на разных языках, сообщений мессенджеров, запросов в службу поддержки и другого мультиязычного контента.