Машинный перевод
► Что такое машинный перевод?
Машинный перевод (МП, MT, Machine Translation) – перевод текстов с одного естественного языка на другой специальной компьютерной программой .
► Зачем нужен машинный перевод?
Программы-переводчики оказываются просто незаменимыми, когда возникает необходимость:
- быстро понять общий смысл текста,
- быстро проанализировать многоязычную информацию из интернета,
- оптимизировать перевод большого объема текстов по одной тематике (процесс разбивается на два этапа: машинный перевод и постредактирование человеком),
- сделать информацию на сайте понятной иностранным пользователям, встроив функцию перевода на сайт,
- быстро вести переписку с иностранными партнерами, а также свободно общаться в социальных сетях и на форумах,
- извлечь информацию из большого объема текстов, опираясь на лингвистические характеристики слов. Например, выяснить, сколько раз в тексте встречаются имена собственные, какие это имена и какие действия связаны с этими именами.
► Какие бывают системы машинного перевода?
Rule - based Machine Translation (RBMT, Машинный перевод, основанный на правилах)
Эта технология основана на словарной информации и анализе грамматических правил конкретных языков. Такие системы строятся на основе лингвистического описания двух естественных языков (двуязычных словарей и других баз данных, содержащих морфологическую, грамматическую и семантическую информацию), формальных грамматик и собственно алгоритмов перевода. Качество перевода зависит от объемов лингвистических баз данных (словарей) и глубины описания естественных языков, т. е., необходим учет максимального количества особенностей грамматической структуры как входного, так и выходного языка.
Существует два типа rule - based систем:
- системы по типу Transfer – предполагают морфологический, синтаксический и семантический анализ текста на языке входа; преобразование в структуру выходного языка (TRANSFER); синтез текста на выходном языке,
- системы по типу Interlingua – предполагают анализ входного текста в терминах метаязыка и синтез метаструктуры текста на выходном языке.
Преимущества RBMT -систем:
- Синтаксическая и морфологическая точность,
- Стабильность и предсказуемость результата,
- Возможность настройки на предметную область.
- Трудоемкость и длительность разработки,
- Необходимость поддерживать и актуализировать лингвистические базы данных.
Statistical Machine Translation (SMT, Статистический машинный перевод)
Эта технология основана на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. Такие системы перевода строятся на основе сравнения больших объемов корпусов параллельных текстов. Корпус параллельных текстов — это тексты, содержащие предложения на одном языке и соответствующие им предложения на втором. C татистический машинный перевод обладает свойством «самообучения»: чем больше в распоряжении имеется параллельных корпусов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
Преимущества SMT -систем:
- Гладкость перевода,
- Легкость в построении при достаточном количестве параллельных корпусов,
- Переносимость технологии на любые языковые пары.
Недостатки SMT:
- Ограниченность параллельных корпусов в природе,
- Неумение справляться с морфологией и синтаксисом,
- Искажение информации (дублирование, пропуск, подмена информации).
Компании-производители систем статистического машинного перевода: PROMT, Google, SDL Language Weaver, Microsoft, Asia Online, IBM.
Hybrid Machine Translation (HMT, Гибридный машинный перевод)
В связи с тем, что технологии SMT и RBMT имеют свои недостатки и сложности, а также достигли определенного предела в своем развитии, разработчики решений по МП рассчитывают на технологический прорыв за счет создания гибридной технологии перевода. Эта технология основана на совмещении методов RBMT и SMT . Такой подход позволяет взять сильные стороны обеих технологий (грамматическую точность при переводе от RBMT и гладкость перевода от SMT).
Компании-производители систем машинного перевода на основе гибридной технологии: PROMT, Systran.
Помимо систем машинного перевода, существуют программы, принцип работы которых основан на технологии Translation Memory.
Translation Memory (TM, Память переводов)
Translation Memory – это двуязычные базы часто встречающихся предложений. В основе технологии лежит принцип «не переводить один и тот же текст дважды».
Технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. В общем массиве текста система находит сегменты, которые уже были однажды переведены, и берет перевод из базы переводов Translation Memory.
Компании-производители систем TM: PROMT, SDL Trados, Atril (системы Déjà Vu), OmegaT.
Для перевода больших объемов типовой документации принято использовать технологии TM и МТ вместе, так как каждая из них решает разные подзадачи в рамках общей задачи: базы TM обеспечивают извлечение и подстановку переведенного ранее контента, а с помощью MT производится перевод нового контента.
Решение |
Сильные стороны |
Слабые стороны |
|---|---|---|
Translation Memory |
1. Повторное использование ранее сделанных переводов. 2. Постредактирование требуется в минимальном объеме.
|
1. Требуется предварительное наполнение баз. 2. Повторное использование зависит от похожести переводимого контента и баз ТМ; перевод нового контента невозможен. |
Машинный перевод |
1. Может использоваться на новом контенте. 2. Высокая скорость. |
1. Для высокой эффективности (малый объем постредактирования) требуется предварительная настройка. 2. Качество перевода и настройка зависит от качества исходного текста. |
TM + MT |
Высокая скорость при переводе любого контента с минимальным объемом постредактирования. |
|
+7 (812) 611-0050
info@promt.ru
Сотрудничество
Стань партнером PROMT
Мы стремимся к взаимовыгодному сотрудничеству с новыми партнерами и всегда заинтересованы в новых интересных проектах. Приглашаем вас стать нашим партнером.
Подробнее