История машинного перевода: от гипотез Лейбница и Декарта – до мобильных приложений и облачных сервисов

21.03.2019
21.03.2019

Технологии машинного перевода плотно вошли в жизнь современного человека. Еще 50 лет назад, чтобы прочесть иностранную статью или перевести полученное из-за рубежа письмо, люди долго и скрупулёзно листали словари или обращались к профессиональным переводчикам. Сегодня же, чтобы постигнуть «тайный» смысл текста на иностранном языке, достаточно воспользоваться онлайн-переводчиком или мобильным приложением.

За доступностью, простотой и удобством компьютерных переводчиков стоит колоссальный труд ученых, математиков, инженеров, лингвистов. В этой статье мы расскажем, как зарождались и развивались технологии машинного перевода с XVII века до наших дней.

Предыстория: XVII век

Испокон веков люди задумывались о том, как разрушить языковой барьер – создать единый язык для всех людей, найти возможность изучить все существующие языки или же разработать такую технологию, которая позволит понимать иностранные языки, не тратя время и силы на их изучение. Первые идеи зародились еще в XVII веке, когда Рене Декарт и Готфрид Лейбниц независимо друг от друга предлагали создать универсальный язык как новую основу для логического мышления, а также для устранения взаимного недопонимания, которое происходит из-за нелогичности языков.

В 1668 году британский священник Джон Уилкинс выпустил трактат «Опыт о подлинной символике и философском языке», где представил свой подход к созданию универсального языка учёных и философов, который мог бы прийти на смену латыни. Однако его предложение не встретило одобрения среди лингвистов.

Много позже, в XIX-XX веке, ученые вернулись к разработке единого международного языка, вследствие чего было создано Эсперанто. Однако до первых попыток создания машинного перевода еще оставалось несколько десятилетий.

1930-е: система Троянского – первый шаг к машинному переводу

В 30-е годы XX века ученые заговорили о разработке технологий машинного перевода. Французский ученый армянского происхождения Жорж Арцруни создал двуязычный автоматический словарь на перфоленте, а советский инженер Петр Троянский изобрел «машину для подбора и печатания слов при переводе с одного языка на другой».

Изобретение Троянского представляло собой стол с наклонной поверхностью и фотокамерой, совмещенной с печатной машинкой. Клавиши машинки позволяли кодировать морфологическую и грамматическую информацию, а ее лента подавалась синхронно с фотопленкой. На поверхности устройства была установлена подвижная пластина с напечатанными словами, называемая глоссарным полем. Слова на глоссарном поле сопровождались переводами как минимум на три языка и располагались, подобно буквам на клавиатуре: наиболее часто используемые – ближе к центру поля. Идеи Петра Троянского долгое время оставались неизвестными даже ученым. Вновь открыты они были только в 1950-е.

1949 год: первые наработки МП на базе компьютера

Концепция машинного перевода была сформулирована только в конце 1940-х годов – ее автором выступил криптограф Уоррен Уивер, директор отделения естественных наук Рокфеллерского фонда. В своем письме к коллеге Норберту Винеру он предложил рассматривать задачу перевода с одного языка на другой как новую область применения технологий декодирования. Стоит лишь представить, что исходный текст написан на родном языке, но закодирован с помощью специальных знаков, и, чтобы понять смысл заложенной в тексте информации, достаточно взломать этот код.

Письмо Уивера вызвало большой резонанс, и в 1949-м году криптограф опубликовал меморандум, в котором обосновал возможность реализации технологии машинного перевода, основанной на декодировании. Этот документ стал важной вехой в развитии машинного перевода. В нем ученый описал концепцию interlingva, при которой процесс передачи информации осуществляется в два этапа:

- исходное предложение переводится на упрощенный вариант английского (язык-посредник);

- результат преобразуется в предложение на искомом языке.

1950-1960-е: Джорджтаунский эксперимент и отчет ALPAC

Важным событием в развитии МП стал Джорджтаунский эксперимент, который провели 7 января 1954 года в Нью-Йорке, в штаб-квартире корпорации IBM. В рамках этого эксперимента компьютер IBM 701 впервые в мире перевел 60 предложений с русского на английский язык.

В пресс-релизе корпорации отмечалось, что девушка, не знающая русский язык, набрала русские сообщения на перфокартах, а машинный мозг «с бешеной скоростью в две с половиной строки в секунду» выдал их перевод на английский. Это сообщение общество встретило ликованием: газеты пестрили громкими заголовками, а американские власти выразили готовность финансировать дальнейшие исследования и разработки в области машинного перевода.

Эксперимент IBM дал мощный толчок развитию технологий машинного перевода, однако все проекты оказались чересчур сложными, дорогостоящими и в конечном итоге вызывающими неоднозначную оценку. В 1964 году группа ученых, входивших в образованный Пентагоном и Национальным научным фондом США Консультативный комитет по автоматической языковой обработке (Automatic Language Processing Advisory Committee, ALPAC), провела оценку технологий машинного перевода и двумя годами позже, по сути, уничтожила это направление исследований печально известным отчетом. В результате его публикации финансирование исследований в области машинного перевода в США прекратилось примерно на двадцать лет. Возможно, еще более серьезным последствием стало то, что широкая публика и научное сообщество начали воспринимать машинный перевод как нечто нереализуемое.

Первые коммерческие разработки систем перевода

В 1968-м году в Сан-Диего бывший специалист Джорджтаунского университета Питер Тома открыл первую в мире компанию, специализирующуюся на разработке программ для машинного перевода – Systran. Главной целью компании стала разработка технологий, позволяющих ускорить перевод текстов (письменных, устных) с одного естественного языка на другой – в особенности, с русского на английский.

При разработке первых переводчиков специалисты Systran использовали Rule-based Machine Translation (МП на основе правил) – подход, предполагающий работу системы МП на основе лингвистической информации об исходном языке и языке перевода. Этот подход к МП считается классическим, позднее в мире появятся и другие компании-разработчики, которые будут использовать схожий подход к решению задач перевода текста компьютером.

Первые переводчики Systran оказались очень востребованными на рынке – их приобретение стало обязательным почти для каждой международной компании.

МП в СССР

В Советском Союзе большое внимание технологиям МП начали уделять в 1950-х годах – после Джорджтаунского эксперимента. В 1955-м году в Академии Наук СССР создали две исследовательские группы: одну, при Математическом Институте имени В.А. Стеклова, возглавил выдающийся советский математик, основоположник кибернетики Алексей Ляпунов, а вторую, при Институте точной механики и вычислительной техники, математик Дмитрий Панов.

Свои исследования группы специалистов начали с детального изучения Джорджтаунского эксперимента, а уже год спустя опубликовали результаты первых экспериментов в СССР, проведенных на компьютере БЭСМ.

Еще через год в Институте точной механики и вычислительной техники представили первый советский компьютерный переводчик, включавший словарь из 2300 слов. В это же время, в Институте прикладной математики, аспирантка Ольга Кулагина и студент филологического факультета МГУ Игорь Мельчук, под руководством Алексея Ляпунова, работали над созданием еще одного переводчика.

В конце 1956 года заведующий кафедрой перевода Московского государственного педагогического института иностранных языков Виктор Розенцвейг основал Объединение по машинному переводу – неформальный центр общения лингвистов и математиков. В 1957 году ученые, входившие в это Объединение, начали выпускать бюллетень «Машинный перевод и прикладная лингвистика».

В мае 1958 года Розенцвейг организовал в Москве первую советскую конференцию по машинному переводу, в которой приняли участие 340 специалистов из 79 организаций. На мероприятии ученые рассмотрели актуальные на тот момент проблемы, связанные с МП, в том числе – алгоритмы перевода. По итогам конференции Министерство высшего образования СССР издало приказ «О развитии научных исследований в области машинного перевода».

В 1972 году специалисты института «Информэлектро» при Министерстве электромеханической промышленности СССР под руководством Юрия Апресяна приступили к разработке системы машинного перевода – ЭТАП (Электротехнический автоматический перевод), в основу которой легла формальная модель языка «Смысл-Текст».

В 1971-м году в Ленинграде, при ЛГПИ им. Герцена (ныне – РГПУ им. Герцена), по инициативе профессора Раймонда Пиотровского, была создана Научно-исследовательская лаборатория инженерной лингвистики. Специалисты лаборатории также активно занимались разработкой технологий для автоматической обработки текста. В 1991-м году, бывшие сотрудники лаборатории под руководством Светланы Соколовой основали компанию PROMT.

1990-е – начало 2000-х: развитие компании PROMT на международном рынке

В год основания компании специалисты выпустили первую в стране коммерческую систему машинного перевода, получившую название PROMT (аббревиатура «PROject Machine Translation) для MS DOS. Отличительной чертой этой системы стала возможность переводить тексты со специализированной лексикой – по компьютерной тематике.

В 1992 году компания PROMT выиграла тендер NASA на поставку систем машинного перевода с английского на русский. Эта сделка положила начало и дальнейшему сотрудничеству с космическим агентством: 13 лет спустя переводчики PROMT с комплектом специализированных словарей взяли на МКС. ПО устанавливалось на карманные и персональные компьютеры астронавтов.

В период с 1993 по 1997 год специалисты PROMT представили первую англо-русскую систему перевода для OC Windows, разработали системы перевода с немецкого, французского, итальянского, заключили соглашение с французской компанией Softissimo на разработку систем для перевода с немецкого на французский. В 1998 году Федеральное агентство по информационным технологиям и оргкомитет выставки Softtool вручили PROMT национальную награду «За вклад в развитие информационных технологий России». В том же году компания выпустила известный многим мультимедийный переводчик Magic Gooddy с анимированным персонажем – гусем Гудди, который знал русский и английский языки и понимал некоторые команды. Переводчик, задуманный для детей, на многие годы стал любимым брендом не только школьников, но и взрослых людей. 1998 год ознаменовался еще одним масштабным проектом для компании – запуском первого онлайн-переводчика рунета Translate.Ru.

В 2000 году компания PROMT предоставила системы машинного перевода для одного из наиболее крупных проектов по нормализации международных стандартов ISO и российских стандартов ГОСТ. Этот проект реализовывался американским подрядчиком Global Management and Consulting Services по заказу Госстандарта России и финансировался Всемирным банком.

2001-2007 годы стали для PROMT периодом новых разработок и внедрений. Совместно с бельгийской компанией Image Recognition Integrated Systems (I.R.I.S.) компания выпустила уникальную ручку-сканер, сочетающую ПО для машинного перевода и ПО по распознаванию текста. В 2006 году PROMT получил заказ на разработку англо-литовского машинного переводчика: создание бесплатного интернет-портала переводов для литовских пользователей финансировалось структурными фондами Евросоюза. Для компании PROMT работа над англо-литовской языковой парой стала первым опытом «экспорта технологии разработки» – часть работы впервые выполнялась компанией-партнером.

Машинный перевод в XXI веке

В наши дни для развития машинного перевода сложились все условия: широкое распространение интернета, компьютеров, смартфонов и других гаджетов, появление облачных технологий, позволяющих хранить данные, не занимая лишнюю память устройства, а также рост контента на разных языках во всем мире.

За последние полвека ученые, математики и лингвисты проделали огромную работу – ее следствием стали технологии машинного перевода, которыми мы сегодня активно пользуемся. Сейчас в нашем распоряжении и быстрые онлайн-сервисы, и сложные клиент-серверные решения для бизнеса, и мобильные переводчики, работающие как через интернет, так и в офлайн-режиме.

50 лет назад люди и подумать не могли, насколько популярными станут технологии машинного перевода в XXI веке. Какими они будут еще через 50 лет, остается только догадываться.

Возврат к списку