IT-безопасность: причем здесь машинный перевод?

23.12.2019
23.12.2019

В 2013 году в США выпустили документальный фильм «Сроки и условия могут поменяться» (в оригинале – Terms And Conditions May Apply), в котором показывается, на что в действительности соглашается пользователь бесплатных сервисов, когда нажимает на кнопку «Я принимаю условия соглашения». Авторы фильма рассказывают, как популярные сервисы собирают информацию о пользователях и даже передают ее сторонним лицам.

На первый взгляд может показаться, что онлайн-сервисы нарушают закон, используя загружаемую нами информацию. Но это не так, ведь подобные действия прописаны в условиях соглашения, которые мы принимаем при работе с сервисами. Учитывая, что такими сервисами каждый день пользуются миллионы человек по всему миру, неудивительно, что приватность в сети стремительно исчезает. С каждым годом растет количество утечек данных, и фраза «Все тайное становится явным» приобретает новый, пугающий смысл.

Статистика показывает, насколько эта проблема масштабна. Компания InfoWatch занимается разработкой решений для информационной безопасности организаций и ежегодно готовит отчеты по утечкам данных в России и мире. В одном из последних отчетов указывается, что в первой половине 2019 года число утечек конфиденциальной информации в компаниях и государственных организациях выросло на 22% по сравнению с аналогичным периодом 2018 года. При этом 55% утечек произошло не из-за хакерских атак, а по вине сотрудников, которые, зачастую не осознавали последствий своих действий.

Например, несколько лет назад в американском штате Мэн адреса и номера социального страхования 2100 человек, получавших пособия по уходу за детьми, оказались в общем доступе. Данные были скомпрометированы, потому что сотрудник Управления по информационным технологиям загрузил файл с конфиденциальной информацией на бесплатный сайт сравнения файлов. Он даже не осознавал, что эта информация станет общедоступной.

Чем опасны бесплатные онлайн-переводчики?

Потребность в машинном переводе сложно переоценить. По данным одного сервиса онлайн-перевода, ежедневно на нем переводится 143 млрд слов – это означает, что в среднем каждый житель планеты переводит по 7 слов в день. И это данные только по одному, хотя и самому крупному онлайн-переводчику.

Машинный перевод необходим не только обычным пользователям для решения бытовых задач – поиска отеля, переписки, онлайн-шоппинга – но и корпоративному сегменту, то есть, компаниям и государственным структурам. Но руководство организаций не всегда задает себе вопрос, куда сотрудник пойдет за машинным переводом, если у него возникнет такая потребность. Если в компании нет собственного сервиса перевода, то, скорее всего, корпоративный контент отправляется на общедоступные онлайн-сервисы. И это большой, хотя и плохо осознаваемый риск.

Все онлайн-переводчики собирают контент, который переводят пользователи. Прежде всего, его используют как материал для обучения компьютерных переводчиков. Кроме того, подобные данные – это огромный источник знаний, позволяющий извлекать полезную информацию для рекламы, маркетинга и даже шпионажа. А еще сервисы оставляют за собой право распоряжаться контентом по своему усмотрению. Вот что написано в пользовательском соглашении одного популярного онлайн-сервиса: «Загружая, добавляя, сохраняя, отправляя и получая содержание в наших Службах, вы предоставляете компании и ее партнерам действующую во всем мире лицензию, которая позволяет нам использовать это содержание, размещать его, хранить, воспроизводить, изменять, создавать на его основе производные работы (например, переводы, адаптации и прочие способы оптимизации материалов), обмениваться им, публиковать его, открыто воспроизводить, отображать, а также распространять».

Норвежская компания Statoil в 2017 году столкнулась с потерей информации через онлайн-переводчик. Сотрудники нефтяного гиганта перевели с помощью сервиса Translate.com конфиденциальную документацию, в том числе, уведомления об увольнении и планы по сокращению персонала. В результате документы оказались в общем доступе и попали в поисковую выдачу Google.

«Если ты разговариваешь с одним, ты разговариваешь с миллионами», - справедливо отметила героиня одного известного сериала. И это справедливо не только для социальных сетей и мессенджеров, но и для всех облачных сервисов: переводчиков, конвертеров документов.

Безопасная альтернатива онлайн-сервисам

Если пользоваться общедоступными сервисами перевода нельзя, то как же быть? Выход из ситуации – корпоративное решение, установленное во внутренней сети компании и соответствующее ряду требований. Подобное ПО не должно соприкасаться с «внешней средой», чтобы переводимая информация не уходила за пределы одной машины, сервера компании или частного облака. Это гарантия того, что даже случайно данные компании не будут собираться внешними ресурсами. Сервис автоматического перевода, работающий в локальной сети компании, должен быть такой же нормой, как и корпоративная почта.

В мире разработкой МП-решений для корпоративного сегмента занимается несколько компаний – это SDL, Systran, PROMT. Эти решения отвечают всем требованиям безопасности и имеют много преимуществ по сравнению с онлайн-сервисами.

Флагманское решение PROMT для безопасного перевода называется PROMT Neural Translation Server. Это масштабируемое клиент-серверное решение для перевода текстов и документов 15 форматов целиком.

Программа работает в офлайн-режиме и не обращается к сторонним сервисам. Кроме того, руководители компаний-заказчиков, использующие PROMT Neural Translation Server, могут работать в суперконфиденциальном режиме, который дает дополнительные возможности безопасного перевода.

Еще одно преимущество PROMT Neural Translation Server – высокое качество перевода. В основе решения – уникальная гибридная технология PROMT Neural, сочетающая разные подходы к переводу: «перевод на основе правил» и машинное обучение на основе рекуррентных нейронных сетей. Благодаря такому сочетанию текст перевода получается точным, без машинного акцента и почти неотличимым от перевода, выполненного человеком.

Важно и то, что PROMT Neural Translation Server – это доменно-адаптивное решение, которое можно натренировать на основе материалов клиентов и повысить качество машинного перевода для конкретных задач.

Посмотреть, какие организации уже оценили возможности продукта, вы можете в нашем разделе «Успешные проекты».

Возврат к списку