Мировые знания, доступные каждому

24.05.2019
24.05.2019

За тысячи лет в мире накопилось огромное количество ценной информации на разных языках. Исторические документы, шедевры мировой литературы, научные исследования, письма, записки современников и свидетелей исторических событий, а также тексты хозяйственного и финансового значения. Сегодня к этим документам добавилась информация в интернете - сайты, социальные сети, блоги и форумы. Ознакомиться с этими данными, в том числе и на разных языках, может почти каждый - благодаря технологиям.

Естественные языки в мире

В общей сложности на Земле насчитывается чуть более 7 тыс. языков, но они сильно отличаются как по количеству носителей, так и по объему доступной на них информации. Например, на 80% населения земного шара приходится всего 80 языков, а более 2 тыс. языков имеют меньше 1 тыс. носителей.

Любопытную инфографику по мировым языкам и количеству говорящих на них людей опубликовало издание South China Morning Post: 23 языка из всех 7 тыс. существующих на планете являются родными для 4 млрд человек, а носителями каждого из них являются как минимум 50 млн человек.



По степени востребованности ученые выделяют восемь языков мирового значения. К ним относится китайский, английский, испанский, арабский, русский, португальский, немецкий и французский. Число носителей этих языков варьируется от 1,5 млрд до 270 млн человек. Если рассмотреть статистику по языкам веб-сайтов, то сложится несколько иная картина: в первую десятку не входят арабский и даже китайский языки, зато входят японский, персидский и польский. А основными интернет-пользователями аналитики называют носителей китайского (24,2% от всех пользователей) и, конечно, английского языка (26,8%).

В 2014 году исследовательская группа под руководством Сезара Идальго из Массачусетского технологического института изучила языки мира и классифицировала их по тому, насколько широко информация из таких источников, как книги, Wikipedia, Twitter и аналогичные социальные сети, переводится на другие языки. Английский язык оказался крупнейшим центром для перевода. Другие языки, включая русский, немецкий и испанский, также служат хабами к другим языкам, но в меньшей степени по сравнению с английским.

Электронные библиотеки на разных языках

До появления цифровых технологий, чтобы получить нужную информацию по любому вопросу, приходилось проводить долгие часы в библиотеках, причем только в тех, которые были в непосредственном доступе. Сегодня для этого во многих случаях достаточно выйти в интернет и воспользоваться электронной библиотекой.

Электронная библиотека - это упорядоченная коллекция электронных документов с возможностью навигации по ней. Яркий пример - Мировая цифровая библиотека (World Digital Library), проект Библиотеки Конгресса, объединяющий оцифрованные версии ценных данных по истории, культуре и другим направлениям на разных языках.

Есть и более локальные версии цифровых библиотек - например, Digital Library Federation (DLF) - программа Совета по библиотечным и информационным ресурсам (Council on Library and Information Resources), которая объединяет цифровые библиотеки музеев и учебных заведений США.

В России в аналогичном формате работает Национальная электронная библиотека (НЭБ), где собраны разнообразные материалы: от "Библии Гутенберга" до сборника произведений Александра Сергеевича Пушкина.

Технологии - ключ к информации на разных языках

Если интернет и электронные библиотеки открывают физический доступ к информации, то как быть с языковым барьером? Эту проблему решают технологии машинного перевода. Со времен появления первых коммерческих систем, тем более онлайн-сервисов перевода, прошло не так много времени, но технологии машинного перевода, благодаря интернету и постоянно растущему качеству перевода, получили широкое распространение во всем мире - в среднем каждый день только на онлайн-сервисах переводится более 143 млрд слов.

С помощью компьютера мы можем перевести не только отдельные фразы и короткие сообщения, но и объемные многостраничные документы или сайты с сохранением гиперссылок и навигации.

Многие крупные компании используют технологии машинного перевода для обработки больших массивов многоязычных данных. TripAdvisor - крупнейший сайт для путешественников, где пользователи оставляют отзывы о посещенных местах (ресторанах, отелях), внедрил машинный перевод для перевода отзывов на разные языки, чтобы распространить информацию и привлечь больше туристов. Amazon с помощью технологий машинного перевода адаптировал контент для покупателей из разных стран, а Facebook внедрил эти технологии для того, чтобы пользователи социальной сети могли смотреть публикации на незнакомых языках.

Технологии машинного перевода также активно можно использовать и при решении нестандартных бизнес-задач. Так, в начале 2019 года российский IT-портал TAdviser внедрил технологию PROMT для перевода всего контента сайта с русского на английский язык "на лету". Так в России, а, возможно, и в мире появилось первое СМИ, работающее на основе машинного перевода. Таким образом, машинный перевод обеспечил оперативное появление информации на иностранном языке без затрат на ручной перевод.

Возврат к списку