языки

На текущий момент самым распространенным языком в мире является английский. На нем разговаривает практически весь интернет, его понимает большая часть населения планеты, и именно его понимают все гаджеты. Это достаточно очевидное решение для людей, их разрабатывающих, ведь почти все они живут в Америке. Для них нет проблем пообщаться с Google Assistant, а Alexa поймет их с полуслова. Но что делать тем, чьи языки на сегодня недоступны? Как будут чувствовать себя представители этих языков, когда попросят у Google и Amazon добавить их языки в свои системы и услышат: «Нет, спасибо, сделайте это сами».

Деньги и разговоры

Казахский – это язык, на котором говорят около половины из 18 миллионов человек в Казахстане – огромной стране в Центральной Азии, которая граничит как с Россией, так и с Китаем. И хотя она очень обширна, жители ее в своей массе небогаты, так что технологические гиганты вроде Google часто не берут ее в расчет при распространении своих продуктов.

«Как коммерческий рынок Казахстан не очень интересен для Google, потому что он не генерирует правильную сумму денег из рекламы», – говорит Рауан Кенжеханулы, основатель некоммерческого Общественного фонда WikiBilim и создателя версии Википедии на казахском языке, проделавшего огромную работу по ее переводу. С тех пор он стал основной движущей силой в попытке улучшить уровень казахского языка в онлайн-инструментах машинного перевода.

языки

«Для малых языков очень важно иметь доступ к любому веб-сайту, а также переводить сайты и статьи на родной язык. В университете, даже если вы изучаете казахскую литературу и язык, вам придется искать учебники на русском или английском языках», – сказал он чтобы подчеркнуть, насколько велико преимущество английского и русского языков перед казахским.

Разница в отношении Google к разным культурам – довольно стандартное поведение и в целом понятное. Несколько лет назад, например, жители Фарерских островов обратились к Google с просьбой показать их родину, где проживает всего 30 000 человек, в Google Street View. Однако чтобы добиться результата, им пришлось прибегнуть к не совсем стандартным методам.

Утеряно в результате перевода

Чтобы решить вопрос с Казахстаном, были предприняты некоторые решительные шаги, чтобы достичь консенсуса. Достигнув результата в 7000 статей на казахском языке в Википедии, Кенжеханули возглавил проект, призванный увеличить их количество до 210 000, чтобы угодить Google.

языки

«Мы начали сотрудничать с Google, но они объяснили, что по большому счету они не делают ничего, чтобы добавить менее распространенные языки в службу Google Translate. Они сказали, что это зависит от вас – вы должны предоставить нам много текста – и попросили 10 000 статей», – сказал он.

После получения намного большего, чем запрошенная цифра, статей для зеркальных переводов с казахского на английский (и обратно), благодаря работе 350 добровольцев в Казахстане, система Google смогла создать свои первые переводы. Казахский язык теперь доступен как простая текстовая система в Google Translate, хотя он все еще не будет переводить целые сайты, говорить на казахском языке и осуществлять перевод текста через камеру с помощью приложения Google Translate.

Так же просто, как азбука

Еще один довольно радикальный шаг, который Казахстан предпринял для упрощения интеграции своего языка в мире – изменение всего своего алфавита. Использование кириллического алфавита для написания казахского языка является наследием вхождения страны в СССР, что в купе с отсутствием в стране развитого туризма привело к тому, что в 2017 году правительство объявило о планах полностью перейти на использование латинского алфавита к 2025 году. Его уже активно используют в школах, что неудивительно, поскольку в указе говорится: «Ради будущего наших детей мы должны принять это решение и создать его как условие для нашей более широкой глобальной интеграции».

Несмотря на лингвистические уступки Казахстана технологическому миру, успехи в механическом переводе уменьшат проблемы перевода в ближайшем будущем. Будучи частью СССР в течение 55 лет до 1991 года, Казахстан все еще борется на лингвистическом уровне с продолжающимся внутренним господством русского языка. В этом плане отказ выглядит весьма иронично ввиду того, что именно этим летом британская компания первой взломала исторически сложный код перевода с русского на английский.

языки

«На русском языке слово может иметь 12 вариаций в значении и гибким порядком слов, но на английском языке это обычно три или четыре вариации и фиксированный порядок слов. Таким образом, универсальной технологии машинного перевода недостаточно для такого языка, как русский. Нужен движок, который учитывает конкретные способы формулировки предложений», – говорит Михай Влад, вице-президент по машинным переводам в британском SDL.

Решением оказался алгоритм нейронного машинного перевода (Neural Machine Translation, NMT), который также отвечает за последние достижения в распознавании изображений и распознавании речи.

«Разница заключается в том, как слова преобразуются в числа. Каждое слово кодируется в массив чисел, и эти числа передаются через нейронную сеть, которая использует умножение матриц, и вы получаете слово-вложение, которое по существу фиксирует значение слова или предложения», – объясняет Влад.

Латинские языки оказалось гораздо проще сопоставить, но немецкий, русский и большинство азиатских языков требуют кастомные настройки NMT, чтобы быть понятыми машинами.

Как насчет распознавания голоса?

Если наличие Википедии на казахском языке и в Google Translate помогает сохранить этот язык живым и развивающимся, то когда речь заходит о голосовых помощниках вроде Alexa, Google Assistant и Siri, все совсем не так гладко. До сих пор глобальный рост распознавания речи был в аппаратных средствах голосовой связи, а не в программном обеспечении, при этом все крупные игроки были ограничены в том, с какими языками они справляются. Для Alexa это английский, немецкий и японский; Google Assistant освоил английский, французский, немецкий, итальянский, японский и испанский; Siri же понимает гораздо больше – английский, арабский, китайский, датский, голландский, финский, французский, немецкий, иврит, итальянский, японский, корейский, малайский, норвежский, португальский, русский, испанский, шведский, тайский и турецкий.

языки

«Мы хотим быть частью этих технологий и сейчас мы работаем над тем, чтобы включить казахский язык в систему распознавания речи. Если ваш язык им понятен, вы получаете доступ к платформам, управляющим не только смартфонами, но и к примеру умными автомобилями», – говорит Кенжеханулы.

Это важно не только для того, чтобы люди в Казахстане могли потакать своим желаниям новых гаджетов, устанавливать голосом таймер на кухне или узнавать о погоде у своего смартфона. Ставки намного выше, ведь речь идет о доступе к будущему технологий. Например, беспилотные автомобили будущего наверняка будут общаться со своими пассажирами в первую очередь с голосом, но если доверить их разработку только производителям автомобилей и технологическим компаниям, то в разработке скорее всего будут задействованы только самые распространенные в мире языки – мандаринский, китайский, английский и испанский.

языки

В Казахстане будет активно продолжаться работа по слиянию казахского языка с содержимым интернета и, в частности, с Google Translate, потому что Кенжеханули убежден в его важном значении для современной эпохи.

«Пока все не идеально, но красота этой технологии заключается в том, что она постоянно совершенствуется. Нет ничего более близкого к подражанию человеческому мозгу, чем она, и поэтому для Казахстана так важно быть частью этого, ведь эта платформа не только информационная, но и лингвистическая», – заключил он.
Загрузка...