Создатели татарского онлайн-переводчика: «Мы готовы создавать не только аналог сервисов Google или «Яндекса»

07:00, 09.01.2019

Интервью со старшим научным сотрудником Института прикладной семиотики Айдаром Хусаиновым о решении проблемы машинного перевода

Институт прикладной семиотики Академии наук Татарстана создал пробную версию русско-татарского переводчика на основе нейросетевых технологий. Его особенность в том, что он переводит без помощи словарей. Чем еще переводчик отличается от продукта «Яндекса» и с какими проблемами пришлось столкнуться при переводе с татарского, в интервью «Реальному времени» рассказал старший научный сотрудник института Айдар Хусаинов.

Переводчик для предложений

— Пожалуйста, объясните для простых пользователей — что такое словарь на основе нейросетей?

— Для начала нужно понимать, чем отличается словарь от переводчика. Условно, словарь — слово, фраза и словарная статья, в которой даются варианты переводов, толкований, указывается часть речи и т. д. Машинный переводчик в большей степени предназначен для перевода предложений и чаще всего не дает толкования отдельных слов. Мы привыкли, что «Яндекс» и Google дают толкование отдельных слов. Это происходит потому, что к машинному переводчику подключаются словари. В данном проекте мы создавали систему для перевода предложений с русского на татарский, с татарского на русский языки.

— А что значит на основе нейросетей?

— Это один из методов, технологий, которые используются, например, для анализа текстов, речи. Большинство задач, которые связаны с искусственным интеллектом, сейчас лучше всего решаются с использованием нейронных сетей. Если не вдаваться в теорию, общая суть заключается в том, что готовятся корпусы или базы данных с так называемыми обучающими данными. В нашем проекте мы готовим данные, которые позволяют системе понять, как переводятся тексты с одного языка на другой. То есть в нашем случае это большая база параллельных русско-татарских текстов. Что она из себя представляет? Это пары предложений: на русском языке и перевод на татарском языке. И таких пар очень много. Их нужны миллионы, как минимум от двух миллионов пар предложений. Нейросеть настраивается таким образом, что ей дают данные, и она по определенному алгоритму, по определенным правилам эти данные изучает, обрабатывает и пытается понять, как перевести то, что она еще не видела, то есть новое предложение. Чем больше обучающих данных, чем они лучше, разнообразнее, тем лучше будет переводиться то, что вводит пользователь.

«Татарский язык поддерживается не таким большим числом продуктов»

— А как вообще возникла идея, почему решили создать такой переводчик?

— Сама идея создания машинных переводчиков не нова. В принципе, на основе нейросетей в последние годы создаются успешные переводчики. А изначально задача машинного перевода решалась с помощью rule-based подхода. Пытались создать правила, которые с помощью словарей, знаний о строении языков осуществляли перевод. У нас такой подход в институте тоже используется, но он успешно применяется для других пар языков. Очень хорошо, когда языки родственные, похожие. Так мы создаем переводчик между тюркскими языками: татарским, казахским, киргизским, узбекским и другими. Там структура предложений похожая, словообразование похожее, и на основе правил можно сделать качественный продукт. А русский и татарский языки настолько отличаются, что качественного перевода на правилах никто построить так и не смог. Нейросетевой подход, последние успехи в области машинного обучения и накопленные нашим институтом результаты позволили перейти на более высокой уровень перевода.

«Большинство задач, которые связаны с искусственным интеллектом, сейчас лучше всего решаются с использованием нейронных сетей». Фото hi-news.ru

— Чем ваша разработка отличается от других переводчиков?

— Татарский язык поддерживается не таким большим числом продуктов. Если мы говорим о машинном переводчике, то на данный момент только «Яндекс» дает возможность переводить с татарского и на татарский язык, Google-переводчик татарский не поддерживает. С большой долей вероятности можно говорить, что и Google, и «Яндекс», и другие крупные IT-компании используют примерно одни и те же разработки, которые публикуются в ведущих журналах и представляются на международных конференциях. Мы здесь идем в ногу со временем. Но особенность нашей разработки в том, что мы изначально не старались делать универсальный переводчик для большого количества языков. Мы исходили из того, что мы должны работать с татарским языком. У нас в институте были наработки по различным моделям — синтаксическим, морфологическим; у нас есть анализаторы. Мы сразу закладывали, что мы будем учитывать особенности татарского языка. Плюс в рамках государственной программы по сохранению, изучению и развитию языков в Республике Татарстан у нас есть ряд смежных проектов, в том числе касающихся речевых технологий, распознавания и синтеза татарской речи — чтобы можно было диктовать по-татарски и компьютер мог озвучивать текст на татарском. Эти продукты в переводчик мы тоже встраиваем. Что это нам дает? Пользователь может не только печатать и видеть перевод, но и диктовать текст, и слышать перевод на татарском и русском языках. На данный момент даже у «Яндекса» такого функционала для татарского нет.

В Татарстане есть интерес не только у населения к таким сервисам перевода. Также есть потребность в переводе различных официальных документов, новости должны выходить на двух языках. Мы готовы создавать не только универсальный переводчик для населения — аналог сервисов Google или «Яндекса», мы готовы создавать отдельные модели для переводов законов, официально-деловых материалов и т. д.

«На перевод в русско-татарской паре приходится большое количество запросов в интернете»

— Что собой будет представлять или уже представляет этот переводчик? То есть нужно печатать или куда-то что-то говорить, и будет появляться перевод?

— Сам по себе машинный переводчик — это программный продукт. А именно для населения мы делали сайт, который в тестовом режиме уже работает. Пользователь заходит на сайт, на котором есть два основных текстовых поля. Одно — для ввода текста на русском или татарском языке. Второе, соответственно, для отображения перевода. Плюс есть специальные кнопки для диктовки, озвучивания перевода и т. д. Это сайт с очень простым интерфейсом.

— Когда начали работу над этим проектом? На какой стадии он находится сейчас?

— Именно нейросетевой переводчик мы делаем несколько лет и работаем по упоминавшейся госпрограмме. Согласно ей, у нас есть планы, которые мы должны выполнять. К концу 2020 года эта программа завершается, и мы заявляли построение общедоступного переводчика, который будет работать с определенным качеством на заданном количестве тематик. На данный момент мы не только выполняем эти планы, но и идем с опережением. Общедоступный переводчик мы решили протестировать уже в этом году, а не в конце 2020-го. Все базовые элементы созданы: первые версии для анализа/синтеза речи, для перевода, сам сайт, есть еще элементы, связанные с сервером. Однако каждый из этих компонентов будет продолжать дорабатываться.

«Пользователь может не только печатать и видеть перевод, но и диктовать текст, и слышать перевод на татарском и русском языках. На данный момент даже у «Яндекса» такого функционала для татарского нет». Фото kloop.kg

— А к какой дате планируете финальную версию?

— Понятия финальной версии для переводчика нет, потому что в принципе ни для одного языка в мире задача машинного перевода еще не решена, даже для таких популярных пар, как английско-немецкая, английско-китайская. Сейчас стоит задача постепенного улучшения качества этого перевода по всем направлениям, чтобы он служил качественным помощником и для профессиональных переводчиков, и для всех желающих.

— Ориентировочно, когда пользователи смогут пользоваться переводчиком?

— Это зависит в большей степени даже не от нас, потому что в текущем году мы его протестировали — в принципе, у нас все инструменты есть, мы готовы пользователям их предоставить. Существует вопрос, связанный с серверами. По госпрограмме финансируется исследовательская часть, научная и вопросы разработки программного обеспечения. А приобретение серверов, обеспечение вопросов их эксплуатации выходит за ее рамки. Соответственно, мы надеемся, что при господдержке, при поддержке частного бизнеса мы в следующем году этот вопрос решим. Мы не можем сейчас предоставить доступ, потому что текущие серверы взяты в аренду и не рассчитаны на большое количество пользователей. Мы не можем не учитывать, что перевод в русско-татарской паре интересен пользователям и на него приходится большое количество запросов в интернете.

Хватит ли денег на сервер?

— Вы сказали, что проект финансировался за счет госпрограммы. Сколько денег было выделено?

— В принципе, точные цифры можно посмотреть, все отчеты опубликованы в интернете. Но могу сказать, что в первые годы по этому мероприятию, конкретно по машинному переводчику, средства были потрачены на совместную работу с компанией ABBYY. Чему она была посвящена? Она была посвящена внедрению в Татарстане проекта SmartCAT. Это инструмент, который, в том числе, использует машинные переводчики внутри себя. Он создан для того, чтобы человек, который профессионально занимается переводом, мог переводить документы на ежедневной основе гораздо быстрее. Если какую-то фразу перевести один раз, в следующий раз система сама предложит перевод, и нужно будет только вносить какие-то правки в документы. Эта система была внедрена в некоторых учреждениях, ведомствах, министерствах республики, но требует более активной интеграции и ее использования. Финансирование 2019—2020 годов запланировано уже только на доработку машинного переводчика, и суммарно на следующие два года заложено порядка 2,4 млн рублей.

— Это относительно немного?

— Это не то, что относительно немного, этого крайне недостаточно. Машинным переводом, с которым пользователи сталкиваются, чаще всего занимаются крупные IT- и научные центры, которые десятки и сотни миллионов рублей тратят на эти исследования. Даже если мы абсолютно никому не будем платить зарплату эти два года, для приобретения необходимых серверов финансирования все равно будет недостаточно.

— А кто еще участвует в создании переводчика?

— Для создания инструмента для профессиональных переводчиков мы активно сотрудничаем с компанией ABBYY. В целом работают кадры нашего института — это программисты, лингвисты, специалисты в области машинного обучения. Также привлекаем группу переводчиков именно потому, что, как я говорил в начале, нам нужна татарско-русская база с переводами для обучения системы. И для того чтобы создать эту большую базу, мы собирали все новости, все документы, которые параллельно есть на русском и татарском языках. Этих данных недостаточно — поэтому люди переводят тексты с русского на татарский, чтобы пополнить эту базу. Если говорить о сайте, то стоит отметить специалистов, занимавшихся дизайном сайта, версткой, веб-программированием. В нашем институте числится 13 сотрудников. По возможности, по финансированию привлекаем дополнительно и других специалистов.

«Даже если мы абсолютно никому не будем платить зарплату эти два года, для приобретения необходимых серверов финансирования все равно будет недостаточно». Фото iaas-blog.it-grad.ru

— Где и как может использоваться данный переводчик в дальнейшем?

— Целевая аудитория достаточно широкая. Во-первых, это люди, которые изучают татарский язык — школьники, студенты, просто желающие улучшить знание татарского языка. Во-вторых, предполагается специализированное использование, например, при подготовке документации, новостей.

«Задача машинного перевода в науке не решена»

— В чем были сложности при создании переводчика, который переводит с татарского языка?

— Сложности можно поделить на две части. Сложность самого машинного перевода — это задача нерешенная и активно развивается с научной точки зрения. Кроме того, есть сложности, связанные с особенностями татарского языка. К каждой татарской основе может присоединяться большое количество аффиксов, то есть словообразование очень богатое. Мы использовали методы, которые позволяют не только обойти эту проблему, но и использовать в плюс эту особенность, чтобы переводчик лучше работал не стандартными методами, а адаптированными под татарский язык. Еще есть такой момент, что для той же русско-английской пары есть очень большой объем обучающих материалов. Для татарско-русской он никогда прежде не создавался, и поэтому наша работа в этом направлении особенно важна. Общий объем, который есть в интернете, в книгах, в журналах пока недостаточен, чтобы сопоставить татарский с другими крупными мировыми языками. Даже если мы используем самые современные технологии, качество все равно зависит еще и от тех данных, которые у нас есть. А накопление этих данных: сбор, перевод — это очень трудоемкая и не быстрая работа.

— Какие-то словари использовались при составлении переводчика?

— Надо учитывать, что при обучении системы мы используем базу переводов, базу предложений. В следующем году мы хотим подключить словари. Мы заметили, что пользователи, которые первый раз заходят на сайт, проверяют систему — вводят слово и смотрят, корректный перевод или нет. Бывает так, что перевод некорректный либо для многозначного слова выдается не самый очевидный вариант перевода. Почему так происходит? Потому что система учитывает контекст, чтобы понять, как лучше перевести предложение; в случае же отдельных слов этого контекста она лишена, что затрудняет перевод.

— То есть предложение переводит лучше, чем отдельное слово?

— Именно. Она «понимает», о чем идет речь, и излагает информацию уже на другом языке. Поэтому для перевода отдельных слов мы планируем в будущем подключить словари. Когда человек введет отдельные слова, будут выдаваться статьи из словарей. Соответственно, мы сможем дополнительно предоставить пользователям и различные варианты перевода.

Гуландам Фатхуллина

Подписывайтесь на телеграм-канал, группу «ВКонтакте», канал в MAX и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube и «Дзене».

Технологии IT Татарстан