Новости раздела

«Алиса», конечно, может заговорить по-татарски, но этого мало»

Сервис машинного перевода Tatsoft готовит приложение для iOS

«Алиса», конечно, может заговорить по-татарски, но этого мало»
Фото: предоставлено пресс-службой театра Камала

Разработчики сервиса машинного перевода Tatsoft готовы делиться своими данными с другими специалистами — все ради развития татарского языка. Кроме того, планируется, что в Tatsoft появятся и другие языки республики. В конце мая, обещает Институт прикладной семиотики, сервис в виде приложение можно будет установить на мобильные устройства под управлением iOS. К слову, говорит Tatsoft, задействованы голоса актеров театра Камала — Алсу Каюмовой (на фото) и Алмаза Гараева.

Тысячи голосов и более трехсот часов записи

Подготовка к внедрению новой функции по распознованию татарской речи велась около года. Для этого нужны были разные голоса, чтобы в итоге система могла понимать любые слова, сказанные устно. Все это время сотрудники Института прикладной семиотики Академии наук РТ собирали голосовой материал. Специально для этого был запущен телеграм-бот, куда люди скидывали голосовые сообщения, записанные в самых разных условиях и на самые разные гаджеты, в том числе с помехами, с какими-то внешними шумами. В итоге в базу вошли более тысячи вариантов голосов, а это более 300 часов записи.

Эта же функция доступна теперь и через приложение по сервису машинного перевода Tatsoft. Уже месяц ее можно скачать в онлайн-маркете. Еще через месяц возможность скачивания этого приложение должна появиться и на мобильных устройствах под управлением iOS. Об этом сообщил директор Института прикладной семиотики Академии наук РТ Ринат Гильмуллин.

— Сейчас любой желающий может установить приложение на Android. Теперь дело за Apple, со своей стороны мы провели все манипуляции. Чтобы приложение можно было скачать на iPhone, необходимо провести определенные технические работы, подтвердить наш аккаунт и опубликовать приложение, — сообщил руководитель института.

Разработка онлайн-сервиса обошлась в 7 миллионов рублей. Финансирование шло от Академии наук РТ и от Комиссии при раисе РТ по вопросам сохранения, развития татарского языка и родных языков представителей народов, проживающих в Республике Татарстан.

По словам ведущего научного сотрудника Булата Хакимова, это первый сервис распознающий татарскую речь, такого больше нет на просторах интернета. На сайте теперь можно не просто писать или вставлять текст и получать перевод, но еще и использовать голосовые сообщения и получать перевод в том же тексте.

— Чтобы этот сервис заработал, мы собрали большой объем голосового материала. Датасеты — база записанных речевых образцов. Мы работали в двух направлениях. Синтез речи из текста в звучащую речь и распознавание звучащей речи и превращение ее в письменный текст. В первом случае мы использовали голоса профессиональных дикторов, в частности актеров театра имени Галиасгара Камала Алсу Вазиевой и Алмаза Гараева. А для того, чтобы сервис работал в обратном направлении нужны были голоса обычных людей и в большом количестве, — рассказал ученый.

Один из официальных голосов — актер Камаловского театра Алмаз Гараев. предоставлено пресс-службой театра Камала

«Мы готовы делиться»

Институт прикладной семиотики не планирует ограничивается только своим сайтом, он готов к сотрудничеству, в частности с «Яндексом. Совместная деятельность началась уже в 2016 году, рассказал Ринат Гильмуллин:

— Когда мы начинали работать с «Яндексом», в сети еще только начинали использовать нейросети. Но уже в тот период перед нами стояла задача разработки машинного переводчика, и с 2016 года мы передавали датасеты «Яндексу», благодаря им появилась возможность перевода на татарский язык. Когда технологии стали развиваться, ситуация изменилась, такие крупные сети не очень заинтересованы в региональных языках. А нам хотелось развиваться дальше, поэтому мы не могли ждать и решили действовать самостоятельно.

Тем не менее, по словам директора института, татарстанцы готовы возобновить сотрудничество с «Яндексом».

— Мы готовы с удовольствием обменятся данными, чтобы еще больше распространить татарский язык. Сейчас ведутся переговоры по этому поводу. У них есть свои потребности при помощи наших датасетов улучшить свой переводчик. Для нас же важно внедрить наши датасеты, чтобы, к примеру, «Алиса» говорила по-татарски. Но тут нужна системная работа. «Алиса», конечно, может заговорить по-татарски, но этого мало. Должна быть обеспечена связь со всей сетью. Элементарно с музыкой и с другим контентом. Если не наладить систему, не будет смысла в такой колонке, считает Гильмуллин.

«Татарский язык должен больше интегрироваться в мировые сети»

По мнению Булата Хакимова, сейчас важно поменять отношение к татарскому языку:

— Сформировалось какое-то стереотипное ожидание от технологий, сервисов и их доступности. Мы с молодыми исследователями изучали статистику поисковых запросов на татарском языке, делали их тематическое моделирование. Получается, что превалируют темы, связанные с искусством, песнями, а все утилитарные, прагматичные, жизненные запросы у людей идут полностью на русском языке. То есть уже сформировался образ языка — что можно сделать на этом языке в той же цифровой системе, что нет.

Чтобы менять это отношение нужно добавлять работающие сервисы, считает ученый.

— Человек должен видеть, что можно много чего в сети делать на татарском языке. Если удается делать приложения удобными, то люди потихоньку будут приучаться ими пользоваться, чем больше татарский язык будет интегрироваться в мировые сети, тем он будет популярнее.

Сейчас онлайн-сервис машинного перевода Tatsoft работает на двух языках. В будущем же появятся и другие:

— Идет обсуждение предложений по поводу добавлений в сервис других языков народов РТ. Эту работу планируется сделать до конца этого года, — заверил директор института.

Миляуша Кашафутдинова

Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube, «Дзене» и Youtube.

ТехнологииITМедиа Татарстан

Новости партнеров