Искусственный интеллект научился языку жестов
Ученые из разных университетов разработали модели искусственного интеллекта (ИИ), способные переводить язык жестов в текст и обратно. Это стало возможным благодаря усилиям двух групп исследователей, которые работают над созданием систем для сурдоперевода.
Первая ИИ-модель, получившая название Sign2GPT, разработана учеными из Университета Суррея. Эта система переводит сообщения на язык жестов в текст. Для обучения модели использовались видеозаписи жестовых языков, что позволило ИИ уверенно распознавать и переводить жесты. Особенность жестового языка заключается в его трехмерности: рука движется не только вверх и вниз, но и вперед и назад, что делает анализ изображения сложнее. Несмотря на эти трудности, модель успешно справляется с задачей.
Вторая ИИ-модель, SignLLM, разработана командой ученых из нескольких американских университетов. Она выполняет обратную задачу: переводит текст в видео, где жесты воспроизводит аватар. Эта система также обучалась на видеозаписях с использованием языка жестов и теперь может моделировать движения, необходимые для сурдоперевода.
По данным ООН, в мире более 70 миллионов слабослышащих, которые ежедневно используют язык жестов. Всего описано более 300 разных жестовых языков. Они применяются не только среди слабослышащих, но и в общении с людьми без слуховых проблем. Изучение языка жестов во взрослом возрасте представляет собой значительную трудность, что делает разработку ИИ-моделей особенно актуальной.
Эксперты считают, что следующий шаг в развитии технологий — объединение возможностей обеих моделей в одну систему, способную распознавать и синтезировать голос. Это позволит максимально приблизить общение слабослышащих людей к обычному взаимодействию людей с нормальным слухом. Ученые уверены, что такой прорыв возможен и достижим в ближайшем будущем.