Новости раздела

Студентка НГУ разработала систему для распознавания старопечатных тибетских текстов

Анна Мурашкина, студентка Новосибирского государственного университета, создала систему на базе машинного обучения для автоматического распознавания и оцифровки старопечатных тибетских документов.

Проект направлен на спасение более 70 тысяч рукописей XVIII–XX веков, хранящихся в архивах Сибирского отделения Российской академии наук (СО РАН) и находящихся под угрозой разрушения. Приложение Мурашкиной работает со сверхточной нейросетью, обученной на рукописных текстах из фондов Института монголоведения, буддологии и тибетологии СО РАН.

Анна вручную выполнила лингвистическую разметку строк тибетского текста и разработала систему оценки качества оптического распознавания символов с учетом специфики тибетской графики. После проделанной работы система распознает символы тибетского письма, восходящего к древнеиндийскому брахми, с точностью выше, чем у аналогов. Процесс работы автоматизирован от сегментации изображений до постобработки данных.

Мурашкина отмечает, что тексты содержат уникальные данные по философии, медицине и истории Тибета, но бумажные носители разрушаются из-за времени и климата. В планах — внедрение системы в работу архивов СО РАН и переговоры о сотрудничестве с Буддийским центром цифровых технологий для оцифровки документов монастырей.



Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube и «Дзене».

Новости партнеров

Новости партнеров