Tatsoft: новая функция распознавания татарской речи

Апр 27, 2024 / 05:45

Разработчики сервиса машинного перевода Tatsoft готовы поделиться своими данными с другими специалистами с целью развития татарского языка. Кроме того, планируется расширение сервиса для поддержки и других языков республики.

Tatsoft: новая функция распознавания татарской речи

По обещаниям Института прикладной семиотики, в конце мая этот сервис будет доступен в виде приложения для мобильных устройств на iOS. По словам сотрудников Tatsoft, в разработке были задействованы голоса актеров театра Камала, таких как «Алсу Каюмова» и «Алмаз Гараев».

Подготовка к внедрению новой функции распознавания татарской речи продолжалась около года. Для этого требовались различные голосовые образцы, чтобы система могла корректно интерпретировать разнообразные устно произнесенные слова. Сотрудники Института прикладной семиотики Академии наук РТ собирали голосовой материал на протяжении всего этого времени.

Для этой цели был запущен телеграм-бот, через который люди отправляли голосовые сообщения, записанные в различных условиях с разными устройствами, включая записи с помехами и внешними шумами. Всего в базу данных было добавлено более тысячи вариантов голосовых образцов, что соответствует более чем 300 часам аудиозаписей. Эта функция теперь доступна через приложение Tatsoft для машинного перевода. Уже в течение месяца она доступна для загрузки в онлайн-магазине. Через дополнительный месяц приложение будет доступно и для мобильных устройств на iOS.

Об этом сообщил директор Института прикладной семиотики Академии наук Республики Татарстан Ринат Гильмуллин. По его словам, в настоящее время любой желающий может установить приложение на устройствах Android. В настоящее время все готово и для Apple, оставалось завершить необходимые процедуры.

Руководитель института сообщил, что для скачивания приложения на iPhone необходимо провести определенные технические работы, подтвердить аккаунт и опубликовать приложение.

Разработка онлайн-сервиса обошлась в 7 миллионов рублей, с финансированием от Академии наук РТ и Комиссии при РАН по вопросам сохранения и развития татарского языка.

Ведущий научный сотрудник Булат Хакимов отметил, что разработанный сервис является первым в интернете, распознающим татарскую речь. На сайте теперь можно не только писать текст и получать перевод, но и использовать голосовые сообщения с переводом.

Для начала работы сервиса был собран большой объем голосового материала, включая датасеты записанных речевых образцов. Институт работал над синтезом речи из текста и распознаванием звучащей речи.

В первом случае использовались голоса профессиональных дикторов, таких как актеры театра имени Галиасгара Камала Алсу Вазиева и Алмаза Гараева. Для обратного преобразования звучащей речи в письменный текст были использованы голоса обычных людей в большом количестве.

Институт прикладной семиотики не ограничивается только своим сайтом и готов к сотрудничеству, в том числе с компанией «Яндекс». Сотрудничество началось еще в 2016 году, когда нейросети только начали использовать в интернете.

В тот период перед командой стояла задача разработки машинного переводчика, и с 2016 года датасеты передавались в

По материалам: news.rambler.ru