Искусственный интеллект VK Видео стал на 25% лучше распознавать речь

3

VK Видео обновил алгоритмы искусственного интеллекта, который автоматически распознает речь и добавляет субтитры в видео. Нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.

Точность анализа и расшифровки выросла на 25%.

Автоматические субтитры создаются Ml-моделями. Чтобы повысить точность, аудиопоток пропускают через несколько этапов обработки, на которых нейросеть отсеивает посторонние звуки, выделяет речь и превращает ее в текст. После этого модели денормализации и пунктуации превращают распознанные слова в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой.

Планируется, что скоро нейросети будут различать голоса, что позволит разделять речь разных спикеров на отдельные реплики. Благодаря этому читать и воспринимать субтитры станет еще проще.

Субтитры в видео помогают людям с нарушениями слуха, и удобна в условиях, когда нет возможности включить звук. VK сообщает, что эта технология становится все популярнее:

Доля пользователей, использующих эту функцию в веб-версии, только за последний месяц увеличилась на 28%, и сейчас субтитрами пользуются 11% всей аудитории VK Видео.

Напомним, что с момента официального запуска в сентябре 2023 года приложение VK Видео установили более 20 млн раз.

Источник

Комментарии закрыты.

На данном сайте используются файлы cookie, чтобы персонализировать контент. Продолжая использовать этот сайт, Вы соглашаетесь на использование наших файлов cookie Принять Подробнее