LLM как декодер в ASR: опыт адаптации SOTA архитектуры для спонтанной русскоязычной речи

newsare.net

Привет, Хабр! Меня зовут Коля, я разработчик машинного обучения в команде речевых технологий Контура. Мы разрабатываем собственную систему р�

LLM как декодер в ASR: опыт адаптации SOTA архитектуры для спонтанной русскоязычной речи

Привет, Хабр! Меня зовут Коля, я разработчик машинного обучения в команде речевых технологий Контура. Мы разрабатываем собственную систему распознавания речи (ASR), которая ежедневно переваривает миллионы звонков и записей видеоконференций, чтобы потом использовать их для речевой аналитики качества коммуникаций с клиентами и для создания протоколов и резюме встреч в Контур.Толке.Мы постоянно работаем над тем, чтобы дать пользователям лучшее качество и опыт взаимодействия с нашими продуктами: борьба уже давно идет за десятые доли процента WER (Word Error Rate) – особенно сложные и трудные для распознавания случаи.В конце прошлого года Nvidia изрядно встряхнула Open Source комьюнити, выкатив серию новеньких моделей распознавания речи. Одна из них нам особенно приглянулась: Canary-Qwen-2.5B на архитектуре SALM (Speech Augmented Language Model), установившая новый рекорд по качеству в HuggingFace OpenASR, благодаря использованию гибридного подхода, совмещающего речевой энкодер и LLM в своей работе.Мы в Контуре решили не проходить мимо и проверить: а как эта новоиспеченная SOTA покажет себя на наших реалиях — на русском языке, в домене телефонии и видеоконференций, в условиях, когда у нас нет десятков тысяч часов размеченных людьми данных. Читать далее Read more

Facebook Twitter

10:15 21.04.2026

Patrick Bruel : une pétition exige l'annulation de ses concerts... Qui l'a signée ?

newsare.net

Des collectifs féministes et plusieurs personnalités ont signé une pétition demandant l'annulation de la tournée anniversaire de Patrick Bruel après les témoignages de femmes l'accusant de violences sexuelles et l'ouverture de plusieurs enquêtes.

World and Local News

newsare.net