Аналитический обзор LLM · Транскрибация · ASR · Xiaomi Обновлено 23 мая 2026

Обзор Xiaomi MiMo-V2.5-ASR: распознавание речи

MiMo-V2.5-ASR — открытая модель распознавания речи от Xiaomi, специализирующаяся на транскрибации аудио в сложных условиях: китайские диалекты, переключение языков, шум, несколько говорящих. Детальный анализ возможностей, результатов бенчмарков и вариантов доступа.

Введение

MiMo-V2.5-ASR — открытая модель распознавания речи от Xiaomi. Специализируется на транскрибации аудио в сложных условиях: китайские диалекты, переключение языков, шум, несколько говорящих.

Модель представляет собой мультимодальную систему, способную обрабатывать как текст, так и аудио, но именно версия ASR оптимизирована под задачи распознавания речи с высокой точностью в реальных условиях использования.

Ключевые особенности: поддержка китайских диалектов, устойчивость к фоновому шуму, распознавание нескольких говорящих одновременно, автоматическая пунктуация по интонации.

Модельный ряд MiMo

MiMo — это семейство мультимодальных моделей от Xiaomi. Ниже представлен полный модельный ряд с фокусом на возможностях транскрибации:

Модель	Транскрипция	Назначение
MiMo-V2.5-Pro	❌	Флагман для агентских задач и кода
MiMo-V2.5	✅ (ASR)	Мультимодальная, версия MiMo-V2.5-ASR транскрибирует аудио
MiMo-V2.5-TTS-VoiceClone	❌	Клонирование голоса по образцу
MiMo-V2.5-TTS-VoiceDesign	❌	Создание голоса с нуля по описанию
MiMo-V2.5-TTS	❌	Синтез речи из текста
MiMo-V2-Pro	❌	Предыдущий флагман, текст и код
MiMo-V2-Omni	частично	Мультимодальная, обрабатывает аудио, но не для транскрипции
MiMo-V2-TTS	❌	Синтез речи с настройкой стиля

Примечание: только MiMo-V2.5 и ее версия MiMo-V2.5-ASR предназначены именно для задач транскрибации и распознавания речи.

Ключевые возможности MiMo-V2.5-ASR

Мультиязычность: китайский, английский, диалекты (у, кантонский, хоккиен, сычуаньский)
Устойчивость к шумам: работа при сильном фоновом шуме, дальнем микрофоне
Code-Switch: переключение китайский↔английский без разметки
Несколько говорящих: точная транскрибация совещаний
Распознавание песен: текст песни с аккомпанементом
Знакоёмый контент: классическая поэзия, термины, имена
Автопунктуация: расстановка знаков по интонации и смыслу

Результаты бенчмарков (WER %)

MiMo-V2.5-ASR демонстрирует выдающиеся результаты на различных датасетах, особенно в задачах, связанных с китайским языком и диалектами:

Датасет	WER (%)	Описание
AiShell-2	2.52	Китайская речь в авиационной отрасли
Fleurs-Zh	2.41	Мультиязычный, китайский
Wenet Meeting	5.92	Совещания (китайский)
AMI (English)	10.63	Английские совещания
Gigaspeech	8.87	Большой китайский датасет
CommonVoice-Taiwan	3.65	Тайваньский диалект китайского
WeNet-Yue (Cantonese)	7.21	Кантонский диалект
m4singer (lyrics)	3.95	Тексты песен с аккомпанементом

Примечание: WER (Word Error Rate) — процент ошибочных слов. Чем ниже значение, тем точнее распознавание. MiMo-V2.5-ASR показывает выдающиеся результаты особенно на китайских датасетах.

Доступ и подписки

MiMo API (платная подписка)

Для коммерческого использования доступна подписка MiMo API с различными тарифными планами:

Тариф	Цена	Кредиты	Особенности
Lite	¥39/мес	60M credits	Для небольших проектов
Standard	¥99/мес	200M credits	Оптимальный выбор
Pro	¥329/мес	700M credits	Для среднего бизнеса
Max	¥659/мес	1.6B credits	Для крупных проектов

Специальные условия:
• Ночная скидка 20% (off-peak usage)
• Годовая подписка дает дополнительную скидку 12%

Бесплатный доступ

Публичное тестирование на Xiaomi MiMo API
MiMo Studio — веб-интерфейс для тестирования
Open Source — веса на Hugging Face и GitHub, свободная лицензия

Ссылки

Источники: официальная документация Xiaomi MiMo, результаты бенчмарков, тестирование в реальных условиях использования.