Публикации
Аналитический обзор LLM · Транскрибация · ASR · Xiaomi Обновлено 23 мая 2026

Обзор Xiaomi MiMo-V2.5-ASR: распознавание речи

MiMo-V2.5-ASR — открытая модель распознавания речи от Xiaomi, специализирующаяся на транскрибации аудио в сложных условиях: китайские диалекты, переключение языков, шум, несколько говорящих. Детальный анализ возможностей, результатов бенчмарков и вариантов доступа.

Введение

MiMo-V2.5-ASR — открытая модель распознавания речи от Xiaomi. Специализируется на транскрибации аудио в сложных условиях: китайские диалекты, переключение языков, шум, несколько говорящих.

Модель представляет собой мультимодальную систему, способную обрабатывать как текст, так и аудио, но именно версия ASR оптимизирована под задачи распознавания речи с высокой точностью в реальных условиях использования.

Ключевые особенности: поддержка китайских диалектов, устойчивость к фоновому шуму, распознавание нескольких говорящих одновременно, автоматическая пунктуация по интонации.

Модельный ряд MiMo

MiMo — это семейство мультимодальных моделей от Xiaomi. Ниже представлен полный модельный ряд с фокусом на возможностях транскрибации:

Модель Транскрипция Назначение
MiMo-V2.5-Pro Флагман для агентских задач и кода
MiMo-V2.5 ✅ (ASR) Мультимодальная, версия MiMo-V2.5-ASR транскрибирует аудио
MiMo-V2.5-TTS-VoiceClone Клонирование голоса по образцу
MiMo-V2.5-TTS-VoiceDesign Создание голоса с нуля по описанию
MiMo-V2.5-TTS Синтез речи из текста
MiMo-V2-Pro Предыдущий флагман, текст и код
MiMo-V2-Omni частично Мультимодальная, обрабатывает аудио, но не для транскрипции
MiMo-V2-TTS Синтез речи с настройкой стиля

Примечание: только MiMo-V2.5 и ее версия MiMo-V2.5-ASR предназначены именно для задач транскрибации и распознавания речи.

Ключевые возможности MiMo-V2.5-ASR

  • Мультиязычность: китайский, английский, диалекты (у, кантонский, хоккиен, сычуаньский)
  • Устойчивость к шумам: работа при сильном фоновом шуме, дальнем микрофоне
  • Code-Switch: переключение китайский↔английский без разметки
  • Несколько говорящих: точная транскрибация совещаний
  • Распознавание песен: текст песни с аккомпанементом
  • Знакоёмый контент: классическая поэзия, термины, имена
  • Автопунктуация: расстановка знаков по интонации и смыслу

Результаты бенчмарков (WER %)

MiMo-V2.5-ASR демонстрирует выдающиеся результаты на различных датасетах, особенно в задачах, связанных с китайским языком и диалектами:

Датасет WER (%) Описание
AiShell-2 2.52 Китайская речь в авиационной отрасли
Fleurs-Zh 2.41 Мультиязычный, китайский
Wenet Meeting 5.92 Совещания (китайский)
AMI (English) 10.63 Английские совещания
Gigaspeech 8.87 Большой китайский датасет
CommonVoice-Taiwan 3.65 Тайваньский диалект китайского
WeNet-Yue (Cantonese) 7.21 Кантонский диалект
m4singer (lyrics) 3.95 Тексты песен с аккомпанементом
Примечание: WER (Word Error Rate) — процент ошибочных слов. Чем ниже значение, тем точнее распознавание. MiMo-V2.5-ASR показывает выдающиеся результаты особенно на китайских датасетах.

Доступ и подписки

MiMo API (платная подписка)

Для коммерческого использования доступна подписка MiMo API с различными тарифными планами:

Тариф Цена Кредиты Особенности
Lite ¥39/мес 60M credits Для небольших проектов
Standard ¥99/мес 200M credits Оптимальный выбор
Pro ¥329/мес 700M credits Для среднего бизнеса
Max ¥659/мес 1.6B credits Для крупных проектов

Специальные условия:
• Ночная скидка 20% (off-peak usage)
• Годовая подписка дает дополнительную скидку 12%

Бесплатный доступ

  • Публичное тестирование на Xiaomi MiMo API
  • MiMo Studio — веб-интерфейс для тестирования
  • Open Source — веса на Hugging Face и GitHub, свободная лицензия
Источники: официальная документация Xiaomi MiMo, результаты бенчмарков, тестирование в реальных условиях использования.