Введение
MiMo-V2.5-ASR — открытая модель распознавания речи от Xiaomi. Специализируется на транскрибации аудио в сложных условиях: китайские диалекты, переключение языков, шум, несколько говорящих.
Модель представляет собой мультимодальную систему, способную обрабатывать как текст, так и аудио, но именно версия ASR оптимизирована под задачи распознавания речи с высокой точностью в реальных условиях использования.
Модельный ряд MiMo
MiMo — это семейство мультимодальных моделей от Xiaomi. Ниже представлен полный модельный ряд с фокусом на возможностях транскрибации:
| Модель | Транскрипция | Назначение |
|---|---|---|
| MiMo-V2.5-Pro | ❌ | Флагман для агентских задач и кода |
| MiMo-V2.5 | ✅ (ASR) | Мультимодальная, версия MiMo-V2.5-ASR транскрибирует аудио |
| MiMo-V2.5-TTS-VoiceClone | ❌ | Клонирование голоса по образцу |
| MiMo-V2.5-TTS-VoiceDesign | ❌ | Создание голоса с нуля по описанию |
| MiMo-V2.5-TTS | ❌ | Синтез речи из текста |
| MiMo-V2-Pro | ❌ | Предыдущий флагман, текст и код |
| MiMo-V2-Omni | частично | Мультимодальная, обрабатывает аудио, но не для транскрипции |
| MiMo-V2-TTS | ❌ | Синтез речи с настройкой стиля |
Примечание: только MiMo-V2.5 и ее версия MiMo-V2.5-ASR предназначены именно для задач транскрибации и распознавания речи.
Ключевые возможности MiMo-V2.5-ASR
- Мультиязычность: китайский, английский, диалекты (у, кантонский, хоккиен, сычуаньский)
- Устойчивость к шумам: работа при сильном фоновом шуме, дальнем микрофоне
- Code-Switch: переключение китайский↔английский без разметки
- Несколько говорящих: точная транскрибация совещаний
- Распознавание песен: текст песни с аккомпанементом
- Знакоёмый контент: классическая поэзия, термины, имена
- Автопунктуация: расстановка знаков по интонации и смыслу
Результаты бенчмарков (WER %)
MiMo-V2.5-ASR демонстрирует выдающиеся результаты на различных датасетах, особенно в задачах, связанных с китайским языком и диалектами:
| Датасет | WER (%) | Описание |
|---|---|---|
| AiShell-2 | 2.52 | Китайская речь в авиационной отрасли |
| Fleurs-Zh | 2.41 | Мультиязычный, китайский |
| Wenet Meeting | 5.92 | Совещания (китайский) |
| AMI (English) | 10.63 | Английские совещания |
| Gigaspeech | 8.87 | Большой китайский датасет |
| CommonVoice-Taiwan | 3.65 | Тайваньский диалект китайского |
| WeNet-Yue (Cantonese) | 7.21 | Кантонский диалект |
| m4singer (lyrics) | 3.95 | Тексты песен с аккомпанементом |
Доступ и подписки
MiMo API (платная подписка)
Для коммерческого использования доступна подписка MiMo API с различными тарифными планами:
| Тариф | Цена | Кредиты | Особенности |
|---|---|---|---|
| Lite | ¥39/мес | 60M credits | Для небольших проектов |
| Standard | ¥99/мес | 200M credits | Оптимальный выбор |
| Pro | ¥329/мес | 700M credits | Для среднего бизнеса |
| Max | ¥659/мес | 1.6B credits | Для крупных проектов |
Специальные условия:
• Ночная скидка 20% (off-peak usage)
• Годовая подписка дает дополнительную скидку 12%
Бесплатный доступ
- Публичное тестирование на Xiaomi MiMo API
- MiMo Studio — веб-интерфейс для тестирования
- Open Source — веса на Hugging Face и GitHub, свободная лицензия