Публикации
Аналитический обзор LLM · Подписки · PAYG API · STT Обновлено 23 мая 2026

LLM и транскрибация речи: подписки, PAYG API, STT

Какие вендоры продают подписки на LLM, разрешая использовать их в OpenClaw, OpenCode, Hermes и других агентах. Самые дешёвые PAYG API за 1M токенов. Отдельная закладка — обзор сервисов и моделей транскрибации речи: облачные API, подписки-нотейкеры и open-source стек с рекомендациями под русский язык.

Фокус
Подписки на LLM, разрешающие использование в сторонних AI-агентах
Агенты
OpenClaw · OpenCode · Hermes · Claude Code · Cursor · Cline · Kilo Code · Continue.dev
Период
Актуально на 22 мая 2026 — рынок меняется быстро
Источники
Официальные документации вендоров, обсуждения на Reddit, форумы разработчиков

Подписки, которые работают с агентами

Перечень провайдеров, у которых есть подписочный план, явно или фактически разрешающий использование подписки в сторонних агентных средах. Цены и лимиты приведены без надбавок посредников.

Провайдер Подписка Цена Агенты Модели Лимиты / условия Где купить
OpenCode Go Go Plan $5 первый месяц, далее $10/мес OpenCode, OpenClaw, Hermes, любой агент с OpenAI-совместимым API GLM-5.1, Kimi K2.5/K2.6, MiMo-V2.5-Pro, Qwen3.5/3.6 Plus, MiniMax M2.5/M2.7, DeepSeek V4 Pro/Flash (12 моделей) 200–31 650 requests / 5 часов (зависит от модели) opencode.ai/go
xAI (Grok) SuperGrok $30/мес OpenClaw (OAuth с 19.05.2026), Hermes (OAuth) Grok 4.3, Grok 4.20, Grok 4.1 Fast Официальная OAuth-интеграция, отдельный API-ключ не нужен x.ai → Subscribe
xAI (Grok) X Premium+ $40/мес ($395/год) OpenClaw, Hermes Grok 4.3, Grok 4.20, Grok 4.1 Fast Приоритетный доступ к Grok, ad-free X x.com/i/premium
OpenAI (Codex OAuth) ChatGPT Plus / Pro / Team $20–$200/мес OpenClaw, Hermes (через Copilot provider), Roo Code, Cline GPT-5.3-codex, GPT-5.4, GPT-5.5 (Pro) Официальный Codex OAuth — подписка прокидывается в агенты без доплат. Plus: 5 часов/неделю Codex. Pro: безлимит. Не путать с reverse proxy — это бан. chatgpt.com → Upgrade
Xiaomi MiMo Token Plan Lite / Standard / Pro / Max ¥39–659/мес (~$5–90/мес) OpenClaw, OpenCode MiMo-V2-Omni, MiMo-V2-Pro, MiMo-V2.5-Pro, MiMo-V2.5, MiMo-V2.5-TTS 20% скидка off-peak, до 30% экономии с auto-renewal Обзорplatform.xiaomimimo.com
Qwen Cloud Coding Plan $50/мес OpenCode, Claude Code, Cursor, Cline, Codex Qwen3.6-Plus, Kimi K2.5, GLM-5, MiniMax-M2.5 90K requests/мес, 45K/неделю, 6K / 5 часов qwen.ai
MiniMax Token Plan Starter / Plus / Max $10–80/мес ($100–800/год) OpenCode, OpenClaw MiniMax M2.5, M2.7 (Highspeed) 1 500–30 000 requests / 5 часов platform.minimax.io
Zhipu AI (GLM) Coding Plan Lite $30/квартал (~$10/мес) Claude Code, Cursor, Cline, OpenCode, OpenClaw, 20+ tools GLM-5.1, GLM-5-Turbo, GLM-4.7, GLM-4.6, GLM-4.5-Air ~3× Claude Pro usage, бесплатные MCP tools (Vision, Web Search, Web Reader) z.ai/subscribe
Zhipu AI (GLM) Coding Plan Pro $90/квартал (~$30/мес) Claude Code, Cursor, Cline, OpenCode, OpenClaw, 20+ tools Всё в Lite + GLM-5 ~5× Lite usage, разблокирован GLM-5 z.ai/subscribe
Zhipu AI (GLM) Coding Plan Max $240/квартал (~$80/мес) Claude Code, Cursor, Cline, OpenCode, OpenClaw, 20+ tools Всё в Pro ~4× Pro usage, для команд / интенсивного использования z.ai/subscribe
Alibaba Cloud Token Plan Team — Standard $30/seat/мес Популярные AI coding и agent tools Qwen 3.6/3.7, Kimi K2.5/K2.6, GLM-5/5.1, MiniMax M2.5, DeepSeek V4 25 000 Credits/seat/мес, только Singapore region Alibaba Cloud Docs
Alibaba Cloud Token Plan Team — Pro $100/seat/мес Популярные AI coding и agent tools Qwen 3.6/3.7, Kimi K2.5/K2.6, GLM-5/5.1, MiniMax M2.5, DeepSeek V4 100 000 Credits/seat/мес Alibaba Cloud Docs
Alibaba Cloud Token Plan Team — Max $200/seat/мес Популярные AI coding и agent tools Qwen 3.6/3.7, Kimi K2.5/K2.6, GLM-5/5.1, MiniMax M2.5, DeepSeek V4 250 000 Credits/seat/мес Alibaba Cloud Docs
GitHub Copilot Pro $10/мес OpenCode, Hermes (через ACP subprocess) Codex модели Auth через GitHub token (COPILOT_GITHUB_TOKEN / GH_TOKEN) github.com/features/copilot
Awan LLM Lite / Core / Plus / Pro / Max $0–80/мес Любой агент с OpenAI-совместимым API (OpenCode, OpenClaw, Hermes, Cline и др.) Llama 3.1 8B/70B, Mixtral и другие open-source модели Единственный провайдер с настоящим безлимитом по токенам (оплата за RPM). Max ($80/мес) — безлимит. Не логирует промпты. awanllm.com/pricing
Cerebras Code Free / Pro / Max $0–200/мес OpenCode, OpenClaw, Hermes, Cline, Crush Llama 3.3, GLM-4.7 (#1 tool calling на Berkeley leaderboard) 1000+ токенов/сек (wafer-scale engine). Pro: 24M токенов/день, Max: 120M. SOLD OUT — waitlist cerebras.ai/code

Бесплатные и условно-бесплатные

Категория «нет подписки, но есть free tier с лимитами, достаточными для разработки и небольших агентных нагрузок». Подходят как fallback-провайдеры и для прототипирования.

Провайдер Цена Агенты Модели Лимиты Где взять
Groq Free + prepaid OpenClaw, Hermes, OpenCode (нативная поддержка) Llama 3.3 70B/405B, Gemma, Mixtral Free: 14 400 req/день, 30 RPM. Developer ($10+ prepaid): 10× лимиты, выше приоритет console.groq.com
DeepSeek Free API tier + PAYG Любой агент (OpenAI-совместимый endpoint) DeepSeek V4 Flash (бесплатно), V4 Pro (75% скидка до 31.05.2026) V4 Flash: $0.14/$0.28 за 1M in/out. V4 Pro: $0.435/$0.87. 1M контекст. Кэш-хит: 1/50 цены api-docs.deepseek.com
Zhipu AI (GLM) Free Любой агент GLM-4.7-Flash, GLM-4.5-Flash Бесплатные модели навсегда, 203K контекст. Оптимизированы для скорости, не для сложных задач. z.ai

Подписки, запрещённые для агентов

Список вендоров, у которых в ToS или фактически в продакшене запрещено использовать подписку в сторонних агентах. Покупка такой подписки под автоматизацию — риск перманентного бана аккаунта.

Провайдер Подписка Цена Статус Дата Детали Что работает вместо
Anthropic Claude Pro / Max $20–200/мес Запрещено 4 апреля 2026 OAuth-токены от claude.ai заблокированы в сторонних инструментах. Claude Max API Proxy (community) тоже не работает. API ключ PAYG: $3–15 / $15–75 за 1M in/out
Google Gemini CLI / Antigravity $20/мес Банят Февраль 2026 ToS violation. Массовые 403 баны, перманентная блокировка GCP-аккаунта без предупреждения. Vertex AI PAYG (разрешено для агентов, но это не подписка)
OpenAI ChatGPT (reverse proxy) Plus / Pro через session token $20/мес Бан аккаунта Постоянно Reverse proxy / scraping через session token — нарушение ToS, перманентный бан. Codex OAuth (см. секцию 01) — официально разрешено
Важно. Большинство подписок рассчитаны на интерактивное использование (coding assistants), а не на автоматические скрипты или application backends. Alibaba Cloud Token Plan и Qwen Coding Plan явно запрещают использование для батчей и продакшн-бэкендов.
Внимание
Статус меняется быстро. Anthropic заблокировал OAuth в апреле 2026, Google — в феврале. Перед покупкой подписки проверяйте актуальную политику вендора. Данные в таблице актуальны на 22 мая 2026.

Границы исследования

Чтобы обзор не превратился в каталог «всё подряд», некоторые категории вендоров намеренно остались за скобками. Ниже — список и причины, по которым они не попали в таблицы выше.

Категория Примеры Почему вне обзора
Enterprise / корпоративные контракты AWS Bedrock, Azure OpenAI, Vertex AI custom pricing Индивидуальные цены и commitment-объёмы, не сравнимы с публичными PAYG. Требуют отдельного исследования под конкретный кейс.
Региональные платформы Yandex GPT, Sber GigaChat, Baidu ERNIE Привязаны к конкретному региону / валюте, ограниченная OpenAI-совместимость и слабая поддержка в популярных агентах (OpenClaw, OpenCode, Hermes).
Frontier-провайдеры без подписки для агентов Cohere Command R+, AI21 Jamba PAYG-only с фокусом на enterprise RAG. Нет подписочной модели под общие coding-агенты.
Self-hosted Ollama, LM Studio, vLLM, SGLang, llama.cpp Это инструменты запуска моделей, а не подписка / API. Стоимость = железо + электричество, считается отдельно.
SaaS-инструменты с зашитой LLM Cursor Pro, Replit Agent, Bolt, v0 Это IDE / no-code платформы; LLM внутри — деталь реализации, выбирать модель напрямую нельзя.
Фокус
Самые дешёвые PAYG API за 1M токенов, отзывы с форумов, тренды
Подход
Сравнение цен · разделение бот-промо от реальных отзывов · router-конфигурация
Период
Актуально на 22 мая 2026 — цены меняются ежеквартально
Источники
Reddit (r/LocalLLaMA, r/vibecoding, r/LLMDevs), Atlas Cloud, andrew.ooo, AIStackChoice, официальные docs

Рейтинг: самые дешёвые PAYG API за 1M токенов

Сводная таблица цен публичных PAYG endpoint'ов: вход, выход, кэш-хит, размер контекста и доступность open-source весов. Для сравнения в конце — Claude Opus 4.7 как «верхний потолок».

# Модель Вход $/1M Выход $/1M Кэш-хит Контекст Open Source Self-host
1 DeepSeek V4 Flash $0.14 $0.28 $0.0028 1M MIT да
2 Groq (Llama 3.3 70B) $0.59 $0.79 128K Free tier
3 Kimi K2.6 (Moonshot) $0.20 $0.95 $0.04 262K Mod. MIT да
4 GLM-4.7 (Zhipu AI) $0.60 $2.20 205K API
5 MiniMax M2.7 $0.30 $1.20 $0.06 196K Open да
6 DeepSeek V4 Pro $1.74 $3.48 $0.036 1M MIT да
7 xAI Grok 4.1 Fast $0.20 $0.50 128K Закрытый
8 GLM-4.7-Flash (Zhipu) FREE FREE 203K Free
Для сравнения: Claude Opus 4.7 $15.00 $75.00 $1.50 200K Закрытый

Источники: DeepSeek Docs, Groq Docs, xAI Docs, MiniMax Docs, GLM Pricing, andrew.ooo comparison.

Провайдеры только с PAYG (без подписок для агентов)

У этих провайдеров либо нет подписочного плана вообще, либо подписка ограничена web-интерфейсом и не прокидывается в API/агенты. Использование возможно только через PAYG или self-host — поэтому они оказались на этой вкладке, а не среди подписок.

Провайдер Модель Статус Что есть вместо
Moonshot AI (Kimi) Kimi K2.5 / K2.6 Без подписки API PAYG: $0.60/$2.50 за 1M in/out. Pro subscription (~$19/мес) — только web UI. Open-source (Modified MIT), self-host через vLLM/SGLang. Доступен через OpenCode Go ($10/мес).
Meta Llama Open source Self-host бесплатно (MIT license). API через партнёров (Together AI, Replicate, Fireworks, DeepInfra) — только PAYG.
Mistral La Plateforme Mistral Large / Medium / Small, Codestral, Magistral Только PAYG Прямой API через console.mistral.ai (la Plateforme). Codestral — специализированная code-модель, бесплатно для open-source / некоммерческих (Codestral License). Le Chat Pro — только web UI, не прокидывается в сторонние агенты. Подписки для агентов нет.

GPU-маркетплейсы для open-source моделей

Категория провайдеров, продающих PAYG-инференс на чужих GPU для open-source весов (Llama, DeepSeek, Mixtral, Qwen и др.). Подписочного плана нет, но цены на популярные open-source модели часто ниже чем у первоисточника. Используется как fallback в router-конфигурации или для редких моделей.

Провайдер Модели (примеры) Особенности Где брать
Together AI Llama 3.3 70B, DeepSeek V4, Qwen 3.6, Mixtral, 200+ моделей Самый широкий каталог open-source. OpenAI-совместимый API, dedicated endpoints для команд. together.ai
Fireworks AI Llama 3.3, DeepSeek V4, Qwen, Kimi K2.6 Низкая latency, function calling из коробки, fine-tuning через API. fireworks.ai
DeepInfra Llama, DeepSeek V4, Qwen, Mixtral Один из самых дешёвых для open-source. Простое ценообразование, OpenAI-совместимый API. deepinfra.com
Hyperbolic Llama 3.3, DeepSeek V4, Qwen 3.6 Также сдаёт сырые GPU (H100/H200) для self-host. PAYG + GPU rental в одном кабинете. hyperbolic.xyz
Replicate Llama, DeepSeek, Mixtral + image / audio модели Посекундная оплата GPU, cold-start latency для редких моделей, fine-tuning hub. replicate.com
Когда использовать: нужен open-source weight без self-host, особенно для редких моделей или быстрого переключения между провайдерами при rate-limit'е. Для frontier-моделей (GPT-5, Claude Opus, Grok 4.3) маркетплейсы не подходят — эти модели закрытые.

Отзывы по каждому провайдеру

Сжатые выжимки из обсуждений с форумов и независимых обзоров. «Хвалят» и «ругают» — компактная таблица; ниже — рекомендация по применению с привязкой к router pattern.

1. DeepSeek V4 Flash / Pro — абсолютный лидер по цене

PAYG: Flash $0.14/$0.28 за 1M in/out. Pro $1.74/$3.48 (75% скидка до 31.05.2026, потом $0.435/$0.87)

ХвалятРугают
  • «V4 Flash costs roughly 1% of Claude Opus 4.7 per output token, yet delivers performance rivaling models 100x more expensive» — aistackchoice.com
  • «DeepSeek is practically free» — r/LocalLLaMA
  • Code generation quality 93/100, matching Claude Opus 4.6
  • 1M контекст — обрабатывает целые кодовые базы
  • Function Calling error rate упал с ~15% до <2%
  • Потоковый вывод ~55–60 токенов/сек
  • Только текст — нет мультимодальности (vision/audio)
  • Pro tier throughput ограничен в пиковые часы
  • Occasional streaming interruptions в preview
  • Claude Opus 4.6 всё ещё лучше для large-scale system design
  • 429 Rate Limit при интенсивном использовании — наблюдалось в логах Hermes
Лучше всего для:
  • Batch-обработка — код-ревью, рефакторинг, документация
  • Cost-sensitive development — ежедневные задачи, прототипы
  • Router pattern Tier 1 — 70% трафика на самом дешёвом
  • Math & data analysis — топовая производительность

Источник: AIStackChoice review, CodersEra guide

2. Groq — ультра-быстрый бесплатный

PAYG: Free tier 14 400 req/день. Developer: $0.59/$0.79 за 1M. LPU-чип, 1000+ токенов/сек.

ХвалятРугают
  • Ultra-fast: 10–100× быстрее GPU-инференса
  • Бесплатный tier с щедрыми лимитами
  • Не банит за агентов — можно использовать в OpenClaw, Hermes
  • Отлично для real-time interactions
  • Жёсткие rate limits — 30 RPM на free tier
  • Только open-source модели (Llama, Gemma, Mixtral) — нет frontier
  • Не подписка, а prepaid-кредиты
  • Модели устаревают быстрее, чем у frontier-провайдеров
Лучше всего для:
  • Прототипы и POC — быстро, бесплатно
  • Real-time agents — минимальная задержка ответа
  • Fallback provider — в цепочке после основного провайдера

Источник: Groq Docs

3. Kimi K2.6 (Moonshot AI) — лучший для долгих агентных сессий

PAYG: $0.20/$0.95 за 1M in/out. Через OpenRouter: $0.45/$2.20. Auto context caching: скидка до 75%.

ХвалятРугают
  • Terminal-Bench 2.0: 66.7% — лучший среди open-source моделей
  • Сессия 4 000+ tool calls за 13 часов без перерыва — «stability ceiling no other open model reaches»
  • SWE-Bench Pro: 58.6%
  • Кросс-языковая генерализация: Rust, Go, Python, front-end, DevOps
  • Пресеты для Cline, Roo Code, Aider, OpenCode из коробки
  • Самый дорогой среди китайских open-source ($0.95/1M output)
  • Контекст 262K — меньше чем у DeepSeek V4 (1M) и Qwen 3.6 (1M)
  • Pro subscription (~$19/мес) — ТОЛЬКО для web UI, не для API
Лучше всего для:
  • Автономные coding agents — сессии по 1+ часу
  • Multi-language projects — Rust + Go + Python в одном проекте
  • Router pattern Tier 2 — 25% трафика на «умном»

Источник: Atlas Cloud comparison

4. MiniMax M2.7 — лучший value: 94% качества за 1/5 цены

PAYG: $0.30/$1.20 за 1M in/out. Highspeed: $0.60/$2.40. Token Plan: от $10/мес.

ХвалятРугают
  • 94% качества GLM-5.1 за 1/5 цены — best value по данным Atlas Cloud
  • MLE-Bench Lite: 66.6% medal rate — ML speciality
  • Правильно реализует критичные PyTorch детали (scaler.step/update)
  • Быстрый — 31 tool call в тесте bug fix (быстрее всех)
  • OpenAI-совместимый API
  • Только текст — нет мультимодальности
  • Benchmark scores ниже других на стандартных тестах
  • Генерирует устаревшие React patterns в UI-задачах
  • «I'm not really into the entire agent vibe» — r/LocalLLaMA
Лучше всего для:
  • ML training loops — градиенты, AMP, PyTorch
  • High-volume batch code review — самый дешёвый
  • Router pattern Tier 1 — для простых задач

Источник: Atlas Cloud, andrew.ooo

5. GLM-5.1 (Zhipu AI / Z.ai) — лучший для front-end и агентов

PAYG: $1.40/$4.40 за 1M in/out. Coding Plan: от ~$10/мес (Lite). GLM-4.7: $0.60/$2.20. GLM-4.7-Flash: FREE.

ХвалятРугают
  • Code Arena Elo 1 530 — топ-3 глобально по agentic web dev
  • React/Vue компоненты — корректный TypeScript + Tailwind с первого раза
  • 754B MoE — серьёзная модель
  • «Personally I prefer DeepSeek, then GLM, then Kimi, then MiniMax» — r/LocalLLaMA
  • nVidia NIM: «You can have it going all day and its free» — r/vibecoding
  • Самый дорогой в группе ($1.40/$4.40)
  • Меньше third-party tooling ecosystem
  • «GLM-5 is only available on Pro and Max Coding Plan tiers»
Лучше всего для:
  • React/Vue/Front-end generation — топ-3 в мире
  • Full-stack scaffolding — TypeScript + UI + API
  • Router pattern Tier 2 — для сложных UI-задач

Источник: Vibecoding.app, Atlas Cloud

6. xAI Grok 4.1 Fast / 4.3 — дешёвый frontier

PAYG: 4.1 Fast $0.20/$0.50. 4.3 $1.25/$2.50. Cached input: $0.20/1M (90% скидка).

ХвалятРугают
  • Grok 4.1 Fast — cheapest frontier-adjacent model available
  • Real-time X search grounding — уникальная фича
  • 1M контекст (Grok 4.3)
  • Официальная интеграция в OpenClaw через OAuth
  • Trails Claude на code generation quality
  • Trails OpenAI на function-calling reliability
  • Уже́е enterprise data-residency options
Лучше всего для:
  • Real-time search + reasoning — grounding на X постах
  • Дешёвый frontier — когда нужен «умный» но бюджет ограничен

Источник: AI Pricing Guru, xAI Docs

7. OpenRouter — агрегатор: удобно, но с нюансами

Цена зависит от модели (300+). Надбавка 5.5% при оплате картой. Нет подписки — только PAYG.

ХвалятРугают
  • Один API ключ — 300+ моделей
  • Auto-failover при rate limits
  • Удобно для прототипирования и сравнения
  • 25–40 ms overhead — приемлемо
  • Нет SLA — 3 outage за 8 месяцев (35–50 мин каждый)
  • 5.5% комиссия при покупке кредитов картой
  • Кредиты сгорают через 365 дней
  • Возвращал 401 «User not found» при инфраструктурных сбоях (исправлено)
  • Open-source модели через OpenRouter иногда хуже, чем напрямую
Лучше всего для: прототипирование, A/B тест моделей, low-stakes задачи.
Не для: production workloads без fallback на прямые провайдеры.

Источник: ofox.ai review

Тренды с форумов (май 2026)

Что обсуждают

  • «API pricing is in freefall» — r/LocalLLaMA, январь 2026: Kimi K2.5 вышел за ~10% цены Opus, DeepSeek «practically free».
  • Router pattern — самый популярный подход в production:
    • Tier 1 (~70% трафика): DeepSeek V4 Flash — $0.30/1M
    • Tier 2 (~25% трафика): Kimi K2.6 или GLM-5.1 — ~$1.00/1M
    • Tier 3 (~5% трафика): Claude Opus 4.7 — $75.00/1M
    Экономия 85–95% vs всё на Opus, с потерей качества <10%.
  • Китайская волна — 4 модели за 12 дней в апреле 2026: GLM-5.1, Kimi K2.6, MiniMax M2.7, DeepSeek V4 — «all landing at roughly the same capability ceiling at meaningfully lower cost».
  • Subscription fatigue — «What LLM subscriptions are you using for coding in 2026?» — r/LLMDevs: пользователи устали от множества подписок, переходят на PAYG + router.
  • nVidia NIM бесплатно — «You can have it going all day and its free» через GLM-5.1 на nVidia NIM — r/vibecoding.

Боты vs люди: кто продвигает платформы

Отделение реальных отзывов от платных кампаний — критичный шаг при оценке вендора. Ниже признаки бот-промо и оценка достоверности по провайдерам.

Признаки бот-промо
  • Overly positive reviews без конкретных use cases — часто встречается в обзорах MiniMax и GLM на блогах с affiliate-ссылками
  • Generic praise: «amazing model», «best I've ever used» — без бенчмарков или сравнений
  • Newly created Reddit accounts (< 30 дней) с 1–2 постами
  • Similar phrasing across multiple posts / platforms — координированные кампании
  • Статьи на доменах типа *review.com, *guide.ai — часто написаны LLM, не людьми
Признаки реальных отзывов
  • Конкретные проблемы: «rate limit at 2am», «context window too small for my monorepo»
  • Сравнение 2–3 моделей с конкретными результатами: «47/50 tests passing vs 43/50»
  • Reddit karma > 1000, постовая история > 6 месяцев
  • Упоминание edge cases: async context manager bugs, PyTorch scaler placement

Оценка по вендорам

Вендор Бот-активность Реальных отзывов Достоверность
DeepSeekНизкаяМного на r/LocalLLaMAВысокая
GroqНизкаяМного, практический опытВысокая
Kimi (Moonshot)НизкаяСредне, растётВысокая
MiniMaxСредняяМало, много SEO-статейСредняя
GLM (Zhipu)СредняяРастёт после Coding PlanСредняя
xAI (Grok)ВысокаяМного на X/TwitterНизкая — много промо Elon-фанатов
OpenRouterНизкаяМного честных обзоровВысокая

Итоговая рекомендация: Router Pattern

Оптимальная конфигурация для агентов на май 2026: трёхуровневый маршрутизатор. ~70% трафика уходит на самую дешёвую модель, ~25% на «умную» среднюю, ~5% на топовую. Это даёт экономию 85–95% vs Claude Opus с потерей качества меньше 10%.

Tier % трафика Модель Цена output/1M Назначение
Tier 1 ~70% DeepSeek V4 Flash $0.28 Простые задачи, batch, код-ревью, документация
Tier 2 ~25% Kimi K2.6 или GLM-5.1 $0.95 / $4.40 Сложный код, front-end, долгие агентные сессии
Tier 3 ~5% Claude Opus 4.7 или xAI Grok 4.3 $75 / $2.50 Large-scale system design, задачи где важен максимум качества
Итог
Бесплатный fallback: Groq (Llama 3.3 70B) — 14 400 req/день бесплатно, ultra-fast.
Экономия: 85–95% vs всё на Claude Opus, с потерей качества <10%.
Фокус
Транскрибация речи: облачные API, подписки-нотейкеры, open-source модели
Сценарии
Встречи · колл-центры · подкасты · юриспруденция · промышленность · приватный self-host
Период
Актуально на 23 мая 2026 — рынок стратифицируется быстро
Источники
Официальные документации OpenAI, Deepgram, AssemblyAI, Google, Amazon, Azure, Speechmatics, Groq, Gladia, ElevenLabs; GitHub OpenAI Whisper, GigaAM, NVIDIA NeMo; обсуждения Reddit и HN
Мета-обзор. Рынок STT стратифицировался: специализированные модели обгоняют универсальный Whisper от OpenAI на конкретных задачах, оставаясь конкурентными по цене. 40-кратный разброс цен между самым дешёвым и самым дорогим провайдером. Русский язык поддерживают 80% облачных сервисов, но качество сильно разнится.

Сводная таблица облачных API

Поминутная и почасовая стоимость, наличие бесплатного тира, поддержка стриминга, русского языка и диаризации спикеров у основных PAYG-провайдеров.

Провайдер Модель $/мин $/час Бесплатно Стриминг Русский Диаризация
OpenAI gpt-4o-mini-transcribe $0.003 $0.18 Нет ($5 кредит) Да 99+ яз. +$0
OpenAI gpt-4o-transcribe $0.006 $0.36 Нет Да 99+ яз. Да
OpenAI whisper-1 (legacy) $0.006 $0.36 Нет Нет 99+ яз.
Groq Whisper V3 Large $0.0019 $0.111 Free tier Нет Да
Groq Whisper Large v3 Turbo $0.00067 $0.04 Free tier Нет Да
fal.ai Wizper V3 $0.0005 $0.03 Нет Нет Да
Deepgram Nova-3 (batch) $0.0077 $0.46 $200 кредит Да Да +$0.002/мин
Deepgram Nova-3 (streaming) $0.0048 $0.29 $200 кредит Да Да +$0.002/мин
Deepgram Flux (batch) $0.0077 $0.46 $200 кредит Да Да +$0.002/мин
AssemblyAI Universal-3 Pro $0.0035 $0.21 185 ч/мес Да 99+ яз. +$0.0003/мин
AssemblyAI Universal-2 $0.0025 $0.15 185 ч/мес Да 99+ яз. +$0.0003/мин
AssemblyAI Universal-Streaming $0.0025 $0.15 333 ч/мес Да En только +$0.002/мин
Google Cloud Chirp 3 Dynamic Batch $0.003 $0.18 60 мин/мес Нет Да
Google Cloud Chirp 3 Standard $0.016 $0.96 60 мин/мес Да Да Да
Amazon Transcribe Standard $0.024 $1.44 60 мин/мес (12 мес) Да Да Да
Azure Speech Standard (real-time) $0.017 $1.00 5 ч/мес Да Да +$0.005/мин
Azure Speech Standard (batch) $0.003 $0.18 5 ч/мес Нет Да +$0.005/мин
Speechmatics Enhanced $0.004 $0.24 480 мин/мес Да 55+ яз. Да
Rev.ai Async $0.02 $1.20 Нет Да 37+ яз. Да
Gladia Solaria (async) $0.0102 $0.61 10 ч/мес Да 100+ яз. Да
ElevenLabs STT в подписку см. подписки Да 99+ яз. Да

Подписки, куда входит транскрибация

Альтернатива PAYG: фиксированный платёж в месяц. Подходит для регулярного потока встреч, интервью и созвонов. Разделена на три категории: «нотейкеры», платформы с встроенной транскрипцией и креативные инструменты.

Сервисы-«нотейкеры» (встречи → текст)

Сервис Что делает Подписка Языки Ссылка
Otter.ai AI-нотейкер для Zoom/Teams/Meet Free: 300 мин/мес · Pro: $8–17/мес (1200 мин) · Business: $20–30/мес (безлимит) En, мульти-язык otter.ai
Fireflies.ai AI-нотейкер + аналитика встреч Free: безлимит транскр., 800 мин хран. · Pro: $10–18/мес · Business: $19–29/мес 100+ яз. fireflies.ai
Rev Транскрибация + субтитры + AI-анализ Free: 45 мин/мес · Essentials: $25/мес (5000 мин) · Pro: $48/мес (10 000 мин) · Unlimited: custom 37+ яз. rev.com
Trint Транскрибация + редактор + перевод Starter: $52/мес (7 файлов) · Advanced: $80/мес (безлимит) · Enterprise: custom 40+ яз. trint.com
Noota AI-нотейкер для встреч и интервью Free: 5 встреч/мес · Pro: €19/мес · Business: €29/мес 50+ яз. noota.io

Платформы с транскрипцией «в комплекте»

Платформа Что входит Тариф Языки Примечание
Zoom AI Companion — автосаммари, транскрипция встречи Pro+ ($13.33/мес и выше) En, 30+ яз. Только для хоста с лицензией
Microsoft Teams Copilot → транскрипция + саммари Copilot M365 ($30/мес) 40+ яз. Входит в Microsoft 365 Copilot
Google Meet «Сохранить транскрипцию» + Duet AI Google Workspace ($8–18/мес) En, до 10 яз. Автоматическая транскрипция встроена
Google Workspace Gemini транскрибация + саммари Gemini Business / Enterprise 40+ яз. Входит в подписку Workspace
ElevenLabs STT API (Speech-to-Text) Free: 10 мин · Starter: $5/мес (30 мин) · Pro: $22/мес (100 мин) · Scale: $99/мес (500 мин) · Enterprise: custom 99+ яз. TTS + клонирование + STT в одном балансе. Блокирует доступ из РФ, Беларуси.

Креативные платформы с транскрипцией

Платформа Что входит Тариф
Descript Транскрибация → редактирование видео по тексту Free: 1 ч/мес · Hobbyist: $19/мес (10 ч) · Pro: $24/мес (безлимит)
CapCut Автосубтитры + транскрипция Free базово · Pro: $7.99/мес
DaVinci Resolve Встроенная транскрипция (Whisper) Free · Studio: $295 (единоразово)

Открытые модели (self-hosted)

Для случаев, когда нужна приватность (152-ФЗ), офлайн или кастомизация под домен. Три семейства: Whisper и его форки, русско-ориентированный GigaAM от Сбера и NVIDIA NeMo / Parakeet для стриминга и диаризации.

Whisper-семейство (OpenAI, open-source)

Вариант Что улучшает Скорость Память WER (ru) Репозиторий
Whisper large-v3 Базовая модель OpenAI ~10× real-time (CPU) ~10 GB VRAM ~12–15% openai/whisper
faster-whisper CTranslate2 оптимизация 4× быстрее whisper 3–4 GB VRAM (int8) ~12–15% SYSTRAN/faster-whisper
whisper.cpp C/C++ inference, CPU-first 2–3× faster-whisper на CPU ~5 GB RAM ~12–15% ggerganov/whisper.cpp
whisperX faster-whisper + forced alignment + diarization 4× whisper + diarization 4–6 GB VRAM ~12–15% + диаризация m-bain/whisperX
insanely-fast-whisper Batched inference на GPU 10× faster-whisper 8+ GB VRAM ~12–15% Vaibhavs10/insanely-fast-whisper

Отзывы сообщества: Whisper

ХвалятРугают
  • «Whisper large-v3 на русском — рабочая лошадка, особенно в связке faster-whisper + Pyannote для диаризации»
  • Хорошее покрытие 99+ языков из коробки
  • Большой ecosystem форков и оптимизаций
  • Hallucinations на тишине и музыке
  • Нет встроенной диаризации
  • Долгий на CPU без GPU
Совет: whisperX — лучшая сборка для продакшена: fast + diarization + alignment в одном пайплайне.

GigaAM (Salute Developers, Сбер)

Единственная крупная open-source модель, специально обученная на русском языке.

Архитектура
Conformer (220–240M параметров)
Объём предобучения
700 000 часов (v3)
Язык
Русский (специализация)
WER
На 30% ниже Whisper-large-v3 на новых доменах
Лицензия
Open-source
Word-level timestamps
Из коробки
Длинные аудио
transcribe_longform через Pyannote segmentation
Версии
v1 → v2 (−15% WER) → v3 (700K часов, −30% WER на новых доменах)
Репозиторий
github.com/salute-developers/GigaAM

Отзывы: GigaAM

ХвалятРугают
  • «GigaAM v3 лучше Whisper на русском с сильным акцентом и шуме»
  • Word-level timestamps из коробки — не нужен whisperX
  • Нет мультиязычности — только русский
  • Нужен HF_TOKEN для Pyannote (ограничение лицензии)

NVIDIA NeMo / Parakeet

Модель Назначение Язык Особенность
Parakeet-unified-en-0.6b (апрель 2026) Офлайн + стриминг ASR En 160 ms минимальная латентность, punctuation
Nemotron-Speech-Streaming (март 2026) Потоковое распознавание En Обучена на большем корпусе, ниже WER
NVIDIA NeMo Diarizer Диаризация спикеров Мульти State-of-the-art diarization

Репозиторий: github.com/NVIDIA/NeMo

Meta MMS (Massively Multilingual Speech)

Языки
1000+ языков
Модель
Wav2Vec 2.0
Лицензия
CC BY-NC 4.0 (некоммерческая)
Назначение
Исследования, low-resource языки
Hub
huggingface.co/facebook/mms-1b-all

Диаризация спикеров

Диаризация — отдельная задача «кто когда говорил». В облаке обычно встроена, в self-hosted — нужен отдельный движок.

Решение Тип WER / DER Цена Русский
Pyannote.audio 3.1 Open-source DER ~10–12% (зависит от домена) Бесплатно (HF Token) Да
NVIDIA NeMo Diarizer Open-source DER ~8–10% Бесплатно (GPU) Да
AssemblyAI Diarization Облако Встроена +$0.02/ч Да
Deepgram Diarization Облако Встроена +$0.12/ч Да
Rev.ai Diarization Облако Встроена Включена Да
Лучший выбор self-hosted: Pyannote 3.1 — стандарт индустрии, мягко интегрируется с Whisper/GigaAM через forced alignment.

Русский язык: что выбрать

Сводная рекомендация по приоритету: качество, цена, фичи, compliance или полная приватность.

Приоритет Рекомендация Почему
Лучшее качество, self-hosted GigaAM v3 + Pyannote 3.1 Специализация на русском, −30% WER vs Whisper
Быстро и дёшево, API Groq Whisper v3 Turbo ($0.04/ч) Бесплатный лимит, скорость 228× real-time
Баланс цена/качество, API OpenAI gpt-4o-mini-transcribe ($0.18/ч) Дёшево, с диаризацией, стриминг
Продакшен + features AssemblyAI Universal-2 ($0.15/ч) 185 ч бесплатно, диаризация, entities
Enterprise, compliance Speechmatics Enhanced ($0.24/ч) On-prem, 55+ языков, HIPAA
Полная приватность faster-whisper + Pyannote на своём GPU Данные не уходят наружу (152-ФЗ)

Сравнение по сценариям

Готовые рекомендации под конкретные кейсы: что выбрать без лишних компромиссов.

Сценарий Подписка API
Встречи и совещания (meeting notes) Otter.ai, Fireflies.ai, Rev, Zoom AI Companion, Teams Copilot AssemblyAI (streaming + diarization), Deepgram Nova-3
Колл-центры (call analytics) Deepgram Nova-3 (real-time streaming, 200 ms latency), Azure Speech, Amazon Transcribe Call Analytics
Медиа и подкасты (batch) Descript OpenAI gpt-4o-mini-transcribe (дёшево), Groq Whisper (быстро), AssemblyAI Universal-3 Pro (лучшее качество)
Юриспруденция (legal) Rev Pro (verbatim, 37 языков, custom templates) Speechmatics (on-prem, compliance)
Промышленность · Russian-only · приватность GigaAM v3 (локально, русский), faster-whisper + Pyannote (универсальный fallback)
Итог
На май 2026 связка GigaAM v3 + Pyannote 3.1 выигрывает там, где важен русский и приватность. Groq Whisper Turbo — лучший выбор по скорости и цене. AssemblyAI Universal-2 — универсальный продакшн с щедрым бесплатным тиром (185 ч/мес).

Источники (LLM): официальные документации OpenCode, xAI, Xiaomi MiMo, Qwen Cloud, MiniMax, Zhipu AI, Alibaba Cloud, OpenAI, Anthropic, Google, Moonshot AI, Cerebras, Awan LLM, Groq; Reddit (r/LocalLLaMA, r/vibecoding, r/LLMDevs, r/ChatGPTCoding, r/opencodeCLI); Atlas Cloud, andrew.ooo, AIStackChoice, ofox.ai, Vibecoding.app.

Источники (STT): официальные документации OpenAI, Deepgram, AssemblyAI, Google Cloud, Amazon Transcribe, Azure Speech, Speechmatics, Groq, Gladia, Rev, ElevenLabs, fal.ai; API Scout, CompareVoiceAI, CostGoat; репозитории OpenAI Whisper, SYSTRAN/faster-whisper, whisper.cpp, whisperX, salute-developers/GigaAM, NVIDIA NeMo, Pyannote.audio.

Агенты: OpenClaw, OpenCode, Hermes, Claude Code, Cursor, Cline, Kilo Code, Continue.dev и др.

Похожая задача?

Нужно подобрать LLM-стек под ваш контур?

Помогу с выбором подписок и PAYG-провайдеров под бюджет и режим использования, спроектирую router pattern с эскалацией и квота-трекингом, проведу через ИБ без перерасхода квот в первые недели эксплуатации.