Аналитический обзор LLM · Подписки · PAYG API · STT Обновлено 23 мая 2026

LLM и транскрибация речи: подписки, PAYG API, STT

Какие вендоры продают подписки на LLM, разрешая использовать их в OpenClaw, OpenCode, Hermes и других агентах. Самые дешёвые PAYG API за 1M токенов. Отдельная закладка — обзор сервисов и моделей транскрибации речи: облачные API, подписки-нотейкеры и open-source стек с рекомендациями под русский язык.

Фокус: Подписки на LLM, разрешающие использование в сторонних AI-агентах
Агенты: OpenClaw · OpenCode · Hermes · Claude Code · Cursor · Cline · Kilo Code · Continue.dev
Период: Актуально на 22 мая 2026 — рынок меняется быстро
Источники: Официальные документации вендоров, обсуждения на Reddit, форумы разработчиков

Подписки, которые работают с агентами

Перечень провайдеров, у которых есть подписочный план, явно или фактически разрешающий использование подписки в сторонних агентных средах. Цены и лимиты приведены без надбавок посредников.

Провайдер	Подписка	Цена	Агенты	Модели	Лимиты / условия	Где купить
OpenCode Go	Go Plan	$5 первый месяц, далее $10/мес	OpenCode, OpenClaw, Hermes, любой агент с OpenAI-совместимым API	GLM-5.1, Kimi K2.5/K2.6, MiMo-V2.5-Pro, Qwen3.5/3.6 Plus, MiniMax M2.5/M2.7, DeepSeek V4 Pro/Flash (12 моделей)	200–31 650 requests / 5 часов (зависит от модели)	opencode.ai/go
xAI (Grok)	SuperGrok	$30/мес	OpenClaw (OAuth с 19.05.2026), Hermes (OAuth)	Grok 4.3, Grok 4.20, Grok 4.1 Fast	Официальная OAuth-интеграция, отдельный API-ключ не нужен	x.ai → Subscribe
xAI (Grok)	X Premium+	$40/мес ($395/год)	OpenClaw, Hermes	Grok 4.3, Grok 4.20, Grok 4.1 Fast	Приоритетный доступ к Grok, ad-free X	x.com/i/premium
OpenAI (Codex OAuth)	ChatGPT Plus / Pro / Team	$20–$200/мес	OpenClaw, Hermes (через Copilot provider), Roo Code, Cline	GPT-5.3-codex, GPT-5.4, GPT-5.5 (Pro)	Официальный Codex OAuth — подписка прокидывается в агенты без доплат. Plus: 5 часов/неделю Codex. Pro: безлимит. Не путать с reverse proxy — это бан.	chatgpt.com → Upgrade
Xiaomi MiMo	Token Plan Lite / Standard / Pro / Max	¥39–659/мес (~$5–90/мес)	OpenClaw, OpenCode	MiMo-V2-Omni, MiMo-V2-Pro, MiMo-V2.5-Pro, MiMo-V2.5, MiMo-V2.5-TTS	20% скидка off-peak, до 30% экономии с auto-renewal	Обзор platform.xiaomimimo.com
Qwen Cloud	Coding Plan	$50/мес	OpenCode, Claude Code, Cursor, Cline, Codex	Qwen3.6-Plus, Kimi K2.5, GLM-5, MiniMax-M2.5	90K requests/мес, 45K/неделю, 6K / 5 часов	qwen.ai
MiniMax	Token Plan Starter / Plus / Max	$10–80/мес ($100–800/год)	OpenCode, OpenClaw	MiniMax M2.5, M2.7 (Highspeed)	1 500–30 000 requests / 5 часов	platform.minimax.io
Zhipu AI (GLM)	Coding Plan Lite	$30/квартал (~$10/мес)	Claude Code, Cursor, Cline, OpenCode, OpenClaw, 20+ tools	GLM-5.1, GLM-5-Turbo, GLM-4.7, GLM-4.6, GLM-4.5-Air	~3× Claude Pro usage, бесплатные MCP tools (Vision, Web Search, Web Reader)	z.ai/subscribe
Zhipu AI (GLM)	Coding Plan Pro	$90/квартал (~$30/мес)	Claude Code, Cursor, Cline, OpenCode, OpenClaw, 20+ tools	Всё в Lite + GLM-5	~5× Lite usage, разблокирован GLM-5	z.ai/subscribe
Zhipu AI (GLM)	Coding Plan Max	$240/квартал (~$80/мес)	Claude Code, Cursor, Cline, OpenCode, OpenClaw, 20+ tools	Всё в Pro	~4× Pro usage, для команд / интенсивного использования	z.ai/subscribe
Alibaba Cloud	Token Plan Team — Standard	$30/seat/мес	Популярные AI coding и agent tools	Qwen 3.6/3.7, Kimi K2.5/K2.6, GLM-5/5.1, MiniMax M2.5, DeepSeek V4	25 000 Credits/seat/мес, только Singapore region	Alibaba Cloud Docs
Alibaba Cloud	Token Plan Team — Pro	$100/seat/мес	Популярные AI coding и agent tools	Qwen 3.6/3.7, Kimi K2.5/K2.6, GLM-5/5.1, MiniMax M2.5, DeepSeek V4	100 000 Credits/seat/мес	Alibaba Cloud Docs
Alibaba Cloud	Token Plan Team — Max	$200/seat/мес	Популярные AI coding и agent tools	Qwen 3.6/3.7, Kimi K2.5/K2.6, GLM-5/5.1, MiniMax M2.5, DeepSeek V4	250 000 Credits/seat/мес	Alibaba Cloud Docs
GitHub Copilot	Pro	$10/мес	OpenCode, Hermes (через ACP subprocess)	Codex модели	Auth через GitHub token (COPILOT_GITHUB_TOKEN / GH_TOKEN)	github.com/features/copilot
Awan LLM	Lite / Core / Plus / Pro / Max	$0–80/мес	Любой агент с OpenAI-совместимым API (OpenCode, OpenClaw, Hermes, Cline и др.)	Llama 3.1 8B/70B, Mixtral и другие open-source модели	Единственный провайдер с настоящим безлимитом по токенам (оплата за RPM). Max ($80/мес) — безлимит. Не логирует промпты.	awanllm.com/pricing
Cerebras Code	Free / Pro / Max	$0–200/мес	OpenCode, OpenClaw, Hermes, Cline, Crush	Llama 3.3, GLM-4.7 (#1 tool calling на Berkeley leaderboard)	1000+ токенов/сек (wafer-scale engine). Pro: 24M токенов/день, Max: 120M. SOLD OUT — waitlist	cerebras.ai/code

Бесплатные и условно-бесплатные

Категория «нет подписки, но есть free tier с лимитами, достаточными для разработки и небольших агентных нагрузок». Подходят как fallback-провайдеры и для прототипирования.

Провайдер	Цена	Агенты	Модели	Лимиты	Где взять
Groq	Free + prepaid	OpenClaw, Hermes, OpenCode (нативная поддержка)	Llama 3.3 70B/405B, Gemma, Mixtral	Free: 14 400 req/день, 30 RPM. Developer ($10+ prepaid): 10× лимиты, выше приоритет	console.groq.com
DeepSeek	Free API tier + PAYG	Любой агент (OpenAI-совместимый endpoint)	DeepSeek V4 Flash (бесплатно), V4 Pro (75% скидка до 31.05.2026)	V4 Flash: $0.14/$0.28 за 1M in/out. V4 Pro: $0.435/$0.87. 1M контекст. Кэш-хит: 1/50 цены	api-docs.deepseek.com
Zhipu AI (GLM)	Free	Любой агент	GLM-4.7-Flash, GLM-4.5-Flash	Бесплатные модели навсегда, 203K контекст. Оптимизированы для скорости, не для сложных задач.	z.ai

Подписки, запрещённые для агентов

Список вендоров, у которых в ToS или фактически в промышленной эксплуатации запрещено использовать подписку в сторонних агентах. Покупка такой подписки под автоматизацию — риск перманентного бана аккаунта.

Провайдер	Подписка	Цена	Статус	Дата	Детали	Что работает вместо
Anthropic Claude	Pro / Max	$20–200/мес	Запрещено	4 апреля 2026	OAuth-токены от claude.ai заблокированы в сторонних инструментах. Claude Max API Proxy (community) тоже не работает.	API ключ PAYG: $3–15 / $15–75 за 1M in/out
Google Gemini	CLI / Antigravity	$20/мес	Банят	Февраль 2026	ToS violation. Массовые 403 баны, перманентная блокировка GCP-аккаунта без предупреждения.	Vertex AI PAYG (разрешено для агентов, но это не подписка)
OpenAI ChatGPT (reverse proxy)	Plus / Pro через session token	$20/мес	Бан аккаунта	Постоянно	Reverse proxy / scraping через session token — нарушение ToS, перманентный бан.	Codex OAuth (см. секцию 01) — официально разрешено

Важно. Большинство подписок рассчитаны на интерактивное использование (coding assistants), а не на автоматические скрипты или application backends. Alibaba Cloud Token Plan и Qwen Coding Plan явно запрещают использование для батчей и продакшн-бэкендов.

Внимание

Статус меняется быстро. Anthropic заблокировал OAuth в апреле 2026, Google — в феврале. Перед покупкой подписки проверяйте актуальную политику вендора. Данные в таблице актуальны на 22 мая 2026.

Границы исследования

Чтобы обзор не превратился в каталог «всё подряд», некоторые категории вендоров намеренно остались за скобками. Ниже — список и причины, по которым они не попали в таблицы выше.

Категория	Примеры	Почему вне обзора
Enterprise / корпоративные контракты	AWS Bedrock, Azure OpenAI, Vertex AI custom pricing	Индивидуальные цены и commitment-объёмы, не сравнимы с публичными PAYG. Требуют отдельного исследования под конкретный кейс.
Региональные платформы	Yandex GPT, Sber GigaChat, Baidu ERNIE	Привязаны к конкретному региону / валюте, ограниченная OpenAI-совместимость и слабая поддержка в популярных агентах (OpenClaw, OpenCode, Hermes).
Frontier-провайдеры без подписки для агентов	Cohere Command R+, AI21 Jamba	PAYG-only с фокусом на enterprise RAG. Нет подписочной модели под общие coding-агенты.
Self-hosted	Ollama, LM Studio, vLLM, SGLang, llama.cpp	Это инструменты запуска моделей, а не подписка / API. Стоимость = железо + электричество, считается отдельно.
SaaS-инструменты с зашитой LLM	Cursor Pro, Replit Agent, Bolt, v0	Это IDE / no-code платформы; LLM внутри — деталь реализации, выбирать модель напрямую нельзя.

Фокус: Самые дешёвые PAYG API за 1M токенов, отзывы с форумов, тренды
Подход: Сравнение цен · разделение бот-промо от реальных отзывов · router-конфигурация
Период: Актуально на 22 мая 2026 — цены меняются ежеквартально
Источники: Reddit (r/LocalLLaMA, r/vibecoding, r/LLMDevs), Atlas Cloud, andrew.ooo, AIStackChoice, официальные docs

Рейтинг: самые дешёвые PAYG API за 1M токенов

Сводная таблица цен публичных PAYG endpoint'ов: вход, выход, кэш-хит, размер контекста и доступность open-source весов. Для сравнения в конце — Claude Opus 4.7 как «верхний потолок».

#	Модель	Вход $/1M	Выход $/1M	Кэш-хит	Контекст	Open Source	Self-host
1	DeepSeek V4 Flash	$0.14	$0.28	$0.0028	1M	MIT	да
2	Groq (Llama 3.3 70B)	$0.59	$0.79	—	128K	Free tier	—
3	Kimi K2.6 (Moonshot)	$0.20	$0.95	$0.04	262K	Mod. MIT	да
4	GLM-4.7 (Zhipu AI)	$0.60	$2.20	—	205K	API	—
5	MiniMax M2.7	$0.30	$1.20	$0.06	196K	Open	да
6	DeepSeek V4 Pro	$1.74	$3.48	$0.036	1M	MIT	да
7	xAI Grok 4.1 Fast	$0.20	$0.50	—	128K	Закрытый	—
8	GLM-4.7-Flash (Zhipu)	FREE	FREE	—	203K	Free	—
—	Для сравнения: Claude Opus 4.7	$15.00	$75.00	$1.50	200K	Закрытый	—

Источники: DeepSeek Docs, Groq Docs, xAI Docs, MiniMax Docs, GLM Pricing, andrew.ooo comparison.

Провайдеры только с PAYG (без подписок для агентов)

У этих провайдеров либо нет подписочного плана вообще, либо подписка ограничена web-интерфейсом и не прокидывается в API/агенты. Использование возможно только через PAYG или self-host — поэтому они оказались на этой вкладке, а не среди подписок.

Провайдер	Модель	Статус	Что есть вместо
Moonshot AI (Kimi)	Kimi K2.5 / K2.6	Без подписки	API PAYG: $0.60/$2.50 за 1M in/out. Pro subscription (~$19/мес) — только web UI. Open-source (Modified MIT), self-host через vLLM/SGLang. Доступен через OpenCode Go ($10/мес).
Meta	Llama	Open source	Self-host бесплатно (MIT license). API через партнёров (Together AI, Replicate, Fireworks, DeepInfra) — только PAYG.
Mistral La Plateforme	Mistral Large / Medium / Small, Codestral, Magistral	Только PAYG	Прямой API через console.mistral.ai (la Plateforme). Codestral — специализированная code-модель, бесплатно для open-source / некоммерческих (Codestral License). Le Chat Pro — только web UI, не прокидывается в сторонние агенты. Подписки для агентов нет.

GPU-маркетплейсы для open-source моделей

Категория провайдеров, продающих PAYG-инференс на чужих GPU для open-source весов (Llama, DeepSeek, Mixtral, Qwen и др.). Подписочного плана нет, но цены на популярные open-source модели часто ниже чем у первоисточника. Используется как fallback в router-конфигурации или для редких моделей.

Провайдер	Модели (примеры)	Особенности	Где брать
Together AI	Llama 3.3 70B, DeepSeek V4, Qwen 3.6, Mixtral, 200+ моделей	Самый широкий каталог open-source. OpenAI-совместимый API, dedicated endpoints для команд.	together.ai
Fireworks AI	Llama 3.3, DeepSeek V4, Qwen, Kimi K2.6	Низкая latency, function calling из коробки, fine-tuning через API.	fireworks.ai
DeepInfra	Llama, DeepSeek V4, Qwen, Mixtral	Один из самых дешёвых для open-source. Простое ценообразование, OpenAI-совместимый API.	deepinfra.com
Hyperbolic	Llama 3.3, DeepSeek V4, Qwen 3.6	Также сдаёт сырые GPU (H100/H200) для self-host. PAYG + GPU rental в одном кабинете.	hyperbolic.xyz
Replicate	Llama, DeepSeek, Mixtral + image / audio модели	Посекундная оплата GPU, cold-start latency для редких моделей, fine-tuning hub.	replicate.com

Когда использовать: нужен open-source weight без self-host, особенно для редких моделей или быстрого переключения между провайдерами при rate-limit'е. Для frontier-моделей (GPT-5, Claude Opus, Grok 4.3) маркетплейсы не подходят — эти модели закрытые.

Отзывы по каждому провайдеру

Сжатые выжимки из обсуждений с форумов и независимых обзоров. «Хвалят» и «ругают» — компактная таблица; ниже — рекомендация по применению с привязкой к router pattern.

1. DeepSeek V4 Flash / Pro — абсолютный лидер по цене

PAYG: Flash $0.14/$0.28 за 1M in/out. Pro $1.74/$3.48 (75% скидка до 31.05.2026, потом $0.435/$0.87)

Хвалят	Ругают
«V4 Flash costs roughly 1% of Claude Opus 4.7 per output token, yet delivers performance rivaling models 100x more expensive» — aistackchoice.com «DeepSeek is practically free» — r/LocalLLaMA Code generation quality 93/100, matching Claude Opus 4.6 1M контекст — обрабатывает целые кодовые базы Function Calling error rate упал с ~15% до <2% Потоковый вывод ~55–60 токенов/сек	Только текст — нет мультимодальности (vision/audio) Pro tier throughput ограничен в пиковые часы Occasional streaming interruptions в preview Claude Opus 4.6 всё ещё лучше для large-scale system design 429 Rate Limit при интенсивном использовании — наблюдалось в логах Hermes

Хвалят

Ругают

«V4 Flash costs roughly 1% of Claude Opus 4.7 per output token, yet delivers performance rivaling models 100x more expensive» — aistackchoice.com
«DeepSeek is practically free» — r/LocalLLaMA
Code generation quality 93/100, matching Claude Opus 4.6
1M контекст — обрабатывает целые кодовые базы
Function Calling error rate упал с ~15% до <2%
Потоковый вывод ~55–60 токенов/сек

Только текст — нет мультимодальности (vision/audio)
Pro tier throughput ограничен в пиковые часы
Occasional streaming interruptions в preview
Claude Opus 4.6 всё ещё лучше для large-scale system design
429 Rate Limit при интенсивном использовании — наблюдалось в логах Hermes

Лучше всего для:

Batch-обработка — код-ревью, рефакторинг, документация
Cost-sensitive development — ежедневные задачи, прототипы
Router pattern Tier 1 — 70% трафика на самом дешёвом
Math & data analysis — топовая производительность

Источник: AIStackChoice review, CodersEra guide

2. Groq — ультра-быстрый бесплатный

PAYG: Free tier 14 400 req/день. Developer: $0.59/$0.79 за 1M. LPU-чип, 1000+ токенов/сек.

Хвалят	Ругают
Ultra-fast: 10–100× быстрее GPU-инференса Бесплатный tier с щедрыми лимитами Не банит за агентов — можно использовать в OpenClaw, Hermes Отлично для real-time interactions	Жёсткие rate limits — 30 RPM на free tier Только open-source модели (Llama, Gemma, Mixtral) — нет frontier Не подписка, а prepaid-кредиты Модели устаревают быстрее, чем у frontier-провайдеров

Лучше всего для:

Прототипы и POC — быстро, бесплатно
Real-time agents — минимальная задержка ответа
Fallback provider — в цепочке после основного провайдера

Источник: Groq Docs

3. Kimi K2.6 (Moonshot AI) — лучший для долгих агентных сессий

PAYG: $0.20/$0.95 за 1M in/out. Через OpenRouter: $0.45/$2.20. Auto context caching: скидка до 75%.

Хвалят	Ругают
Terminal-Bench 2.0: 66.7% — лучший среди open-source моделей Сессия 4 000+ tool calls за 13 часов без перерыва — «stability ceiling no other open model reaches» SWE-Bench Pro: 58.6% Кросс-языковая генерализация: Rust, Go, Python, front-end, DevOps Пресеты для Cline, Roo Code, Aider, OpenCode из коробки	Самый дорогой среди китайских open-source ($0.95/1M output) Контекст 262K — меньше чем у DeepSeek V4 (1M) и Qwen 3.6 (1M) Pro subscription (~$19/мес) — ТОЛЬКО для web UI, не для API

Хвалят

Ругают

Terminal-Bench 2.0: 66.7% — лучший среди open-source моделей
Сессия 4 000+ tool calls за 13 часов без перерыва — «stability ceiling no other open model reaches»
SWE-Bench Pro: 58.6%
Кросс-языковая генерализация: Rust, Go, Python, front-end, DevOps
Пресеты для Cline, Roo Code, Aider, OpenCode из коробки

Самый дорогой среди китайских open-source ($0.95/1M output)
Контекст 262K — меньше чем у DeepSeek V4 (1M) и Qwen 3.6 (1M)
Pro subscription (~$19/мес) — ТОЛЬКО для web UI, не для API

Лучше всего для:

Автономные coding agents — сессии по 1+ часу
Multi-language projects — Rust + Go + Python в одном проекте
Router pattern Tier 2 — 25% трафика на «умном»

Источник: Atlas Cloud comparison

4. MiniMax M2.7 — лучший value: 94% качества за 1/5 цены

PAYG: $0.30/$1.20 за 1M in/out. Highspeed: $0.60/$2.40. Token Plan: от $10/мес.

Хвалят	Ругают
94% качества GLM-5.1 за 1/5 цены — best value по данным Atlas Cloud MLE-Bench Lite: 66.6% medal rate — ML speciality Правильно реализует критичные PyTorch детали (scaler.step/update) Быстрый — 31 tool call в тесте bug fix (быстрее всех) OpenAI-совместимый API	Только текст — нет мультимодальности Benchmark scores ниже других на стандартных тестах Генерирует устаревшие React patterns в UI-задачах «I'm not really into the entire agent vibe» — r/LocalLLaMA

Лучше всего для:

ML training loops — градиенты, AMP, PyTorch
High-volume batch code review — самый дешёвый
Router pattern Tier 1 — для простых задач

Источник: Atlas Cloud, andrew.ooo

5. GLM-5.1 (Zhipu AI / Z.ai) — лучший для front-end и агентов

PAYG: $1.40/$4.40 за 1M in/out. Coding Plan: от ~$10/мес (Lite). GLM-4.7: $0.60/$2.20. GLM-4.7-Flash: FREE.

Хвалят	Ругают
Code Arena Elo 1 530 — топ-3 глобально по agentic web dev React/Vue компоненты — корректный TypeScript + Tailwind с первого раза 754B MoE — серьёзная модель «Personally I prefer DeepSeek, then GLM, then Kimi, then MiniMax» — r/LocalLLaMA nVidia NIM: «You can have it going all day and its free» — r/vibecoding	Самый дорогой в группе ($1.40/$4.40) Меньше third-party tooling ecosystem «GLM-5 is only available on Pro and Max Coding Plan tiers»

Лучше всего для:

React/Vue/Front-end generation — топ-3 в мире
Full-stack scaffolding — TypeScript + UI + API
Router pattern Tier 2 — для сложных UI-задач

Источник: Vibecoding.app, Atlas Cloud

6. xAI Grok 4.1 Fast / 4.3 — дешёвый frontier

PAYG: 4.1 Fast $0.20/$0.50. 4.3 $1.25/$2.50. Cached input: $0.20/1M (90% скидка).

Хвалят	Ругают
Grok 4.1 Fast — cheapest frontier-adjacent model available Real-time X search grounding — уникальная фича 1M контекст (Grok 4.3) Официальная интеграция в OpenClaw через OAuth	Trails Claude на code generation quality Trails OpenAI на function-calling reliability Уже́е enterprise data-residency options

Лучше всего для:

Real-time search + reasoning — grounding на X постах
Дешёвый frontier — когда нужен «умный» но бюджет ограничен

Источник: AI Pricing Guru, xAI Docs

7. OpenRouter — агрегатор: удобно, но с нюансами

Цена зависит от модели (300+). Надбавка 5.5% при оплате картой. Нет подписки — только PAYG.

Хвалят	Ругают
Один API ключ — 300+ моделей Auto-failover при rate limits Удобно для прототипирования и сравнения 25–40 ms overhead — приемлемо	Нет SLA — 3 outage за 8 месяцев (35–50 мин каждый) 5.5% комиссия при покупке кредитов картой Кредиты сгорают через 365 дней Возвращал 401 «User not found» при инфраструктурных сбоях (исправлено) Open-source модели через OpenRouter иногда хуже, чем напрямую

Хвалят

Ругают

Один API ключ — 300+ моделей
Auto-failover при rate limits
Удобно для прототипирования и сравнения
25–40 ms overhead — приемлемо

Нет SLA — 3 outage за 8 месяцев (35–50 мин каждый)
5.5% комиссия при покупке кредитов картой
Кредиты сгорают через 365 дней
Возвращал 401 «User not found» при инфраструктурных сбоях (исправлено)
Open-source модели через OpenRouter иногда хуже, чем напрямую

Лучше всего для: прототипирование, A/B тест моделей, low-stakes задачи.
Не для: промышленные нагрузки без fallback на прямые провайдеры.

Источник: ofox.ai review

Тренды с форумов (май 2026)

Что обсуждают

«API pricing is in freefall» — r/LocalLLaMA, январь 2026: Kimi K2.5 вышел за ~10% цены Opus, DeepSeek «practically free».
Router pattern — самый популярный подход в production:
- Tier 1 (~70% трафика): DeepSeek V4 Flash — $0.30/1M
- Tier 2 (~25% трафика): Kimi K2.6 или GLM-5.1 — ~$1.00/1M
- Tier 3 (~5% трафика): Claude Opus 4.7 — $75.00/1M
Экономия 85–95% vs всё на Opus, с потерей качества <10%.
Китайская волна — 4 модели за 12 дней в апреле 2026: GLM-5.1, Kimi K2.6, MiniMax M2.7, DeepSeek V4 — «all landing at roughly the same capability ceiling at meaningfully lower cost».
Subscription fatigue — «What LLM subscriptions are you using for coding in 2026?» — r/LLMDevs: пользователи устали от множества подписок, переходят на PAYG + router.
nVidia NIM бесплатно — «You can have it going all day and its free» через GLM-5.1 на nVidia NIM — r/vibecoding.

Боты vs люди: кто продвигает платформы

Отделение реальных отзывов от платных кампаний — критичный шаг при оценке вендора. Ниже признаки бот-промо и оценка достоверности по провайдерам.

Признаки бот-промо

Overly positive reviews без конкретных use cases — часто встречается в обзорах MiniMax и GLM на блогах с affiliate-ссылками
Generic praise: «amazing model», «best I've ever used» — без бенчмарков или сравнений
Newly created Reddit accounts (< 30 дней) с 1–2 постами
Similar phrasing across multiple posts / platforms — координированные кампании
Статьи на доменах типа *review.com, *guide.ai — часто написаны LLM, не людьми

Признаки реальных отзывов

Конкретные проблемы: «rate limit at 2am», «context window too small for my monorepo»
Сравнение 2–3 моделей с конкретными результатами: «47/50 tests passing vs 43/50»
Reddit karma > 1000, постовая история > 6 месяцев
Упоминание edge cases: async context manager bugs, PyTorch scaler placement

Оценка по вендорам

Вендор	Бот-активность	Реальных отзывов	Достоверность
DeepSeek	Низкая	Много на r/LocalLLaMA	Высокая
Groq	Низкая	Много, практический опыт	Высокая
Kimi (Moonshot)	Низкая	Средне, растёт	Высокая
MiniMax	Средняя	Мало, много SEO-статей	Средняя
GLM (Zhipu)	Средняя	Растёт после Coding Plan	Средняя
xAI (Grok)	Высокая	Много на X/Twitter	Низкая — много промо Elon-фанатов
OpenRouter	Низкая	Много честных обзоров	Высокая

Итоговая рекомендация: Router Pattern

Оптимальная конфигурация для агентов на май 2026: трёхуровневый маршрутизатор. ~70% трафика уходит на самую дешёвую модель, ~25% на «умную» среднюю, ~5% на топовую. Это даёт экономию 85–95% vs Claude Opus с потерей качества меньше 10%.

Tier	% трафика	Модель	Цена output/1M	Назначение
Tier 1	~70%	DeepSeek V4 Flash	$0.28	Простые задачи, batch, код-ревью, документация
Tier 2	~25%	Kimi K2.6 или GLM-5.1	$0.95 / $4.40	Сложный код, front-end, долгие агентные сессии
Tier 3	~5%	Claude Opus 4.7 или xAI Grok 4.3	$75 / $2.50	Large-scale system design, задачи где важен максимум качества

Итог

Бесплатный fallback: Groq (Llama 3.3 70B) — 14 400 req/день бесплатно, ultra-fast.
Экономия: 85–95% vs всё на Claude Opus, с потерей качества <10%.

Фокус: Транскрибация речи: облачные API, подписки-нотейкеры, open-source модели
Сценарии: Встречи · колл-центры · подкасты · юриспруденция · промышленность · приватный self-host
Период: Актуально на 23 мая 2026 — рынок стратифицируется быстро
Источники: Официальные документации OpenAI, Deepgram, AssemblyAI, Google, Amazon, Azure, Speechmatics, Groq, Gladia, ElevenLabs; GitHub OpenAI Whisper, GigaAM, NVIDIA NeMo; обсуждения Reddit и HN

Мета-обзор. Рынок STT стратифицировался: специализированные модели обгоняют универсальный Whisper от OpenAI на конкретных задачах, оставаясь конкурентными по цене. 40-кратный разброс цен между самым дешёвым и самым дорогим провайдером. Русский язык поддерживают 80% облачных сервисов, но качество сильно разнится.

Сводная таблица облачных API

Поминутная и почасовая стоимость, наличие бесплатного тира, поддержка стриминга, русского языка и диаризации спикеров у основных PAYG-провайдеров.

Провайдер	Модель	$/мин	$/час	Бесплатно	Стриминг	Русский	Диаризация
OpenAI	gpt-4o-mini-transcribe	$0.003	$0.18	Нет ($5 кредит)	Да	99+ яз.	+$0
OpenAI	gpt-4o-transcribe	$0.006	$0.36	Нет	Да	99+ яз.	Да
OpenAI	whisper-1 (legacy)	$0.006	$0.36	Нет	Нет	99+ яз.	—
Groq	Whisper V3 Large	$0.0019	$0.111	Free tier	Нет	Да	—
Groq	Whisper Large v3 Turbo	$0.00067	$0.04	Free tier	Нет	Да	—
fal.ai	Wizper V3	$0.0005	$0.03	Нет	Нет	Да	—
Deepgram	Nova-3 (batch)	$0.0077	$0.46	$200 кредит	Да	Да	+$0.002/мин
Deepgram	Nova-3 (streaming)	$0.0048	$0.29	$200 кредит	Да	Да	+$0.002/мин
Deepgram	Flux (batch)	$0.0077	$0.46	$200 кредит	Да	Да	+$0.002/мин
AssemblyAI	Universal-3 Pro	$0.0035	$0.21	185 ч/мес	Да	99+ яз.	+$0.0003/мин
AssemblyAI	Universal-2	$0.0025	$0.15	185 ч/мес	Да	99+ яз.	+$0.0003/мин
AssemblyAI	Universal-Streaming	$0.0025	$0.15	333 ч/мес	Да	En только	+$0.002/мин
Google Cloud	Chirp 3 Dynamic Batch	$0.003	$0.18	60 мин/мес	Нет	Да	—
Google Cloud	Chirp 3 Standard	$0.016	$0.96	60 мин/мес	Да	Да	Да
Amazon	Transcribe Standard	$0.024	$1.44	60 мин/мес (12 мес)	Да	Да	Да
Azure	Speech Standard (real-time)	$0.017	$1.00	5 ч/мес	Да	Да	+$0.005/мин
Azure	Speech Standard (batch)	$0.003	$0.18	5 ч/мес	Нет	Да	+$0.005/мин
Speechmatics	Enhanced	$0.004	$0.24	480 мин/мес	Да	55+ яз.	Да
Rev.ai	Async	$0.02	$1.20	Нет	Да	37+ яз.	Да
Gladia	Solaria (async)	$0.0102	$0.61	10 ч/мес	Да	100+ яз.	Да
ElevenLabs	STT	в подписку	—	см. подписки	Да	99+ яз.	Да

Подписки, куда входит транскрибация

Альтернатива PAYG: фиксированный платёж в месяц. Подходит для регулярного потока встреч, интервью и созвонов. Разделена на три категории: «нотейкеры», платформы с встроенной транскрипцией и креативные инструменты.

Сервисы-«нотейкеры» (встречи → текст)

Сервис	Что делает	Подписка	Языки	Ссылка
Otter.ai	AI-нотейкер для Zoom/Teams/Meet	Free: 300 мин/мес · Pro: $8–17/мес (1200 мин) · Business: $20–30/мес (безлимит)	En, мульти-язык	otter.ai
Fireflies.ai	AI-нотейкер + аналитика встреч	Free: безлимит транскр., 800 мин хран. · Pro: $10–18/мес · Business: $19–29/мес	100+ яз.	fireflies.ai
Rev	Транскрибация + субтитры + AI-анализ	Free: 45 мин/мес · Essentials: $25/мес (5000 мин) · Pro: $48/мес (10 000 мин) · Unlimited: custom	37+ яз.	rev.com
Trint	Транскрибация + редактор + перевод	Starter: $52/мес (7 файлов) · Advanced: $80/мес (безлимит) · Enterprise: custom	40+ яз.	trint.com
Noota	AI-нотейкер для встреч и интервью	Free: 5 встреч/мес · Pro: €19/мес · Business: €29/мес	50+ яз.	noota.io

Платформы с транскрипцией «в комплекте»

Платформа	Что входит	Тариф	Языки	Примечание
Zoom	AI Companion — автосаммари, транскрипция встречи	Pro+ ($13.33/мес и выше)	En, 30+ яз.	Только для хоста с лицензией
Microsoft Teams	Copilot → транскрипция + саммари	Copilot M365 ($30/мес)	40+ яз.	Входит в Microsoft 365 Copilot
Google Meet	«Сохранить транскрипцию» + Duet AI	Google Workspace ($8–18/мес)	En, до 10 яз.	Автоматическая транскрипция встроена
Google Workspace	Gemini транскрибация + саммари	Gemini Business / Enterprise	40+ яз.	Входит в подписку Workspace
ElevenLabs	STT API (Speech-to-Text)	Free: 10 мин · Starter: $5/мес (30 мин) · Pro: $22/мес (100 мин) · Scale: $99/мес (500 мин) · Enterprise: custom	99+ яз.	TTS + клонирование + STT в одном балансе. Блокирует доступ из РФ, Беларуси.

Креативные платформы с транскрипцией

Платформа	Что входит	Тариф
Descript	Транскрибация → редактирование видео по тексту	Free: 1 ч/мес · Hobbyist: $19/мес (10 ч) · Pro: $24/мес (безлимит)
CapCut	Автосубтитры + транскрипция	Free базово · Pro: $7.99/мес
DaVinci Resolve	Встроенная транскрипция (Whisper)	Free · Studio: $295 (единоразово)

Открытые модели (self-hosted)

Для случаев, когда нужна приватность (152-ФЗ), офлайн или кастомизация под домен. Три семейства: Whisper и его форки, русско-ориентированный GigaAM от Сбера и NVIDIA NeMo / Parakeet для стриминга и диаризации.

Whisper-семейство (OpenAI, open-source)

Вариант	Что улучшает	Скорость	Память	WER (ru)	Репозиторий
Whisper large-v3	Базовая модель OpenAI	~10× real-time (CPU)	~10 GB VRAM	~12–15%	openai/whisper
faster-whisper	CTranslate2 оптимизация	4× быстрее whisper	3–4 GB VRAM (int8)	~12–15%	SYSTRAN/faster-whisper
whisper.cpp	C/C++ inference, CPU-first	2–3× faster-whisper на CPU	~5 GB RAM	~12–15%	ggerganov/whisper.cpp
whisperX	faster-whisper + forced alignment + diarization	4× whisper + diarization	4–6 GB VRAM	~12–15% + диаризация	m-bain/whisperX
insanely-fast-whisper	Batched inference на GPU	10× faster-whisper	8+ GB VRAM	~12–15%	Vaibhavs10/insanely-fast-whisper

Отзывы сообщества: Whisper

Хвалят	Ругают
«Whisper large-v3 на русском — рабочая лошадка, особенно в связке faster-whisper + Pyannote для диаризации» Хорошее покрытие 99+ языков из коробки Большой ecosystem форков и оптимизаций	Hallucinations на тишине и музыке Нет встроенной диаризации Долгий на CPU без GPU

Совет: whisperX — лучшая сборка для промышленной эксплуатации: fast + diarization + alignment в одном пайплайне.

GigaAM (Salute Developers, Сбер)

Единственная крупная open-source модель, специально обученная на русском языке.

Архитектура: Conformer (220–240M параметров)
Объём предобучения: 700 000 часов (v3)
Язык: Русский (специализация)
WER: На 30% ниже Whisper-large-v3 на новых доменах
Лицензия: Open-source
Word-level timestamps: Из коробки
Длинные аудио: transcribe_longform через Pyannote segmentation
Версии: v1 → v2 (−15% WER) → v3 (700K часов, −30% WER на новых доменах)
Репозиторий: github.com/salute-developers/GigaAM

Отзывы: GigaAM

Хвалят	Ругают
«GigaAM v3 лучше Whisper на русском с сильным акцентом и шуме» Word-level timestamps из коробки — не нужен whisperX	Нет мультиязычности — только русский Нужен HF_TOKEN для Pyannote (ограничение лицензии)

NVIDIA NeMo / Parakeet

Модель	Назначение	Язык	Особенность
Parakeet-unified-en-0.6b (апрель 2026)	Офлайн + стриминг ASR	En	160 ms минимальная латентность, punctuation
Nemotron-Speech-Streaming (март 2026)	Потоковое распознавание	En	Обучена на большем корпусе, ниже WER
NVIDIA NeMo Diarizer	Диаризация спикеров	Мульти	State-of-the-art diarization

Репозиторий: github.com/NVIDIA/NeMo

Meta MMS (Massively Multilingual Speech)

Языки: 1000+ языков
Модель: Wav2Vec 2.0
Лицензия: CC BY-NC 4.0 (некоммерческая)
Назначение: Исследования, low-resource языки
Hub: huggingface.co/facebook/mms-1b-all

Диаризация спикеров

Диаризация — отдельная задача «кто когда говорил». В облаке обычно встроена, в self-hosted — нужен отдельный движок.

Решение	Тип	WER / DER	Цена	Русский
Pyannote.audio 3.1	Open-source	DER ~10–12% (зависит от домена)	Бесплатно (HF Token)	Да
NVIDIA NeMo Diarizer	Open-source	DER ~8–10%	Бесплатно (GPU)	Да
AssemblyAI Diarization	Облако	Встроена	+$0.02/ч	Да
Deepgram Diarization	Облако	Встроена	+$0.12/ч	Да
Rev.ai Diarization	Облако	Встроена	Включена	Да

Лучший выбор self-hosted: Pyannote 3.1 — стандарт индустрии, мягко интегрируется с Whisper/GigaAM через forced alignment.

Русский язык: что выбрать

Сводная рекомендация по приоритету: качество, цена, фичи, compliance или полная приватность.

Приоритет	Рекомендация	Почему
Лучшее качество, self-hosted	GigaAM v3 + Pyannote 3.1	Специализация на русском, −30% WER vs Whisper
Быстро и дёшево, API	Groq Whisper v3 Turbo ($0.04/ч)	Бесплатный лимит, скорость 228× real-time
Баланс цена/качество, API	OpenAI gpt-4o-mini-transcribe ($0.18/ч)	Дёшево, с диаризацией, стриминг
Продакшен + features	AssemblyAI Universal-2 ($0.15/ч)	185 ч бесплатно, диаризация, entities
Enterprise, compliance	Speechmatics Enhanced ($0.24/ч)	On-prem, 55+ языков, HIPAA
Полная приватность	faster-whisper + Pyannote на своём GPU	Данные не уходят наружу (152-ФЗ)

Сравнение по сценариям

Готовые рекомендации под конкретные кейсы: что выбрать без лишних компромиссов.

Сценарий	Подписка	API
Встречи и совещания (meeting notes)	Otter.ai, Fireflies.ai, Rev, Zoom AI Companion, Teams Copilot	AssemblyAI (streaming + diarization), Deepgram Nova-3
Колл-центры (call analytics)	—	Deepgram Nova-3 (real-time streaming, 200 ms latency), Azure Speech, Amazon Transcribe Call Analytics
Медиа и подкасты (batch)	Descript	OpenAI gpt-4o-mini-transcribe (дёшево), Groq Whisper (быстро), AssemblyAI Universal-3 Pro (лучшее качество)
Юриспруденция (legal)	Rev Pro (verbatim, 37 языков, custom templates)	Speechmatics (on-prem, compliance)
Промышленность · Russian-only · приватность	—	GigaAM v3 (локально, русский), faster-whisper + Pyannote (универсальный fallback)

Итог

На май 2026 связка GigaAM v3 + Pyannote 3.1 выигрывает там, где важен русский и приватность. Groq Whisper Turbo — лучший выбор по скорости и цене. AssemblyAI Universal-2 — универсальный продакшн с щедрым бесплатным тиром (185 ч/мес).

Источники (LLM): официальные документации OpenCode, xAI, Xiaomi MiMo, Qwen Cloud, MiniMax, Zhipu AI, Alibaba Cloud, OpenAI, Anthropic, Google, Moonshot AI, Cerebras, Awan LLM, Groq; Reddit (r/LocalLLaMA, r/vibecoding, r/LLMDevs, r/ChatGPTCoding, r/opencodeCLI); Atlas Cloud, andrew.ooo, AIStackChoice, ofox.ai, Vibecoding.app.

Источники (STT): официальные документации OpenAI, Deepgram, AssemblyAI, Google Cloud, Amazon Transcribe, Azure Speech, Speechmatics, Groq, Gladia, Rev, ElevenLabs, fal.ai; API Scout, CompareVoiceAI, CostGoat; репозитории OpenAI Whisper, SYSTRAN/faster-whisper, whisper.cpp, whisperX, salute-developers/GigaAM, NVIDIA NeMo, Pyannote.audio.

Агенты: OpenClaw, OpenCode, Hermes, Claude Code, Cursor, Cline, Kilo Code, Continue.dev и др.

Похожая задача?

Нужно подобрать LLM-стек под ваш контур?

Помогу с выбором подписок и PAYG-провайдеров под бюджет и режим использования, спроектирую router pattern с эскалацией и квота-трекингом, проведу через ИБ без перерасхода квот в первые недели эксплуатации.

Обсудить Все кейсы