MiniMax-M3: всё в одной мультимодальной модели

MiniMax (Китай) выпустил M3 — модель, которая работает с текстом, изображениями, аудио и видео через единый API. В 2026 году мультимодальность стала базовым требованием, а не дополнительной функцией.

Что умеет MiniMax-M3

Текст: LLM-возможности, 128K контекст
Изображения: анализ и генерация (MiniMax Image-01, $0.01/изображение)
Аудио: TTS с 100+ голосами включая русские; STT (речь в текст)
Видео: генерация коротких клипов из текста или изображений

Цены

Текст: $0.30/1M input, $1.20/1M output — в 5-10× дешевле GPT-5.5
Изображения: $0.01 за генерацию
TTS: $0.014 за 1000 символов
Видео: от $0.20 за клип

Применения

Подкасты из текста: статья → TTS с реалистичным голосом
Видео-дайджесты: новостной текст → нарезка с иллюстрациями
Интерактивные помощники: понимают голос и изображения одновременно
Доступность: текст → аудио для слабовидящих

Доступ из России

MiniMax доступен в PlusVibe как or-minimax-m3 для текстового режима. Рублёвые цены ~22 руб/1M input, ~89 руб/1M output.

MiniMax и мультимодальные модели через PlusVibe

Рублёвые цены, без VPN, без иностранных карт.

Зарегистрироваться →

MiniMax-M3: мультимодальная модель с видео, аудио и текстом