Что такое Gemini 3.5 Flash и кто его создал
Gemini 3.5 Flash — флагманская «быстрая» модель Google DeepMind, представленная на конференции Google I/O 20 мая 2026 года. Это не бюджетный компромисс: при маркировке Flash модель обогнала Gemini 3.1 Pro сразу по нескольким ключевым направлениям — разработке кода, агентным задачам и использованию инструментов, — оставаясь при этом значительно дешевле флагманского Pro-уровня.
Google DeepMind позиционирует Gemini 3.5 Flash как основу для автономных AI-агентов и продвинутого кодирования. Модель доступна через Gemini API, Google AI Studio и Vertex AI. Идентификатор модели: gemini-3.5-flash.
Ключевые возможности
- Мультимодальность. Gemini 3.5 Flash принимает на вход текст, изображения, аудио, видео и PDF-документы. На выходе — текст объёмом до 64 000 токенов.
- Контекстное окно 1 млн токенов. Это один из наибольших контекстов среди коммерчески доступных моделей в 2026 году, что позволяет работать с целыми кодовыми базами, книгами или многочасовыми транскрипциями в рамках одного запроса.
- Режимы «мышления» (Thinking Modes). Модель поддерживает явное пошаговое рассуждение с настраиваемым бюджетом токенов на обдумывание. Режим high рекомендован для сложных математических задач и трудных алгоритмических проблем, режим minimal — для быстрых запросов, где критична скорость.
- Скорость генерации. По данным разработчика, модель выдаёт порядка 289 токенов в секунду — примерно в 4 раза быстрее, чем сопоставимые модели уровня Claude Opus 4.7 и GPT-5.5.
- Агентные инструменты. Встроенная поддержка функций (function calling), потоковой генерации (streaming), а также протокола MCP (Model Context Protocol) для интеграции со сторонними сервисами.
- Кэширование контекста. API поддерживает кэширование префиксов с 90%-ной скидкой на повторные обращения, что делает работу с длинными системными промптами экономически выгодной.
Бенчмарки
По данным разработчика, Gemini 3.5 Flash демонстрирует следующие результаты на ключевых тестах:
- SWE-bench Verified (написание и исправление кода): 78% — один из лучших показателей среди Flash-моделей.
- Terminal-Bench 2.1 (программирование в терминале): 76,2% — выше, чем у Gemini 3.1 Pro (70,3%).
- MCP Atlas (надёжность использования инструментов): 83,6% против 78,2% у 3.1 Pro.
- Finance Agent v2 (финансовые агентные задачи): 57,9% против 43,0% у 3.1 Pro.
- CharXiv Reasoning (мультимодальное рассуждение): 84,2%.
- GDPval-AA Elo (общий агентный рейтинг): 1656 против 1314 у 3.1 Pro.
По данным независимого агрегатора BenchLM.ai, Gemini 3.5 Flash занимает 3-е место из 124 моделей в категории «Агентное использование инструментов» с результатом 95/100, а также входит в топ-20 по рассуждению и мультимодальным задачам. Следует учитывать, что основная часть официальных результатов получена самим Google; независимая верификация третьими сторонами продолжается.
Цены в рублях
Прямое подключение к Google Gemini API из России сопряжено с ограничениями: российские платёжные карты не принимаются в Google Cloud, требуется VPN, а оплата возможна только в долларах. Актуальная стоимость через Google:
- Входные токены: $1,50 за 1 млн токенов
- Выходные токены: $9,00 за 1 млн токенов
- Кэшированные входные токены: $0,15 за 1 млн токенов
Через PlusVibe API модель доступна в рублях с оплатой российскими картами — без VPN, без валютных рисков и без необходимости регистрации в зарубежных сервисах. Актуальные тарифы на Gemini 3.5 Flash и другие модели смотрите на странице plusvibeapi.ru/models.
Как использовать Gemini 3.5 Flash из России
Подключение через PlusVibe API занимает несколько минут. API полностью совместим с форматом OpenAI, поэтому любой клиент, поддерживающий параметр base_url, будет работать без изменений в логике приложения.
Получите API-ключ на plusvibeapi.ru, затем используйте следующий пример на Python:
from openai import OpenAI
client = OpenAI(
api_key="ВАШ_PLUSVIBE_API_КЛЮЧ",
base_url="https://plusvibeapi.ru/v1",
)
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{
"role": "system",
"content": "Ты — полезный ассистент."
},
{
"role": "user",
"content": "Объясни концепцию квантовой запутанности простыми словами."
}
],
max_tokens=1024,
temperature=0.7,
)
print(response.choices[0].message.content)
Для использования режима мышления (thinking) добавьте параметр в запрос:
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "user", "content": "Реши задачу: найди все простые числа до 1000 и объясни алгоритм."}
],
extra_body={
"thinking": {"type": "enabled", "budget_tokens": 5000}
},
max_tokens=4096,
)
print(response.choices[0].message.content)
Тот же ключ работает для всех остальных моделей в каталоге PlusVibe — GPT-5.5, Claude Opus 4.7, Llama и других. Переключение между моделями требует лишь смены значения параметра model.
Итог
Gemini 3.5 Flash — одна из наиболее производительных моделей для агентных задач и разработки кода на рынке в середине 2026 года. Контекстное окно в 1 миллион токенов, скорость генерации в 289 токенов в секунду и встроенное пошаговое рассуждение делают её сильным выбором для API-разработчиков, которым нужна мощь без цены полного Pro-флагмана.
Для российских разработчиков PlusVibe API снимает главные барьеры: оплата рублями, отечественными картами, без VPN и иностранных аккаунтов. Вы получаете тот же Gemini 3.5 Flash через привычный OpenAI-совместимый интерфейс.
Начните работу с Gemini 3.5 Flash прямо сейчас — зарегистрируйтесь на plusvibeapi.ru и получите API-ключ. Полный список поддерживаемых моделей и актуальные цены доступны на plusvibeapi.ru/models.



