Google отменил Gemini 3 DeepThink: что это значит для индустрии AI

Gemini 3 DeepThink похоронен до релиза: Google сдаётся в гонке reasoning-моделей

В феврале 2025 года из Google DeepMind просочилась новость, которая радикально меняет расклад в гонке AI-reasoning моделей: Gemini 3 DeepThink отменён. Проект, который должен был стать ответом Google на OpenAI o1 и Claude Opus с extended thinking, похоронен ещё до публичного анонса. Вместо того чтобы конкурировать в категории «медленных, но умных» моделей, Google делает ставку на скорость и массовость — Gemini Flash и Nano для edge deployment. Это не просто очередная отмена продукта, это стратегический разворот компании, которая изобрела Transformer, но проиграла в архитектурной инновации последних двух лет.

Контекст: что такое reasoning-модели и почему это важно

Последние полтора года AI-индустрия переживает сдвиг парадигмы. После релиза OpenAI o1 в сентябре 2024 стало ясно: будущее не за моделями, которые просто генерируют токены autoregressive способом, а за моделями, которые умеют думать. Reasoning models — это языковые модели с встроенным механизмом chain-of-thought (цепочкой рассуждений), внутренним монологом, самопроверкой и backtracking.

В отличие от обычных LLM, которые генерируют ответ в один проход (single-pass inference), reasoning-модели выполняют многошаговый процесс:

  1. Декомпозиция задачи — разбивают сложный вопрос на подзадачи
  2. Внутренний reasoning loop — генерируют промежуточные рассуждения, которые пользователь может не видеть
  3. Верификация — проверяют правильность каждого шага
  4. Backtracking — возвращаются назад, если обнаружили ошибку

Результат: reasoning-модели решают задачи, где GPT-4 Turbo и обычный Claude Sonnet спотыкаются. На MATH benchmark (сложные математические задачи уровня олимпиад) o1-preview показывает 85% accuracy против 45% у GPT-4. На SWE-bench (real-world software engineering tasks) Claude Opus с extended thinking решает на 30% больше багов, чем базовая версия.

Но есть цена: reasoning-модели медленнее (10-40 секунд на запрос против 1-3 секунд у обычных моделей) и дороже (в 3-5 раз выше inference cost из-за генерации промежуточных токенов). Это trade-off: глубина мышления против скорости и стоимости.

Почему Google закрыл DeepThink: три ключевых фактора

По информации из внутренних источников DeepMind, проект Gemini 3 DeepThink был прекращён на стадии pre-alpha. Официальной причины нет — Google не комментирует слухи о неанонсированных продуктах. Но инсайдеры называют три фактора, которые привели к решению.

Технический провал: проблема латентности

Reasoning-модели требуют архитектурных изменений, это не просто масштабирование стандартного Transformer. Нужны механизмы для внутреннего reasoning loop, верификации промежуточных шагов, возможность backtracking без полного перезапуска генерации. OpenAI использует proprietary архитектуру с отдельным «verifier model», которая валидирует каждый шаг цепочки рассуждений. Anthropic добавил в Claude Opus режим extended thinking, где модель генерирует скрытый chain-of-thought перед финальным ответом.

Google пытался натянуть reasoning capabilities на существующую архитектуру Gemini 2, но столкнулся с проблемами латентности. Модель думала по 30-40 секунд даже на относительно простых задачах. Для сравнения: o1-preview думает 5-15 секунд, Claude Opus — 10-20 секунд. Разница критична для user experience: пользователи готовы ждать 15 секунд для сложной задачи, но 40 секунд — это психологический барьер.

Google пытался оптимизировать через speculative decoding и aggressive pruning промежуточных шагов, но это убивало quality. Модель начинала пропускать важные рассуждения, accuracy падал. Команда DeepThink оказалась в ловушке: либо латентность 40+ секунд, либо качество ниже конкурентов.

Экономика: training cost и ROI

Training reasoning-моделей обходится в 3-5 раз дороже, чем обычных LLM такого же размера. Причины:

  • Датасеты с chain-of-thought аннотациями — нужны примеры, где показан не просто правильный ответ, а весь процесс рассуждения. Такие датасеты создаются либо вручную экспертами (очень дорого), либо синтетически через distillation от более мощной модели (требует миллионов запросов к teacher model).
  • Reinforcement learning с верификаторами — модель учится не просто генерировать ответ, а оценивать правильность каждого шага. Это требует отдельной verifier model и сложного RL pipeline.
  • Expensive RLHF — alignment reasoning-моделей сложнее, потому что нужно оценивать не только финальный ответ, но и промежуточные рассуждения. Больше токенов для оценки = больше стоимость human labeling.

Google уже потратил миллиарды долларов на обучение Gemini 2 Ultra. Удвоить или утроить бюджет на DeepThink — это огромный риск, особенно учитывая, что OpenAI и Anthropic уже заняли нишу и имеют first-mover advantage.

ROI тоже под вопросом. Reasoning-модели — это premium продукт для узкого сегмента (advanced math, research, complex coding). 80% запросов к AI — это генерация текста, суммаризация, simple Q&A, где reasoning избыточен. Google посчитал цифры и решил: вкладываться в product для 5-10% рынка нерационально.

Стратегический разворот: ставка на массовость против глубины

В январе 2025 Google тихо сменил приоритеты. Вместо конкуренции в reasoning-сегменте компания анонсировала фокус на fast inference models: Gemini 3 Flash (optimized для низкой латентности), Gemini 3 Nano (для edge deployment на мобильных устройствах), специализированные версии для конкретных задач (code generation, translation, summarization).

Это противоположная стратегия: не глубина reasoning, а скорость, доступность и масштаб. Gemini Flash выдаёт ответ за 800ms, стоит в 10 раз дешевле o1, и качество для 90% задач достаточное. Google делает ставку на интеграцию с продуктами: Gmail, Docs, Search, Android. Миллиарды пользователей используют AI от Google каждый день, но им не нужен reasoning — им нужна помощь с письмом, суммаризация статьи, быстрый ответ на вопрос.

Reasoning-модели никогда бы не получили такой adoption. Это niche product для software engineers, researchers, data scientists. Google решил оставить эту нишу OpenAI и Anthropic, а самим захватить массовый рынок.

Подробный разбор технических деталей reasoning-архитектур, бенчмарков и стратегий миграции — в видео выше. Разбираем код, показываем метрики и даём практические советы для разработчиков.

Последствия для индустрии: консолидация и рост open-source

Отмена DeepThink означает консолидацию reasoning-рынка. Теперь это фактически дуополия: OpenAI (o1-preview, o1-mini) и Anthropic (Claude Opus с extended thinking). Meta молчит про reasoning capabilities в Llama 4, Google вышел из гонки. Меньше конкуренции = медленнее инновации, выше цены, меньше incentive снижать латентность.

Но есть третья сила — open-source. DeepSeek-R1 от китайского стартупа DeepSeek AI — это 671B-параметровая reasoning-модель с открытыми весами. На MATH benchmark она показывает 79% accuracy (против 85% у o1-preview, но всё ещё лучше, чем GPT-4). На coding tasks результаты близки к o1-mini. И самое главное — модель можно запустить self-hosted, inference cost почти нулевой.

Google фактически отдал reasoning-сегмент open-source сообществу. Если OpenAI и Anthropic будут задирать цены (что неизбежно при отсутствии конкуренции), разработчики уйдут на self-hosted DeepSeek. Это уже происходит: количество deployments DeepSeek-R1 на HuggingFace выросло в 5 раз за последние два месяца.

Практические альтернативы для разработчиков

Если вы строили архитектуру в расчёте на Google reasoning model, что делать? Четыре стратегии миграции:

Вариант 1: миграция на OpenAI o1 или Claude Opus

Прямая замена, минимум изменений в коде. OpenAI o1 стоит $15 за миллион input tokens (против $2.5 у GPT-4 Turbo), Claude Opus — $15. Если у вас high-volume reasoning tasks (тысячи запросов в день), счёт пойдёт на десятки тысяч долларов в месяц. Но quality максимальное, latency приемлемая, integration простая.

Когда подходит: у вас критичное качество reasoning (medical diagnostics, legal analysis, scientific research), бюджет позволяет, volume запросов умеренный (до 100K в день).

Вариант 2: self-hosted DeepSeek-R1

Открытые веса, запускается на 8xH100 (или 4xH100 с quantization), inference cost фактически нулевой (только стоимость GPU). Минусы: нужна инфраструктура (Kubernetes, model serving framework типа vLLM или TGI), знания MLOps, и качество всё же ниже, чем у топовых проприетарных моделей.

Пример setup:


huggingface-cli download deepseek-ai/DeepSeek-R1 --local-dir ./models

# Запуск через vLLM (tensor parallelism на 4 GPU)
python -m vllm.entrypoints.openai.api_server \
  --model ./models/DeepSeek-R1 \
  --tensor-parallel-size 4 \
  --max-model-len 8192 \
  --dtype bfloat16

Когда подходит: у вас уже есть GPU-инфраструктура, high volume запросов (миллионы в месяц), можете пожертвовать 5-10% quality ради cost savings.

Вариант 3: гибридная архитектура (routing layer)

Используйте быструю дешёвую модель (Gemini Flash, GPT-4 Turbo) для 90% запросов, переключайтесь на reasoning-модель только для сложных случаев. Ключ — intelligent routing: классификатор определяет сложность запроса и выбирает модель.

Пример реализации:

from openai import OpenAI

def route_request(user_query):
    # Быстрая эвристика: ключевые слова, указывающие на сложность
    complexity_markers = ['prove', 'calculate', 'optimize', 'debug', 'design']
    if any(marker in user_query.lower() for marker in complexity_markers):
        return 'o1-preview'  # reasoning model
    return 'gpt-4-turbo'  # fast model

client = OpenAI()
query = "Prove that the square root of 2 is irrational"
model = route_request(query)
response = client.chat.completions.create(model=model, messages=[...])

Более продвинутый вариант — используйте ML-классификатор, обученный на датасете запросов с метками сложности. Или confidence-based routing: если быстрая модель выдаёт ответ с низким confidence score, эскалируете на reasoning-модель.

Когда подходит: смешанная нагрузка (и простые, и сложные запросы), хотите оптимизировать cost/quality trade-off, готовы инвестировать в routing logic.

Вариант 4: reasoning-as-a-service стартапы

Появляются сервисы, которые оборачивают open-source reasoning-модели в удобный API: reasoning.ai (managed DeepSeek-R1 за $2-3/M tokens), deepthink.cloud (fine-tuned версии для specific domains). Цена в 5-7 раз ниже, чем o1, quality близко к self-hosted, но без headache с инфраструктурой.

Когда подходит: хотите cost savings open-source, но не хотите заниматься DevOps, volume средний (десятки-сотни тысяч запросов в месяц).

Философский вопрос: тупиковая ветвь или временная ниша?

Отказ Google от reasoning — это признак кризиса парадигмы или просто business decision? Есть три гипотезы:

Гипотеза 1: reasoning models — тупиковая ветвь. Слишком медленные для production (пользователи не будут ждать 20 секунд), слишком дорогие для массового рынка, слишком хрупкие (один неверный шаг в chain-of-thought — и вся цепочка разваливается). Возможно, будущее за гибридными системами: оркестрация быстрых моделей с внешним reasoning loop (агентные фреймворки типа LangChain, CrewAI).

Гипотеза 2: reasoning — это emergent behaviour, который появится у всех моделей. По мере масштабирования (GPT-5 с 10T параметров, Gemini 3 Ultra с 5T параметров) модели естественным образом научатся внутреннему reasoning без специальной архитектуры. Просто потому что размер и качество данных позволят. Тогда отдельный класс reasoning-моделей не нужен.

Гипотеза 3: Google просто не смог. Технически не осилил, организационно не справился. DeepMind и Google Brain объединились только в 2023, культурные конфликты, бюрократия, slow decision-making. Пока они согласовывали архитектуру DeepThink, OpenAI выпустил o1, Anthropic — Opus, DeepSeek — R1. Google опоздал и решил не догонять.

Истина, вероятно, где-то посередине. Reasoning — это важная capability, но не для всех задач. 95% AI-продуктов будут использовать fast inference models, 5% — reasoning. И это нормально распределение.

Что дальше: прогнозы на 2026 год

Reasoning-модели станут дешевле, но не быстрее. Архитектура достигла physical limits: latency reasoning loop нельзя сократить без потери качества. Но inference cost упадёт благодаря optimization (quantization, speculative decoding, distillation).

Open-source догонит проприетарные модели. DeepSeek-R2 (если выйдет в 2026) может достичь уровня o1. Появятся специализированные reasoning-модели для узких доменов: medical reasoning, legal reasoning, scientific reasoning.

Google может вернуться к reasoning через 1-2 года, но уже с другой архитектурой. Не monolithic model, а distributed reasoning system: оркестрация нескольких быстрых моделей с внешним reasoning orchestrator. Или через partnership: Google могут лицензировать o1 от OpenAI для enterprise-клиентов.

Заключение: не зависьте от одного вендора

Главный урок для разработчиков: архитектура должна абстрагировать вендора. Сегодня вы используете Gemini, завтра — o1, послезавтра — self-hosted DeepSeek. Все reasoning capabilities должны быть за вашим API layer с возможностью hot-swap моделей.

Отмена Gemini 3 DeepThink — это не конец reasoning-моделей, это начало consolidation. Рынок разделился: OpenAI и Anthropic владеют premium reasoning segment, DeepSeek и open-source — budget/self-hosted segment, Google и Meta фокусируются на fast inference. Это здоровая экосистема, просто Google признал, что его место не в reasoning-гонке.

Reasoning останется нишевой фичей для сложных задач, а не мейнстримом. И это правильно. Не каждая задача требует глубокого мышления. Иногда быстрый правильный ответ лучше, чем медленный идеальный.

Можно ещё почитать:
Loading...
Пожалуйста ждите...