> diffnotes · 01 Mar 2026 · 8 мин

От 30 секунд до 14 часов — и это не предел. Как Claude Code и новые модели переписывают правила кодинга

ai agents coding anthropic claude-code future

В 2022 году ChatGPT мог автономно решать задачи на 30 секунд — дописать функцию, объяснить ошибку. Сегодня Claude Opus 4.5 самостоятельно работает 5+ часов, а фронтирные агенты вытягивают задачи на 14 человеко-часов. Через год, если верить данным METR, AI-агент сможет автономно кодить целую рабочую неделю.

Claude Code уже сейчас пишет 4% всех публичных коммитов на GitHub. К концу 2026 года, по прогнозам SemiAnalysis, эта цифра вырастет до 20%+. Создатель Claude Code Борис Черни признаётся, что его команда пишет практически 100% кода через Claude Code.

Вопрос уже не «заменит ли AI разработчиков» — а «какой будет твоя роль через год».

TL;DR: AI-агенты удваивают горизонт автономных задач каждые 4-7 месяцев. Claude Code уже работает по 5+ часов без перерыва, пишет 4% коммитов GitHub, а создатель инструмента гоняет 10-15 сессий параллельно. Разбираем, что принесут новые модели и как кодинг изменится к 2027 году.

Числа, которые стоит знать

Исследователи из METR (Model Evaluation & Threat Research) занимаются измерением «горизонта задач» — максимальной длительности задачи, которую AI-агент может решить автономно. Они протестировали фронтирные модели на ~230 задачах и обнаружили экспоненциальный рост:

2022 — 30 секунд (автодополнение)
2024 — 14 минут (целые функции)
2025 — ~60 минут (модуль с тестами)
2026 (сейчас) — 14+ часов (рефакторинг модуля в кодбазе на миллионы строк)

Скорость удвоения — каждые 4-7 месяцев. Причём в последний год ускорилась: данные показывают удвоение каждые 89 дней, что на 20% быстрее прежних оценок.

Если тренд сохранится:

2027 — задачи на 8 часов (полный рабочий день)
2028 — задачи на 40 часов (рабочая неделя)
2029 — задачи на 167 часов (рабочий месяц)

Конечно, экстраполяция — не гарантия. Но тренд устойчив уже 6 лет, и пока ничто не указывает на замедление.

Как каждая модель меняла Claude Code

Каждое поколение моделей Anthropic не просто улучшало бенчмарки — оно качественно меняло workflow разработчика.

Sonnet 3.5 → Claude Code v1 (февраль 2025): Агент впервые мог читать файлы, писать код и выполнять bash-команды в терминале. Ты сидел рядом и одобрял каждый шаг. По сути — умный autocomplete с доступом к файловой системе.

Sonnet 4.5 (сентябрь 2025): Прыжок. Модель научилась работать часами, планировать сложные рефакторинги, использовать memory и structured outputs. Claude Code получил субагентов, plan mode, worktrees. Появились первые истории «я лёг спать, а Claude сделал PR».

Opus 4.6 (февраль 2026): Adaptive thinking — модель сама решает, сколько «думать». 1M контекст. Agent teams — несколько агентов работают параллельно над одной задачей. Compaction API для бесконечных сессий. Rakuten прогнал Claude Code через кодбазу vLLM (12.5 млн строк) — задача заняла 7 часов, результат с 99.9% точностью.

Claude Code v2.1.63 (вчера): Два новых скилла — /simplify для автоматической чистки PR через параллельные агенты, и /batch для массовых миграций с изоляцией через git worktrees. HTTP-хуки, shared memory между worktrees, 11 фиксов утечек памяти.

Паттерн: каждые 4-6 месяцев модель + инструмент делают скачок, и задачи, которые вчера требовали человека, завтра делает агент.

Что, скорее всего, будет в Claude 5

Anthropic не анонсировала Claude 5. Но если собрать вместе утечки, тренды и публичные заявления, картина складывается.

Горизонт задач — полный рабочий день. Сейчас Opus 4.5 тянет ~5 часов автономной работы. Claude 5, судя по данным METR, должен стабильно закрывать 8-часовые задачи. На практике: «сделай фичу от и до, с тестами, документацией и PR» — и уйти на обед. Вернулся — готово.

Цена Sonnet, мозги Opus. Кодовое имя утекшей модели — «Fennec» (маленькая пустынная лисичка). Если имя реально, намёк прозрачный: компактная модель с непропорционально большими возможностями. Sonnet 4.6 стоит $3/$15 за миллион токенов, Opus 4.6 — $15/$75. Если Sonnet 5 даст 80%+ SWE-Bench по цене Sonnet — это меняет экономику агентных пайплайнов: можно запускать 5x больше агентов за те же деньги.

Улучшенное рассуждение. Сейчас главная слабость Claude — абстрактное мышление. Gemini 3.1 Pro набирает 77.1% на ARC-AGI-2, Claude Opus 4.6 — 68.8%. Anthropic точно работает над reasoning: adaptive thinking в Opus 4.6 — первый шаг. В Claude 5, вероятно, reasoning станет нативным и для Sonnet-класса.

Мультимодальность на стероидах. Opus 4.5 уже умеет анализировать скриншоты, работать с PDF и изображениями. Следующий шаг — агент, который видит твой UI, кликает кнопки, проверяет результат визуально. Anthropic уже экспериментирует с computer use — в Claude 5 это может стать рабочим инструментом, а не бета-игрушкой.

Continual learning. Сейчас Claude Code «забывает» между сессиями — auto-memory помогает, но это костыль. Если Claude 5 получит нативную long-term memory на уровне модели (а не файловой системы), это уберёт самое раздражающее ограничение: не объяснять одно и то же каждый раз.

Как это меняет роль разработчика

Дарио Амодей, CEO Anthropic, заявил в Давосе: через 6-12 месяцев AI сможет выполнять большинство задач, которые сейчас делают программисты. Он сам больше не пишет код — только ревьюит и направляет.

Борис Черни, создатель Claude Code, работает так: 5 сессий Claude Code в терминале + 5-10 на claude.ai/code параллельно. Он не пишет код — он оркестрирует 10-15 агентов, каждый в своём git worktree.

Это не фантазия — это текущая реальность в Anthropic. И она расходится дальше.

По данным Anthropic, разработчики уже используют AI в ~60% работы, но «полностью делегируют» лишь 0-20% задач. Разрыв между «помогает» и «делает сам» — это и есть фронтир. Каждая новая модель сужает этот разрыв.

Что это значит на практике:

Сейчас: ты пишешь промпт → Claude пишет код → ты ревьюишь → правишь → коммитишь
Через полгода: ты описываешь фичу в plan.md → Claude разбивает на задачи → 5 субагентов работают параллельно → ты ревьюишь PR
Через год: ты ставишь issue в GitHub → Claude берёт issue, пишет план, собирает контекст из docs и Slack, делает PR с тестами → ты одобряешь merge

Подводные камни

«Горизонт задач» ≠ «качество на длинной дистанции». METR измеряет, КАК ДОЛГО агент может работать. Но качество кода на 8-м часе может быть хуже, чем на 1-м. Context rot — реальная проблема: чем длиннее сессия, тем больше Claude «забывает» начальный контекст. Auto-compact помогает, но с потерями
Экономика обманчива. 10 параллельных Opus-сессий × $200/день = $2000/день. При зарплате инженера $500/день (включая накладные) это дешевле, только если агент реально заменяет 4+ инженеров. Пока это работает на рутине (миграции, тесты), но не на архитектурных решениях
Бенчмарки не отражают ваш стек. SWE-Bench — это Python-проекты. Если вы пишете на Go, Rust или Swift, бенчмарк может врать. Terminal-Bench ближе к реальности для CLI-тяжёлых workflow, но и он не покрывает всё
Gartner прогнозирует, что 40% agentic AI проектов будут закрыты к 2027 из-за нечётких бизнес-результатов и недооценки human oversight. Автономность без контроля — путь к техдолгу, который потом разгребать не Claude, а тебе

Альтернативы

GPT-5.3 Codex — OpenAI делают ставку на terminal-first workflow: 77.3% Terminal-Bench, spark mode для интерактивной работы. Если вы живёте в CLI и вам не нужны субагенты — Codex сильнее Claude на терминальных задачах прямо сейчас
Gemini 3.1 Pro + Gemini CLI — Google зашли с другой стороны: сопоставимый SWE-Bench (80.6%), но в 7 раз дешевле Opus 4.6. Плюс 77.1% ARC-AGI-2 — лучшее абстрактное мышление среди всех моделей. Для бюджетных агентных пайплайнов — уже готовая альтернатива
OpenCode / Aider / Continue — open-source агенты без привязки к вендору. Работают с любой моделью. Меньше магии, больше контроля. Если вам важна vendor independence — смотрите сюда, пока Claude Code не станет слишком интегрированным, чтобы уйти

Вердикт

Claude 5 не вышел, и Anthropic молчит о сроках. Но ждать его, чтобы начать менять workflow — ошибка. Всё, что нужно для перехода от «пишу код» к «оркестрирую агентов», уже есть в Claude Code v2.1.63: субагенты, worktrees, /simplify, /batch, HTTP-хуки.

Начни с малого: запусти два Claude Code в параллели через claude --worktree feature-a и claude --worktree feature-b. Попробуй /simplify после следующего PR. Настрой CLAUDE.md так, чтобы Claude не повторял ошибки. Это не «будущее кодинга» — это сегодняшний инструмент, который большинство разработчиков ещё не раскрыли.

А когда Claude 5 всё-таки выйдет — ты будешь готов к тому, чтобы поставить ему задачу на целый рабочий день и уйти пить кофе.

Как попробовать уже сейчас

Обновись: claude update — последняя версия 2.1.63 с /simplify и /batch
Попробуй параллельные сессии: claude --worktree feature-x в одном терминале, claude --worktree bugfix-y в другом
Настрой CLAUDE.md в корне проекта — запиши паттерны, стек, правила. Гайд от builder.io
После следующего PR набери /simplify — пусть агенты проверят код на качество, дубли и соответствие стандартам
Подпишись на release notes — Claude Code обновляется 2-3 раза в неделю, и каждый релиз добавляет возможности