diffnotes.tech — тех-блог о программировании, AI и DevOps
Кто лучше гуглит: Claude Opus 4.6, GPT-5.3 Codex или Gemini 3.1 Pro
Три топовые модели февраля 2026 — и вопрос, который мучает всех: кто из них лучше ищет информацию в интернете? Разбираем бенчмарки, продукты Deep Research и реальные сценарии.
SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов
SkillsBench — бенчмарк из 84 задач в 11 доменах. Skills поднимают pass rate на 16.2%, но самогенерация не работает. Haiku со скиллами бьёт Opus без них.
Claude Code Security — AI-охотник за багами, обвалившим акции CrowdStrike на 8%
Anthropic запустил Claude Code Security — инструмент, который сканирует код как живой security-исследователь. 500+ zero-day в open-source, обвал акций ИБ-компаний и новый стандарт в безопасности кода.
Superpowers — фреймворк, который превращает Claude Code в синьора с дисциплиной
Superpowers — open-source фреймворк из 15+ скиллов для Claude Code: TDD, планирование, дебаг, параллельные субагенты. 56K звёзд на GitHub.
Opus vs Codex vs Gemini — три AI-модели, один workflow, ноль хаоса
Claude Opus 4.6 и GPT-5.3 Codex вышли в один день и оказались не конкурентами, а напарниками. Разбираю, как строить workflow из трёх моделей — с Gemini 3.1 Pro в комплекте.
Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков
Google выпустил Gemini 3.1 Pro — модель, которая обошла Claude Opus 4.6 и GPT-5.2 по большинству бенчмарков. ARC-AGI-2 вдвое выше предшественника, LiveCodeBench на уровне топ-программистов мира.
Cursor 2.5 — маркетплейс плагинов, собственный LLM и агенты, которые кодят двое суток без перерыва
Cursor выпустил версию 2.5 с маркетплейсом плагинов (Figma, Stripe, AWS), собственной моделью Composer 1.5 с RL×20 и long-running агентами, которые автономно работают до 52 часов.
Qwen 3.5 — 397 миллиардов параметров, 17 активных, и визуальный агент, который сам кликает кнопки
Qwen 3.5: 397B параметров, 17B активных, визуальные агенты, 201 язык, Apache 2.0. В 12 раз дешевле Claude Opus. Обзор, бенчмарки, как запустить.
GPT-5.3-Codex — первый кодинг-агент, которым можно рулить на лету
OpenAI объединили мощь GPT-5.2-Codex и reasoning GPT-5.2 в одном агенте: steering в реальном времени, 77.3% Terminal-Bench, а Codex-Spark на Cerebras выдаёт 1000 tok/s. API пока нет — но CLI и IDE уже работают.
$ cat /dev/blog/updates
> Свежие заметки о программировании,
> DevOps и AI — прямо в мессенджер