$ grep -r "llm" ./posts/

# llm

claude-code-opus-1m-context-default.md
Claude Code v2.1.75 — Opus 4.6 получил 1M контекст по умолчанию, и за это не берут ни цента сверху
> · 7 мин

Claude Code v2.1.75 — Opus 4.6 получил 1M контекст по умолчанию, и за это не берут ни цента сверху

Opus 4.6 и Sonnet 4.6 получили 1M контекст как стандарт — без beta-заголовков, без доплат, без конфигурации. Разбираем, что изменилось в Claude Code v2.1.75 и кому это реально пригодится.

ai llm anthropic claude-code
autoresearch-karpathy-overnight-ml.md
Autoresearch — Karpathy выложил фреймворк, где AI-агент ночью гоняет 100 ML-экспериментов на одной GPU
> · 7 мин

Autoresearch — Karpathy выложил фреймворк, где AI-агент ночью гоняет 100 ML-экспериментов на одной GPU

Andrej Karpathy упаковал autoresearch — фреймворк, где AI-агент сам модифицирует код обучения LLM, запускает 5-минутные тренировки и за ночь прогоняет ~100 экспериментов. 4.2K звёзд за два дня.

ai agents llm open-source
gpt-54-computer-use-agent.md
GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника
> · 8 мин

GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника

GPT-5.4 — первая mainline-модель OpenAI с нативным computer use и контекстом на 1M токенов. На OSWorld обогнала людей, на задачах инвестбанковского аналитика в Excel набирает 87.3%. Разбираем, что это значит для разработчиков.

ai agents llm openai
gemini-31-flash-lite.md
Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду
> · 7 мин

Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду

Google выпустила Gemini 3.1 Flash-Lite — самую быструю и дешёвую модель серии Gemini 3. $0.25 за миллион входных токенов, 363 tok/s, quality на уровне 2.5 Flash, thinking levels и мультимодальность. Разбираем, кому стоит мигрировать.

ai llm gemini google
openai-websocket-responses-api.md
OpenAI WebSocket mode — Responses API переезжает на постоянное соединение, и агенты ускоряются на 40%
> · 5 мин

OpenAI WebSocket mode — Responses API переезжает на постоянное соединение, и агенты ускоряются на 40%

OpenAI добавил WebSocket mode в Responses API — постоянное соединение, инкрементальные запросы и до 40% ускорения для агентских цепочек с десятками tool-вызовов.

agents llm api openai
ai-web-research-comparison.md
Кто лучше гуглит: Claude Opus 4.6, GPT-5.3 Codex или Gemini 3.1 Pro
> · 5 мин

Кто лучше гуглит: Claude Opus 4.6, GPT-5.3 Codex или Gemini 3.1 Pro

Три топовые модели февраля 2026 — и вопрос, который мучает всех: кто из них лучше ищет информацию в интернете? Разбираем бенчмарки, продукты Deep Research и реальные сценарии.

ai llm gemini claude
skillsbench-agent-skills.md
SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов
> · 5 мин

SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов

SkillsBench — бенчмарк из 84 задач в 11 доменах. Skills поднимают pass rate на 16.2%, но самогенерация не работает. Haiku со скиллами бьёт Opus без них.

ai agents llm benchmark
opus-codex-gemini-coding-workflow.md
Opus vs Codex vs Gemini — три AI-модели, один workflow, ноль хаоса
> · 6 мин

Opus vs Codex vs Gemini — три AI-модели, один workflow, ноль хаоса

Claude Opus 4.6 и GPT-5.3 Codex вышли в один день и оказались не конкурентами, а напарниками. Разбираю, как строить workflow из трёх моделей — с Gemini 3.1 Pro в комплекте.

ai agents llm gemini
gemini-31-pro-benchmarks.md
Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков
> · 4 мин

Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков

Google выпустил Gemini 3.1 Pro — модель, которая обошла Claude Opus 4.6 и GPT-5.2 по большинству бенчмарков. ARC-AGI-2 вдвое выше предшественника, LiveCodeBench на уровне топ-программистов мира.

ai llm gemini google
cursor-25-marketplace-composer-agents.md
Cursor 2.5 — маркетплейс плагинов, собственный LLM и агенты, которые кодят двое суток без перерыва
> · 6 мин

Cursor 2.5 — маркетплейс плагинов, собственный LLM и агенты, которые кодят двое суток без перерыва

Cursor выпустил версию 2.5 с маркетплейсом плагинов (Figma, Stripe, AWS), собственной моделью Composer 1.5 с RL×20 и long-running агентами, которые автономно работают до 52 часов.

ai cursor ide coding-assistant