$ grep -r "llm" ./posts/

# llm

Большие языковые модели — бенчмарки, архитектуры, контекстные окна, fine-tuning и практическое применение LLM в разработке.

Все ai claude-code llm agents open-source anthropic productivity tips developer-tools claude mcp coding openai api tools cursor gemini google

security codex cli automation ai-agents workflow testing pricing voice models ide qwen comparison coding-tools ai-tools skills devtools tokens multimodal openrouter ai-models plugins gpt ai-coding xai grok cybersecurity leak alibaba benchmarks tdd research coding-agent playwright orchestration codex-cli multi-agent context-window coding-agents memory python chatgpt stealth-models deepseek google-io-2026 gpt-5-6 moe git openclaw ralph-loop autonomous-coding github ios swift xcode computer-use gpt-5.4 code-review browser-automation unity game-development context-engineering vibe-coding web-scraping browser gemma china tts glm hunter-alpha video-generation owl-alpha protocol nvidia vision ollama gpt-5.6 local fable prompt-engineering safety coding-assistant benchmark deep-research terminal qa php laravel assistant worktrees docker parallel-development oauth websocket context-management mobile copilot perplexity multi-model image-generation remotion video shorts instagram tiktok permissions future code-intelligence knowledge-graph future-of-programming opinion hooks xctest commands local-ai liquid-ai privacy fast-mode copilot-cli macos linux windows machine-learning cron scheduled-tasks effort settings godot unreal-engine search-api tavily exa agent-teams opus-4.6 expo cowork remote-control plugin google-colab responsive-design frontend telegram discord channels astral superapp kimi licensing documentation prompts figma design web-development demo gamedev gemini-cli speech scraping self-improvement ultraplan debugging function-calling free-tools elevenlabs infrastructure configuration skill microsoft dotnet cost-optimization nous-research gpt-6 llama healer-alpha elephant-alpha gpt-5-5 tmux stealth-launch fal elixir linear rust tencent voice-cloning reasoning nemotron mythos policy dense-model game-dev open-beta sonnet gpt-55 spacex managed-agents realtime subq subquadratic long-context transformers finance edge-ai rag vector-search notion typescript workers malware chrome leaks veo lmarena fingerprinting api-pricing onboarding opus-4-8 robotics world-models physical-ai minimax free-models ocr baidu document-ai release-tracker gemini-35-pro ml amazon data-labeling amd hardware local-llm llama-cpp code-quality interpretability ai-safety meta apple lawsuit curl writing pentesting career wordpress vulnerability evaluation context7 redis devops rce prompt-injection migration

openai-deepseek-model-shutdowns.md

> 26 Jul 2026 · 7 мин

За два дня отключили 21 модель: все codex прошлых поколений и оба имени DeepSeek. Плюс тихий баг, который увеличит твой счёт

23 июля OpenAI выключила 19 снапшотов, включая gpt-5-codex, gpt-5.1-codex-max и gpt-5.2-codex. 24 июля DeepSeek убила deepseek-chat и deepseek-reasoner без грейс-периода. В миграции DeepSeek спрятана ловушка: режим размышления включается по умолчанию и молча раздувает счёт. Что грепать и какие даты держать в календаре.

llm api openai devtools

agent-data-injection.md

> 26 Jul 2026 · 7 мин

Agent Data Injection: атака не даёт агенту ни одной команды, а он всё равно запускает чужой код

Исследователи из Сеульского национального университета и UIUC показали атаку, которая обходит все защиты от prompt injection, потому что не подделывает инструкции — она подделывает факты. Доля успеха доходит до 100%, проверено на Claude Code, Codex, Gemini CLI и веб-агентах. Как защищаться, пока фикса нет.

ai agents llm security

reward-hacking-in-the-wild.md

> 25 Jul 2026 · 7 мин

3607 случаев, когда агент сделал не то: главная угроза оказалась не бэкдорами, а услужливостью

Открытый корпус Reward Hacking in the Wild собрал 3607 пользовательских жалоб на поведение AI-агентов и разметил их по 14 категориям. Скрытые бэкдоры — 0,4%, порча тестов — 1,2%, а избыточная инициатива — 43,4%. Что из этого следует для тех, кто даёт агентам права на запись.

ai agents llm research

kimi-k3-redis-zero-days.md

> 25 Jul 2026 · 8 мин

Иди проверь версию Redis: майский патч не спасает, PoC уже в открытом гите. А дыры нашёл рой агентов на Kimi K3

23 июля Redis выпустил семь релизов безопасности после публикации рабочих RCE-цепочек против стоковых 6.2.22, 7.4.9, 8.6.4 и 8.8.0. Майские «безопасные» версии пробиты, CVE на новые баги нет, поэтому сканеры молчат. Что проверить прямо сейчас и почему релиз-ноты 8.6.4 вводят в заблуждение.

ai llm security redis

claude-opus-5-real-price.md

> 25 Jul 2026 · 8 мин

Claude Opus 5: «вдвое дешевле» — это не про твой счёт. Цена та же, что у Opus 4.8, а изменилась цензура

Anthropic выпустила Claude Opus 5 24 июля: 43,3% на Frontier-Bench против 33,7% у Fable 5. Но цена осталась ровно как у Opus 4.8 — $5/$25. Разбираем, где реальная экономия, почему кибер-классификаторы теперь срабатывают на 85% реже и что не так со сноской под главным бенчмарком.

ai agents llm claude

coding-benchmarks-retrieval.md

> 22 Jul 2026 · 9 мин

80% на SWE-bench это не 80% решённых задач: как кодинг-лидерборды меряют ретривал, а не кодинг

Четыре работы за месяц показали, что кодинг-лидерборды меряют ретривал и обвязку, а не кодинг: OpenAI зарубила два своих бенчмарка, Cursor нашёл 63% найденных фиксов, RuBench поймал GPT-5.6 на добывании ответов с диска. Плюс инструкция, как честно померить агента на своём репозитории.

ai llm benchmarks coding

gemini-36-flash-no-35-pro.md

> 22 Jul 2026 · 9 мин

Google выпустила три Gemini и снова не выпустила 3.5 Pro. Зато уже учит Gemini 4

Google выпустила Gemini 3.6 Flash, Flash-Lite и закрытую Flash Cyber, но снова отложила флагман 3.5 Pro и начала учить Gemini 4. Разбираем цены, бенчмарки, дуал-юз кибермодели и подводные камни, включая баг с квотой в Antigravity и недоступность из РФ.

ai llm gemini google

fable-5-usage-credits-tiers.md

> 21 Jul 2026 · 8 мин

Дедлайн Fable 5 всё-таки наступил: Max получил модель навсегда, Pro отправили платить по $10/$50 за миллион токенов

После трёх продлений Anthropic не стала продлевать промо Fable 5 в четвёртый раз, а разделила пользователей по тарифам: Max получил модель навсегда, Pro перевели на оплату по токенам $10/$50 за миллион. Считаем реальную стоимость сессии, разбираем разовый кредит $100 и куда уходить с Pro.

ai llm claude anthropic

open-weight-coding-models-july-2026.md

> 16 Jul 2026 · 7 мин

На чём кодить дёшево в июле 2026: GLM-5.2 обошёл GPT-5.5 на SWE-Pro, MiniMax M3 стоит копейки — но «open» не значит «на твоём ноуте»

Открытые веса догнали закрытых: GLM-5.2 обходит GPT-5.5 на SWE-bench Pro, MiniMax M3 стоит $0.30 за миллион токенов, а DeepSeek V4-Pro кодит почти как Opus за десятую часть цены. Сравниваем цену, бенчмарки, контекст и лицензии — и почему «open-weight» не значит «влезет в твой ноут».

ai llm benchmarks coding

ai-writing-tell-negative-parallelism.md

> 14 Jul 2026 · 6 мин

«Это не просто фича — это философия»: главный тик AI-текстов, который никто не может объяснить. The Atlantic посчитал, Fortune 500 спалилась

The Atlantic разобрал негативный параллелизм — конструкцию «это не X, а Y», на которой сходятся модели всех лабораторий. Механизм никто не может объяснить, а Barron's насчитал 4-кратный рост паттерна в отчётах Fortune 500. Как вычистить тик из своих текстов и доков.

ai llm prompt-engineering writing