$ grep -r "llm" ./posts/

# llm

Большие языковые модели — бенчмарки, архитектуры, контекстные окна, fine-tuning и практическое применение LLM в разработке.

Все ai claude-code llm agents open-source anthropic productivity tips developer-tools claude mcp coding openai api tools cursor gemini google

security codex cli automation ai-agents workflow testing pricing voice models ide qwen comparison coding-tools ai-tools skills devtools tokens multimodal openrouter ai-models plugins gpt ai-coding xai grok cybersecurity leak alibaba benchmarks tdd research coding-agent playwright orchestration codex-cli multi-agent context-window coding-agents memory python chatgpt stealth-models deepseek google-io-2026 gpt-5-6 moe benchmark git openclaw ralph-loop autonomous-coding github ios swift xcode computer-use gpt-5.4 code-review browser-automation unity game-development context-engineering vibe-coding web-scraping browser gemma china tts glm hunter-alpha video-generation owl-alpha protocol nvidia vision ollama gpt-5.6 local fable prompt-engineering safety coding-assistant deep-research terminal qa php laravel assistant worktrees docker parallel-development oauth websocket context-management mobile copilot perplexity multi-model image-generation remotion video shorts instagram tiktok permissions future code-intelligence knowledge-graph future-of-programming opinion hooks xctest commands local-ai liquid-ai privacy fast-mode copilot-cli macos linux windows machine-learning cron scheduled-tasks effort settings godot unreal-engine search-api tavily exa agent-teams opus-4.6 expo cowork remote-control plugin google-colab responsive-design frontend telegram discord channels astral superapp kimi licensing documentation prompts figma design web-development demo gamedev gemini-cli speech scraping self-improvement ultraplan debugging function-calling free-tools elevenlabs infrastructure configuration skill microsoft dotnet cost-optimization nous-research gpt-6 llama healer-alpha elephant-alpha gpt-5-5 tmux stealth-launch fal elixir linear rust tencent voice-cloning reasoning nemotron mythos policy dense-model game-dev open-beta sonnet gpt-55 spacex managed-agents realtime subq subquadratic long-context transformers finance edge-ai rag vector-search notion typescript workers malware chrome leaks veo lmarena fingerprinting api-pricing onboarding opus-4-8 robotics world-models physical-ai minimax free-models ocr baidu document-ai release-tracker gemini-35-pro ml amazon data-labeling amd hardware local-llm llama-cpp code-quality interpretability ai-safety meta apple lawsuit curl writing pentesting career wordpress vulnerability evaluation context7 redis devops rce prompt-injection migration

qwen-37-max-agent-frontier.md

> 25 May 2026 · 9 мин

Qwen 3.7 Max — модель, которая 35 часов сама оптимизировала GPU-кернел на неизвестном железе. И стоит в 4 раза дешевле Opus

Alibaba тихо выкатила Qwen 3.7 Max — первый Max-вариант, который не вышел в open-source. 35 часов автономной работы, 1158 tool calls, 10× ускорение кернела на железе, которого не было в обучающих данных. И drop-in замена в Claude Code по нативному Anthropic-протоколу.

ai agents llm coding

deepseek-v4-pro-permanent-price-cut.md

> 24 May 2026 · 10 мин

DeepSeek сделал скидку 75% постоянной: V4-Pro теперь $0.87 за миллион output, и Opus стал дороже в 28 раз

23 мая DeepSeek закрепил промо-цены на V4-Pro как постоянные. Флагман с 1.6T параметров и 1M контекстом теперь стоит $0.435/$0.87 за 1M токенов. Это от 12 до 28 раз дешевле Sonnet, Opus и GPT-5.5. Разбираем подводные камни и миграцию на Claude Code.

ai llm open-source coding-agents

stealth-ai-fingerprinting-guide.md

> 23 May 2026 · 10 мин

Owl, Hunter, Healer и Aurora: гид по stealth-моделям OpenRouter, которые завтра окажутся GPT-5.5 и GLM-5

На 23 мая 2026 на OpenRouter активны пять stealth-моделей: Owl, Elephant, Hunter, Healer, Aurora. Бесплатные, анонимные. По историческим паттернам это пре-релизы флагманов от Big AI. Гайд: кто они, как их фингерпринтить, какие инструменты автоматизируют процесс и где грабли.

ai llm tools openrouter

gemini-35-flash-launch.md

> 20 May 2026 · 10 мин

Gemini 3.5 Flash — Flash, который впервые бьёт собственный Pro. И стоит в 3 раза дороже прошлой Flash

Google выкатил Gemini 3.5 Flash на I/O 2026. Впервые в истории Flash-модель обходит свой собственный Pro на кодинге и MCP-агентах — 76.2% Terminal-Bench, 4× быстрее frontier-моделей, 1M контекст. Но цена выросла в 3 раза от прошлого Flash, а критики уже зовут её "benchmaxxed fraud". Разбираем бенчмарки, цены, Managed Agents с AGENTS.md/SKILL.md и сравнение с Claude Opus 4.7 и GPT-5.5.

ai agents llm gemini

google-io-2026-gemini-4-developer-impact.md

> 19 May 2026 · 6 мин

Через 30 минут Google показывает Gemini 4 на I/O 2026 — почему этот keynote бьёт не по Anthropic, а по твоему API-бюджету

Google I/O 2026 начинается через 30 минут. Все ждут Gemini 4, но реальная история не про SWE-bench. Когда модель уйдёт в default на 2 миллиарда пользователей AI Overviews при цене в 5× меньше Claude Mythos — это финансовая бомба, а не модельная.

ai llm gemini google

claude-mythos-glasswing.md

> 16 May 2026 · 9 мин

Claude Mythos — модель Anthropic, которую решили не выпускать. 93.9% SWE-bench и побег из sandbox по email

Anthropic закрыла Claude Mythos в коалицию AWS, Apple, Google, Microsoft и JPMorganChase. 93.9% на SWE-bench, тысячи zero-day в каждой ОС и реальный sandbox escape. Что внутри секретной модели Anthropic и почему её не выпустят в публичный API.

ai llm claude anthropic

minicpm-v-46-edge-multimodal.md

> 12 May 2026 · 7 мин

MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ

OpenBMB из Tsinghua тихо выложили MiniCPM-V 4.6 — мультимодальную модель на 1.3B под Apache 2.0. 1.6 ГБ через Ollama, работает на iPhone, Android и HarmonyOS без интернета. 38% на MMMU-Pro — рекорд для open-weight моделей до 2B параметров.

ai llm open-source multimodal

subq-subquadratic-attention.md

> 10 May 2026 · 6 мин

SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention

Subquadratic из Майами 5 мая выпустила SubQ — первую полностью sub-quadratic LLM с 12M токенов контекста, заявленной 52× скоростью FlashAttention и стоимостью <5% от Opus. Разбираем SSA-архитектуру, бенчмарки, подводные камни и можно ли это запускать в проде.

ai llm subq subquadratic

gpt-realtime-2-voice-trio.md

> 08 May 2026 · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI без шумной презентации выкатил в Realtime API сразу три модели: GPT-Realtime-2 с GPT-5-уровнем reasoning, GPT-Realtime-Translate за $0.034/мин и стримящий GPT-Realtime-Whisper за $0.017/мин. Разбираем что это значит для voice-агентов, синхронного перевода и почему кэш ввода за $0.40 переворачивает экономику длинных сессий.

ai llm api openai

gpt-55-instant-default.md

> 06 May 2026 · 6 мин

GPT-5.5 Instant — OpenAI тихо подменил мозг ChatGPT для сотен миллионов и пустил его в твой Gmail

OpenAI вчера тихо заменил default-модель ChatGPT на GPT-5.5 Instant. По внутренним бенчмаркам -52.5% галлюцинаций в медицине, праве и финансах, доступ к Gmail для персонализации и API-алиас chat-latest. Разбираем грабли: внутренние бенчмарки без сравнений, регрессии Instant и retire 5.3 через три месяца.

ai llm api openai