$ grep -r "llm" ./posts/

# llm

Большие языковые модели — бенчмарки, архитектуры, контекстные окна, fine-tuning и практическое применение LLM в разработке.

google-io-2026-gemini-4-developer-impact.md
> · 6 мин

Через 30 минут Google показывает Gemini 4 на I/O 2026 — почему этот keynote бьёт не по Anthropic, а по твоему API-бюджету

Google I/O 2026 начинается через 30 минут. Все ждут Gemini 4, но реальная история не про SWE-bench. Когда модель уйдёт в default на 2 миллиарда пользователей AI Overviews при цене в 5× меньше Claude Mythos — это финансовая бомба, а не модельная.

ai llm gemini google
claude-mythos-glasswing.md
Claude Mythos — модель Anthropic, которую решили не выпускать. 93.9% SWE-bench и побег из sandbox по email
> · 9 мин

Claude Mythos — модель Anthropic, которую решили не выпускать. 93.9% SWE-bench и побег из sandbox по email

Anthropic закрыла Claude Mythos в коалицию AWS, Apple, Google, Microsoft и JPMorganChase. 93.9% на SWE-bench, тысячи zero-day в каждой ОС и реальный sandbox escape. Что внутри секретной модели Anthropic и почему её не выпустят в публичный API.

ai llm claude anthropic
minicpm-v-46-edge-multimodal.md
MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ
> · 7 мин

MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ

OpenBMB из Tsinghua тихо выложили MiniCPM-V 4.6 — мультимодальную модель на 1.3B под Apache 2.0. 1.6 ГБ через Ollama, работает на iPhone, Android и HarmonyOS без интернета. 38% на MMMU-Pro — рекорд для open-weight моделей до 2B параметров.

ai llm open-source multimodal
subq-subquadratic-attention.md
SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention
> · 6 мин

SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention

Subquadratic из Майами 5 мая выпустила SubQ — первую полностью sub-quadratic LLM с 12M токенов контекста, заявленной 52× скоростью FlashAttention и стоимостью <5% от Opus. Разбираем SSA-архитектуру, бенчмарки, подводные камни и можно ли это запускать в проде.

ai llm subq subquadratic
gpt-realtime-2-voice-trio.md
OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту
> · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI без шумной презентации выкатил в Realtime API сразу три модели: GPT-Realtime-2 с GPT-5-уровнем reasoning, GPT-Realtime-Translate за $0.034/мин и стримящий GPT-Realtime-Whisper за $0.017/мин. Разбираем что это значит для voice-агентов, синхронного перевода и почему кэш ввода за $0.40 переворачивает экономику длинных сессий.

ai llm api openai
gpt-55-instant-default.md
GPT-5.5 Instant — OpenAI тихо подменил мозг ChatGPT для сотен миллионов и пустил его в твой Gmail
> · 6 мин

GPT-5.5 Instant — OpenAI тихо подменил мозг ChatGPT для сотен миллионов и пустил его в твой Gmail

OpenAI вчера тихо заменил default-модель ChatGPT на GPT-5.5 Instant. По внутренним бенчмаркам -52.5% галлюцинаций в медицине, праве и финансах, доступ к Gmail для персонализации и API-алиас chat-latest. Разбираем грабли: внутренние бенчмарки без сравнений, регрессии Instant и retire 5.3 через три месяца.

ai llm api openai
claude-sonnet-48-leak-before-conference.md
Через несколько часов Anthropic покажет Sonnet 4.8 на Code with Claude. Из утечки в их же npm-пакете уже известны все цифры
> · 8 мин

Через несколько часов Anthropic покажет Sonnet 4.8 на Code with Claude. Из утечки в их же npm-пакете уже известны все цифры

Сегодня вечером Anthropic покажет Sonnet 4.8 на Code with Claude в Сан-Франциско. Спецификации новой модели, кодовое имя Cardinal и загадочный Jupiter уже известны, потому что 31 марта инженер Anthropic забыл добавить одну строку в .npmignore и слил 512 000 строк своего кода. Разбираем, что услышим через 9 часов.

ai llm claude anthropic
qwen-36-27b-dense-coding.md
Qwen3.6-27B — 27 миллиардов параметров обыграли 397 миллиардов на кодинге. И всё это влезает в одну GPU
> · 8 мин

Qwen3.6-27B — 27 миллиардов параметров обыграли 397 миллиардов на кодинге. И всё это влезает в одну GPU

27B dense-модель Alibaba под Apache 2.0 берёт 77.2% на SWE-bench Verified (уровень Claude Opus 4.5) и обходит собственного 397B MoE-предшественника. Влезает в RTX 4090 в Q4, мультимодальная, 262K контекста нативно (до 1M через YaRN). На OpenRouter $0.32 / $3.20 за миллион токенов.

ai llm coding open-source
mythos-week-political-explosion.md
Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку
> · 10 мин

Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку

За неделю Mythos из инженерной curiosity превратился в политическую гранату. NSA втихую сканит Microsoft на уязвимости, Белый дом блокирует расширение доступа, Anthropic расследует «несанкционированный доступ», а AISLE показала, что bug-finding воспроизводится на открытых моделях за $0.11 за M токенов.

ai llm claude anthropic
nemotron-3-nano-omni.md
NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке
> · 8 мин

NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке

NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.

ai agents llm open-source