diffnotes.tech — тех-блог о программировании, AI и DevOps

Все ai claude-code llm agents open-source productivity tips anthropic developer-tools mcp coding claude tools cursor openai gemini google api codex automation workflow ai-agents cli testing qwen ai-tools ide skills security comparison tokens voice models plugins coding-tools ai-coding cybersecurity multimodal openrouter tdd gpt coding-agent playwright pricing orchestration codex-cli multi-agent context-window coding-agents memory python stealth-models alibaba google-io-2026 moe git openclaw ralph-loop autonomous-coding ios swift xcode computer-use gpt-5.4 code-review browser-automation unity game-development xai grok context-engineering vibe-coding web-scraping chatgpt browser leak gemma hunter-alpha ai-models deepseek video-generation owl-alpha coding-assistant benchmarks benchmark research devtools deep-research terminal qa php laravel assistant worktrees docker parallel-development oauth websocket context-management mobile github copilot perplexity multi-model image-generation remotion video shorts instagram tiktok permissions future code-intelligence knowledge-graph future-of-programming opinion hooks xctest commands local-ai liquid-ai privacy fast-mode copilot-cli macos linux windows machine-learning cron scheduled-tasks effort settings godot unreal-engine search-api tavily exa agent-teams opus-4.6 expo cowork remote-control plugin google-colab responsive-design frontend telegram discord channels astral superapp kimi licensing documentation prompts figma design web-development demo gamedev gemini-cli speech scraping self-improvement ultraplan debugging function-calling free-tools china tts elevenlabs infrastructure configuration skill microsoft dotnet cost-optimization nous-research glm gpt-6 llama healer-alpha elephant-alpha gpt-5-5 tmux stealth-launch fal elixir linear rust tencent voice-cloning reasoning protocol nvidia nemotron mythos policy dense-model game-dev open-beta sonnet gpt-55 spacex managed-agents realtime subq subquadratic long-context transformers finance edge-ai vision ollama rag vector-search notion typescript workers malware chrome leaks veo lmarena fingerprinting api-pricing onboarding opus-4-8
$ ls -lt posts/ --filter=multimodal
gemini-omni-flash-google.md
Gemini Omni Flash — модель, которая месяц пряталась в UI Gemini, на I/O заменила Veo и сжигает Pro-квоту за 4 ролика
> · 8 мин

Gemini Omni Flash — модель, которая месяц пряталась в UI Gemini, на I/O заменила Veo и сжигает Pro-квоту за 4 ролика

Google запустил Gemini Omni Flash на I/O 19 мая. Модель заменила Veo в Gemini-приложении, добавила multi-turn редактуру через чат и зашила несъёмный SynthID. API пока нет, и двух роликов хватает, чтобы выжрать 86% дневной Pro-квоты.

ai gemini google multimodal
minicpm-v-46-edge-multimodal.md
MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ
> · 7 мин

MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ

OpenBMB из Tsinghua тихо выложили MiniCPM-V 4.6 — мультимодальную модель на 1.3B под Apache 2.0. 1.6 ГБ через Ollama, работает на iPhone, Android и HarmonyOS без интернета. 38% на MMMU-Pro — рекорд для open-weight моделей до 2B параметров.

ai llm open-source multimodal
nemotron-3-nano-omni.md
NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке
> · 8 мин

NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке

NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.

ai agents llm open-source
qwen35-omni-multimodal-voice.md
Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini
> · 7 мин

Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini

Alibaba выкатила Qwen3.5-Omni — мультимодальную модель с текстом, картинками, аудио и видео в одном контуре. Три версии (Plus/Flash/Light), 256K контекста, 113 языков распознавания речи и voice cloning. Разбираем, что это даёт разработчику.

ai llm open-source qwen
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe