[Liquid AI] LFM2.5-8B-A1B 发布:小型 MoE 的目标从“能聊天”转向本地、私有、可交互 tool-calling agent
📰 AI日报 — 2026-05-30
🔥 最高优先级(最值得关注)
3 items[OpenAI] 第三方评测 playbook:agent 评测的关键变量从“模型名”转向 harness、预算、claim type 与有效性证据
[OpenAI] Rosalind Biodefense:GPT-Rosalind 从科研能力展示进入“受信访问 + 防御应用”部署阶段
📚 重要动态
4 items[Cursor] Auto-review Run Mode:Cursor 用 classifier subagent 缓解长任务 approval 疲劳 | Shell、MCP、Fetch tool calls 会按 allowlist、sandbox 或 classifier subagent 决策流转。判断:这是 agent 产品从“每步都问”走向“可配置安全代理”的小但关键一步;真正价值取决于 classifier 的误放/误拦率、审计日志和组织策略。
[OpenAI / Codex] Codex computer use 扩到 Windows:桌面 GUI 自动化进入跨平台阶段 | Codex 可在 macOS/Windows 看到并操作 GUI;Windows 需前台桌面,macOS 有 locked use 安全设计。判断:这补齐了 coding agent 对浏览器、桌面 app、复现 UI bug 的能力,但也把权限、焦点抢占、登录态网页和敏感操作风险推到前台。
[Quandri / HN] “MCP is dead?”争论继续:CLI + Skills 被用来反驳“连接一切”的 MCP 热 | 文章测得 4 个 MCP servers、77 个 tools 约占 21K tokens,并主张已有 CLI/API 时用 Skills 延迟加载说明更省上下文、更好调试;同时承认 Claude Code deferred loading 已缓解部分上下文膨胀。判断:这不是 MCP 已死,而是 agent 工具层会分化为 MCP、CLI、Skills、直接 API 的混合工程选择。
[Obelisk / HN] SQLite durable workflows:agent 状态管理可能先追求可回放、可搬运、低运维,而不是重型编排 | 文章主张把 workflow progress 放在 SQLite execution log,用 Litestream 异步备份到对象存储,适合 bursty、experimental、每 agent/tenant 独立状态的系统。判断:这与 long-running agent 的现实需求吻合:先让每次执行可恢复、可检查、可 replay,再谈大规模调度。