今天的高信号集中在 coding agent 的工程化:GitHub 把 Copilot 的 agentic harness、上下文处理和代码审查工具链拆成可度量的效率问题,JetBrains 则把 IDE 入口从聊天默认推向 agent 默认。
AI日报 — 2026-06-28
digest.json
今日摘要
2 items值得注意的不是单个模型名,而是 agent 运行方式正在变成产品竞争点:按任务发现能力、按场景加载工具、用 IDE/CLI 原生工具减少 token 浪费。
🔥 最高优先级(最值得关注)
3 items[GitHub Blog] GitHub 开始公开评估 Copilot agentic harness:重点从模型分数转向任务完成率、token 效率和路由
层级
Agent层
今日新增
GitHub 发布 Copilot agentic harness 的跨模型、跨任务评估,并把 token efficiency、task resolution、benchmark iteration 作为产品优化指标。
判断
这件事真正说明的是,coding agent 的能力不再只由底座模型决定,harness 如何取上下文、何时调用工具、怎样路由模型,正在变成可量化的核心能力。GitHub 的证据更偏自家产品评估,但方向很有信号。
对比
以前开发者主要比较模型榜单和 IDE 体验;现在平台开始比较同一模型在不同 agent harness 里的成本、速度和完成率。
影响
短期会影响团队选择 Copilot、Cursor、JetBrains、Codex 等工具时的评估口径:不能只看回答质量,还要看一次任务消耗多少上下文和预算。中期会推动 agent 产品把模型路由、缓存、文件探索和失败诊断做成默认能力。
[JetBrains AI Blog] JetBrains AI 把 Codex 设为推荐 agent:IDE 入口从“先聊天”转向“先派 agent 做任务”
层级
工作流/范式层
今日新增
JetBrains 说明其在 JVM、.NET、Python 等真实开发任务上评估多个 coding agent,并把 Codex 设为当前默认推荐 agent;用户仍可切换 Junie、Claude Agent 或 ACP 兼容 agent。
判断
这件事真正说明的是,专业 IDE 正在把 agent 当成默认工作方式,而不是聊天窗口旁边的可选插件。JetBrains 的选择也把开放 agent 接口和默认推荐结合起来,减少用户自己挑模型、挑 agent 的摩擦。
对比
以前 AI IDE 多把 chat 作为起点,agent 需要用户主动选择;现在入口变成先给一个可工作的默认 agent,再允许高级用户替换。
影响
短期最先影响 JetBrains 系开发者的日常入口:更多任务会从解释代码转向计划、修改、调试和提交。中期 IDE 厂商会围绕 agent 默认选择、评测透明度和第三方 agent 接入展开竞争。
[GitHub Changelog] Copilot Agent Finder 上线:agent 不再预装所有工具,而是按任务发现能力
层级
Agent层
今日新增
GitHub 上线 agent finder,可根据自然语言任务从 MCP servers、skills、canvases、agents 和 tools 的索引中返回匹配资源,让 Copilot 按需加载能力。
判断
这件事真正说明的是,agent 的工具生态已经大到不能靠手工配置和一次性塞满上下文。按任务检索能力,比把所有工具都挂进提示词更接近可扩展的 agent 操作系统。
对比
以前是开发者提前手动接 MCP、skills 和工具,代价是上下文膨胀;现在变成 agent 先理解任务,再从能力目录里挑选需要的资源。
影响
短期会降低团队维护 Copilot 工具配置的成本,也会让内部技能目录变得更重要。中期看,agent 平台的竞争点会从“支持多少工具”转向“能否在正确时刻找到正确工具,并让调用过程可审计”。
📚 重要动态
5 items[GitHub Changelog] Copilot code review 用 CLI/SDK 内置文件探索工具提升审查效率
层级
工作流/范式层
今日新增
Copilot code review 开始使用 Copilot CLI 和 SDK 里的文件探索工具,并在 Medium analysis depth 预览中提供更细的审查深度选择。
判断
这件事真正说明的是,代码审查 agent 的质量来自能否像开发者一样查文件,而不是把 diff 一次性塞进上下文。它是小更新,但很贴近真实成本问题。
对比
以前代码审查更像围绕 diff 的文本分析;现在更接近可控的仓库探索。
影响
工程团队会先在大 PR、跨文件改动和安全审查中感到收益;管理员也会更关心默认审查深度、预算和误报率。
[JetBrains .NET Blog] Rider 给 AI agent 接入性能分析技能:调试从读代码扩展到读 profiler 证据
层级
Agent层
今日新增
JetBrains 展示 Rider 中面向 .NET 的 performance profiling agent skill,让 agent 在定位卡顿和瓶颈时使用 dotTrace 等分析结果。
判断
这件事真正说明的是,agent 要解决工程问题,必须接入专业工具产生的运行时证据。只让模型读源码,很容易错过真正瓶颈。
对比
以前 agent 多靠静态代码和日志猜原因;现在 IDE 开始把 profiler 这类专家工具变成 agent 可调用技能。
影响
短期适合性能回归、UI 卡顿和后端热点定位。中期会推动 IDE 把 debugger、profiler、test runner、database inspector 都做成 agent 工具。
[JetBrains Junie Blog] Junie 结束 beta:JetBrains 把计划模式、调试和代码审查做进自家 coding agent
层级
工作流/范式层
今日新增
Junie 宣布 GA,并强调 Advanced Plan mode、agentic debugging、远程控制和保留上下文的代码审查。
判断
这件事真正说明的是,IDE 原生 agent 正在补齐完整软件任务闭环,而不是只做代码补全。它和 Codex 默认推荐并存,也显示 JetBrains 想同时保留自研 agent 与外部 agent。
对比
以前 IDE AI 更像单点功能集合;现在产品形态变成计划、执行、调试、审查和远程监督的一条链。
影响
使用 JetBrains 全家桶的团队会更容易把 agent 放进日常开发流程;但是否替代其他 coding agent,仍取决于真实仓库中的成功率和可控性。
[Google AI Blog] Google 教育 AI 更新:把 Classroom 上下文带入第三方 EdTech 工具
层级
工作流/范式层
今日新增
Google 宣布让更多 EdTech 平台使用 Google AI,并强调 Classroom context、教师主导和安全环境。
判断
这件事真正说明的是,教育 AI 的落点不是通用聊天助手,而是进入课程、作业、学生进度这些已有教学上下文。它偏垂直场景,不是模型能力突破。
对比
以前 AI 学习工具多是孤立应用;现在更像围绕学校已有系统做上下文连接。
影响
短期会影响教师备课、个性化练习和平台集成。中期关键问题会转向数据边界、学生隐私、教师控制权和效果评估。
[JetBrains AI Blog] JetBrains 开源 Mellum2:面向软件工程工作流的“小而专”模型路线继续升温
层级
模型层
今日新增
JetBrains 开源 Mellum2,定位为可用于 routing、Q&A、sub-agents 和私有 AI 工作流的快速模型。
判断
这件事真正说明的是,并非所有 agent 子任务都需要最强通用模型。专门模型如果足够快、可私有部署,就能承担路由、检索问答和子任务分派。
对比
以前企业 AI 常把能力押在一个大模型上;现在更像由大模型处理高难推理,小模型处理高频低延迟环节。
影响
短期会吸引重视本地部署和成本控制的软件团队试验。中期如果效果稳定,agent 架构会更常见地采用多模型分层,而不是单模型包打天下。