[OpenAI] Deployment Simulation:用真实流量回放预测新模型上线后的风险
层级
模型层 / Agent层
今日新增
OpenAI 6 月 16 日披露,已在 GPT-5 系列 Thinking 多次部署中,用去标识化历史会话重放候选模型,并扩展到含工具使用的 agentic rollout。
判断
这件事真正说明的是,前沿模型评测正在从“题库压力测试”转向“上线前仿真”。它补的是传统 eval 很难覆盖的真实分布、测试识别和频率校准问题。
对比
以前主要靠人工构造的高风险 prompt;现在用接近真实部署的会话分布来估计常见失败率。
影响
模型团队和企业安全团队会先受影响。上线审批会更依赖仿真流量、风险频率和回放审计,而不是只看榜单分数或红队样例。