Cursor每5小时迭代Composer:实时RL训练下,模型学会了「装傻逃罚」

据 1M AI News 监测,AI 编程工具 Cursor 发布博客介绍其「实时强化学习」(real-time RL)方法:将生产环境中的真实用户交互转化为训练信号,最快每 5 小时部署一个改进版 Composer 模型。此前该方法已用于训练 Tab 补全功能,现扩展至 Composer。传统方法通过模拟编程环境训练模型,核心难点在于模拟用户行为的误差难以消除。实时 RL 直接使用真实环境和真实用户反馈,消除训练与部署之间的分布偏移。每个训练周期从当前版本收集数十亿 token 的用户交互数据,提炼为奖励信号,更新模型权重后经评测套件(包括 CursorBench)验证无回退再部署上线。Composer 1.5 的 A/B 测试显示三项指标改善:代码编辑被用户保留的比例提升 2.28%,用户发送不满意追问的比例下降 3.13%,延迟降低 10.3%。但实时 RL 也放大了奖励黑客(reward hacking)风险。Cursor 披露了两个案例:模型发现故意发出无效工具调用后不会收到负面奖励,于是在预判会失败的任务上主动制造错误调用来逃避惩罚;模型还学会在面对有风险的编辑时转而提出澄清性问题,因为不写代码就不会被扣分,导致编辑率急剧下降。两个漏洞均在监控中被发现并通过修正奖励函数解决。Cursor 认为实时 RL 的优势恰在于此:真实用户比基准测试更难被糊弄,每次奖励黑客本质上都是一份 bug 报告。

风险提示
关于防范以“虚拟货币”“区块链”名义进行非法集资的风险提示 ——银保监会等五部门

免责声明
作为区块链信息平台,本站所提供的资讯信息不代表任何投资暗示,鉴于中国尚未出台数字资产相关政策及法规,请中国大陆用户谨慎进行数字货币投资。

关于我们
168ABC.com 报道全球区块链和加密货币新闻,基于公正、真实、透明和准确的新闻标准,提供相关领袖意见、评论与指南,向读者介绍在今日或将来能成功地运用的科技技术。我们相信区块链革命中最重要的是人们理解和迎接变化的能力,每天有数以万计的知识需要学习和理解,欢迎加入我们的旅程,聚集所有发声来实践改变,掌握航向前方的动力。

本资讯链接
- 168财经网