cursor 是一家基于人工智能的编程平台,近日宣布对其 tab 模型完成了一次重要升级。该模型主要用于为开发者提供代码自动补全建议。此次更新大幅优化了建议质量,显著减少了无效或低价值推荐的数量。数据显示,新版本的 tab 模型相较之前版本,生成的建议总数下降了21%,而用户接受率则提升了28%。

根据 Cursor 官方博客介绍,高接受率的背后并不仅仅依赖于让模型“更聪明”,更关键的是让它学会判断何时该提供建议、何时应保持沉默。为实现这一目标,团队最初考虑过训练一个独立的过滤模型,专门用于预测某条建议是否可能被采纳。他们参考了2022年的一项研究,其中提到 GitHub Copilot 使用逻辑回归作为过滤器,结合编程语言类型、近期接受行为和输入字符等特征,对低分建议进行隐藏,取得了良好效果。
不过,Cursor 认为这种方式虽然有效,但属于后处理机制,并未从根本上解决问题。他们希望利用 Tab 模型自身强大的代码理解能力,构建一种更通用的方法——通过调整模型结构,在源头上减少低质量建议的生成,而非事后筛选。
为此,团队引入了策略梯度(Policy Gradient)方法,这是一种强化学习技术。在该框架下,当用户采纳某条建议时,模型获得正向奖励;若建议被忽略或拒绝,则受到惩罚;而当模型选择不弹出建议(即“沉默”)时,不会收到任何反馈。这种方法依赖“在线”交互数据,也就是从当前正在使用的模型中实时收集用户行为。
为了支持这种快速迭代的学习模式,Cursor 实现了高效的部署闭环:每天多次发布新的模型检查点,并迅速将用户的最新交互数据用于再训练。目前,从部署新版本到收集反馈仅需1.5至2小时,在AI行业中已属领先水平,但仍具备进一步提速的潜力。
如今,Cursor 的 Tab 模型每日处理超过4亿次请求。团队相信,这项强化学习驱动的改进不仅能提升建议质量,还将显著改善开发者的整体编码体验。未来,他们计划继续深化此类技术的研究与应用。
值得一提的是,一位曾在 OpenAI 参与后训练工作的工程师在社交平台上对此表示高度认可,称在线强化学习是当前最具潜力的方向之一,而 Cursor 很可能是首个在大规模生产环境中成功落地该技术的公司。
此前,Cursor 的母公司 Anysphere 成功完成了9亿美元的融资,公司估值达到99亿美元。同期,Cursor 推出了一项每月200美元的“超值”订阅计划,承诺提供相当于20美元“专业版”的20倍使用额度。此外,平台还在当月迎来多项功能更新,包括自动代码审查、记忆上下文功能,以及一键配置模型上下文协议服务器的支持。
以上就是Cursor 升级 Tab 模型,实时强化学习提升开发者建议精准度的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号