主要内容
中国人工智能初创公司 DeepSeek 解决了困扰 AI 研究人员数年的问题。其在 AI 奖励模型方面的突破可大幅改善 AI 系统的推理和对问题的响应方式。与清华大学研究人员合作,DeepSeek 在一篇名为“通用奖励建模的推理时间缩放”的研究论文中创建了一项技术。该技术概述了新方法如何超越现有方法,以及团队如何与强大的公共奖励模型相比实现竞争性能。
创新重点在于增强 AI 系统从人类偏好中学习的能力,这是创建更有用和对齐的人工智能的重要方面。AI 奖励模型是大型语言模型强化学习中的重要组件,它们提供反馈信号,帮助引导 AI 的行为朝着预期结果发展。简单来说,奖励模型就像数字教师,帮助 AI 理解人类对其响应的期望。
DeepSeek 的创新解决了在不同领域为大型语言模型获取准确奖励信号的挑战。当前的奖励模型在可验证问题或人工规则方面效果良好,但在标准更多样和复杂的通用领域中表现不佳。
双重方法:DeepSeek 的方法如何工作
DeepSeek 的方法结合了两种方法:生成式奖励建模(GRM),可在不同输入类型中实现灵活性,并在推理时允许缩放,通过语言提供更丰富的奖励表示;自原则批判调优(SPCT),一种通过在线强化学习培养 GRM 中可扩展奖励生成行为的学习方法,可自适应地生成原则。
清华大学和 DeepSeek-AI 的作者之一刘子俊解释说,这些方法的结合允许“根据输入查询和响应生成原则,自适应地调整奖励生成过程”。该方法因其“推理时间缩放”的潜力而特别有价值,即在推理期间通过增加计算资源而不仅仅是训练期间来提高性能。研究人员发现,他们的方法通过增加采样可以获得更好的结果,使模型在更多计算的情况下生成更好的奖励。
对 AI 行业的影响
DeepSeek 的创新正值 AI 发展的重要时期。论文指出“强化学习(RL)已在大型语言模型的训练后广泛采用[…],在规模上导致大型语言模型在人类价值对齐、长期推理和环境适应方面取得显著改进”。新的奖励建模方法可能有几个影响:更准确的 AI 反馈、增加的适应性、更广泛的应用和更高效的资源使用。
DeepSeek 日益增长的影响力
最新的发展增加了 DeepSeek 在全球 AI 领域的知名度。该公司成立于 2023 年。