主要内容
企业领导者在部署 AI 模型的高昂成本中苦苦挣扎,如今因一种新的架构设计而有望得到缓解。生成式 AI 的能力虽有吸引力,但它们在训练和推理方面的巨大计算需求导致了高昂的费用和日益严重的环境问题。这种低效率的核心在于模型的“基本瓶颈”,即通过逐个标记的自回归过程生成文本。对于处理从物联网网络到金融市场等大量数据流的企业来说,这一限制使得生成长文分析既缓慢又在经济上具有挑战性。
然而,腾讯 AI 和清华大学的一篇新研究论文提出了一种替代方案。这是一种新的 AI 效率方法,即连续自回归语言模型(CALM)。该方法重新设计了生成过程,以预测连续向量而非离散标记。一个高保真自动编码器“将 K 个标记压缩为一个连续向量”,其语义带宽更高。模型不再分三步处理“the”“cat”“sat”等,而是将它们压缩为一个。这种设计直接“减少了生成步骤的数量”,减轻了计算负荷。实验结果表明,其在性能 - 计算权衡方面表现更好。例如,一个包含四个标记的 CALM AI 模型的性能“与强大的离散基线相当,但计算成本显著降低”。与类似能力的基线 Transformer 相比,一个 CALM 模型的训练浮点运算次数减少了 44%,推理浮点运算次数减少了 34%,这在训练的初始资本支出和推理的重复运营支出方面都节省了成本。
从有限的离散词汇转向无限的连续向量空间,打破了标准的语言模型工具包。研究人员必须开发一个“全面的无似然框架”以使新模型可行。在训练中,模型不能使用标准的 softmax 层或最大似然估计。为此,团队使用了带有能量转换器的“无似然”目标,该目标在不计算显式概率的情况下奖励模型的准确预测。这种新的训练方法还需要一个新的评估指标。像困惑度这样的标准基准不适用,因为它们依赖于模型不再计算的相同似然性。团队提出了 BrierLM,这是一种基于布里尔分数的新指标,可以仅从模型样本中估计。验证证实 BrierLM 是一种可靠的替代方案,与传统损失指标的“斯皮尔曼等级相关系数为 -0.991”。最后,该框架恢复了受控生成,这是企业使用的关键特征。没有概率分布,标准温度采样是不可能的。论文介绍了一种新的“无似然采样算法”,包括一种实用的批量近似方法,以管理输出准确性和多样性之间的权衡。
这项研究让我们看到了未来的一瞥,生成式 AI 不再仅仅由不断增大的参数数量来定义,而是由架构效率来定义。当前的模型扩展路径正遇到回报递减和成本上升的瓶颈。CALM 框架为语言模型扩展建立了“一条新的设计轴:增加每个生成步骤的语义带宽”。虽然这是一个研究框架而非现成产品,但它指向了一条通往超高效语言模型的强大且可扩展的途径。在评估供应商路线图时,技术领导者应超越模型大小,开始询问架构效率。降低每个生成标记的浮点运算次数的能力将成为决定性的竞争优势,使 AI 能够更经济地部署和可持续发展。