主要内容
腾讯扩展了其开源混元 AI 模型家族,这些模型用途广泛,可广泛应用。新的模型家族旨在在从小型边缘设备到要求高、高并发的生产系统等各种计算环境中提供强大性能。发布内容包括在开发者平台 Hugging Face 上提供的一套全面的预训练和指令调优模型。这些模型有几种规模,参数规模分别为 0.5B、1.8B、4B 和 7B,为开发者和企业提供了极大的灵活性。
腾讯表示,这些模型是使用类似于其更强大的混元 - A13B 模型的训练策略开发的,使其能够继承其性能特征。这种方法使用户能够根据自己的需求选择最佳模型,无论是用于资源受限的边缘计算的较小变体,还是用于高吞吐量生产工作负载的较大模型,同时确保强大的能力。
混元系列最显著的特点之一是对超长 256K 上下文窗口的原生支持。这使模型能够在长文本任务上处理和保持稳定性能,这对于复杂文档分析、扩展对话和深入内容生成是一项重要能力。
模型支持腾讯所称的“混合推理”,允许用户根据具体需求在快速和慢速思维模式之间进行选择。该公司还非常重视代理能力。这些模型已针对基于代理的任务进行了优化,并在 BFCL - v3、τ - Bench 和 C3 - Bench 等既定基准测试中取得了领先结果,表明在复杂的多步问题解决方面具有高度熟练程度。
例如,在 C3 - Bench 上,混元 - 7B - Instruct 模型得分为 68.5,混元 - 4B - Instruct 模型得分为 64.3。该系列的性能重点在于高效推理。腾讯的混元模型利用分组查询注意力(GQA)技术,以提高处理速度和降低计算开销。通过先进的量化支持进一步提高了效率,这是混元架构的一个关键要素,旨在降低部署障碍。
腾讯开发了自己的压缩工具集 AngleSlim,以创建更用户友好和有效的模型压缩解决方案。使用该工具,公司为混元系列提供了两种主要的量化类型。第一种是 FP8 静态量化,采用 8 位浮点格式。该方法使用少量校准数据预先确定量化比例,无需完全重新训练,将模型权重和激活值转换为 FP8 格式以提高推理效率。第二种方法是 INT4 量化,通过 GPTQ 和 AWQ 算法实现 W4A16 量化:GPTQ 方法逐层处理模型权重,使用校准数据将量化权重的误差最小化。此过程避免了需要模型重新训练并提高了推理速度。AWQ 算法通过对一小部分校准数据的激活值幅度进行统计分析来工作。然后,它为每个权重通道计算一个缩放系数,该系数扩展重要权重的数值范围,以在压缩过程中保留更多信息。
开发者可以自己使用 AngleSlim 工具或直接下载预量化模型。性能基准测试证实了腾讯混元模型在一系列任务中的强大能力。例如,预训练的混元 - 7B 模型在 MMLU 基准测试中得分为 79.82,在 GSM8K 中得分为 88.25,在 MATH 基准测试中得分为 74.85,展示了坚实的推理和数学技能。指令调优变体在专业领域显示出令人印象深刻的结果。在数学方面,混元 - 7B - Instruct 模型在 MMLU 数学任务中表现出色。