国内首个开源千亿参数MoE大模型来了！性能超Grok-1，单张GPU可跑

真实自我 04-02 272

默认

摘要： 昨日月日一年一度的巴塞尔艺术展在香港会议展览中心举办预展为接下来三天公开参观提前预热造势现场艺术品琳琅满目给人艺术盛宴体验今次预展活动主办方智东西公众号作者程茜编辑心缘智东西月日报...

昨日（3月26日），一年一度的巴塞尔艺术展(Art Basel)在香港会议展览中心举办预展，为接下来三天（28—30）公开参观提前预热造势，现场艺术品琳琅满目，给人艺术盛宴体验。今次预展活动，主办方....

智东西（公众号：zhidxcom）

作者 | 程茜

编辑 | 心缘

智东西4月2日报道，今天，全球移动互联网公司APUS与大模型创企新旦智能宣布，联手开源国内首个千亿参数的MoE（混合专家模型）APUS-xDAN大模型4.0，这也是国内首个可以在消费级显卡上运行的千亿MoE中英文大模型。

APUS-xDAN-4.0（MoE）参数规模为1360亿，可在消费级显卡4090上运行，据APUS实测，其综合性能超过GPT-3.5，达到GPT-4的90%。

数学能力上，测评基准GSM8K的测评得分为79，理解能力MMLU达到73分。

GitHub界面显示，APUS-xDAN-4.0（MoE）模型文件链接即将发布。

项目地址：

https://github.com/shootime2021/APUS-xDAN-4.0-moe?tab=readme-ov-file

一、数学、推理能力碾压，推理成本下降400%

APUS-xDAN-4.0（MoE）在GitHub的页面显示了基准测评结果，其与Mixtral-8x7B（MoE）、Llama2-70B、Grok-1（MoE）进行了对比。

其中衡量模型语言理解、知识和推理能力的基准测试MMLU中，APUS-xDAN-4.0（MoE）排名第一，超过了Grok-1（MoE）。

在测试多步骤数学推理能力的单词问题集合测试GSM-9K以及MATH中，该模型得分均远高于其他三大模型。

四项测试中，APUS-xDAN-4.0（MoE）在多学科任务的BIG-Bench-Hard测试中，得分为66.4，接近Mixtral-8x7B（MoE），低于Grok-1（MoE）的71.7分。

其中，Mixtral-8x7B（MoE）由大模型创企Mistral AI于去年年底发布，并在多项基准测试中性能都基本达到GPT-3.5；Llama2-70B是去年7月Meta开源的Llama 2大模型系列中，参数规模最大的版本；Grok-1（MoE）为马斯克旗下AI创企xAI本月初开源的大模型，参数规模为3140亿参数，是目前开源大模型中参数规模之最。

此外，在GitHub页面显示，APUS-xDAN-4.0（MOE）开源模型在“IQ-Quantized Tech”上量化为1.5位、2位和4位，可以在消费级显卡4090上运行。

具体来说，APUS-xDAN 大模型4.0（MoE）采用GPT-4类似的MoE架构，特点是多专家模型组合，同时激活使用只有2个子模块，实际运行效率对比传统Dense同尺寸模型效率提升200%，推理成本下降400%。在实际部署中，研究人员通过进一步高精度微调量化技术，使得模型尺寸缩小500%。

二、32个MoE Transformer块组成，可处理多线程复杂需求

在实际的效果中，APUS-xDAN-4.0（MoE）可以理解复杂需求，如撰写广告文案时，要求涵盖“火焰人”、固定口号、摇滚乐歌词等。

该模型还可以找出段落中的实时性错误，并给出修改版本，包括品牌所属地区、语病等。

APUS-xDAN-4.0（MOE）模型的架构特点为，主要由32个相同的MoE Transformer块组成，与普通Transformer块相比，MoE Transformer块的FFN层被MoE FFN层替换。

张量经过门层计算每个专家模型的分数，根据专家分数从8个专家模型中选择Top-K专家。张量通过Top-K专家的输出进行聚合，从而得到MoE FFN层的最终输出。

每个专家由3个线性层（Linear Layers）组成。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm，与开源大模型Llama的方式一致。

在注意力层中，APUS-xDAN-4.0（MoE）中的QKV矩阵的Q矩阵形状为（4096,4096），K和V矩阵形状为（4096,1024）。

▲APUS-xDAN-4.0（MoE）模型架构图

三、APUS是投资方，7B模型表现超GPT-4

APUS-xDAN-4.0（MoE）背后的两家公司均来自国内，且APUS于今年3月投资了新旦智能。

新旦智能成立于2023年5月，此前该公司发布的xDAN-7B-Global在用于衡量大模型在机器翻译任务性能的综合性评估指标MT-Bench中，性能表现仅次于GPT-4。

▲MT-Bench排名