专家混合模型（MoEs）如何重塑Transformer的未来

原文: Mixture of Experts (MoEs) in Transformers

Hugging Face Blog 行业观点入门影响力: 8/10

专家混合模型（MoEs）通过提高计算效率和优化并行处理，正在成为Transformer模型的新趋势，推动了大规模语言模型的发展。

核心要点

MoEs通过激活部分专家网络，提高模型的计算效率。
与密集模型相比，MoEs在固定计算预算下表现更佳，具有更快的迭代速度。
专家结构为计算提供了自然的并行化基础，有助于模型的扩展。
行业内对MoEs的采用迅速增加，标志着AI领域的一个重要转折点。

深度解读

在过去几年中，大语言模型（LLM）的进展主要依赖于密集模型的规模化，然而，随着模型参数的增长，训练和推理的成本也在急剧上升。此时，专家混合模型（MoEs）作为一种新兴技术开始引起重视。

首先，MoEs的核心概念是通过保持Transformer的主干结构，同时用多个可学习的子网络（即专家）替代部分密集前馈层来实现更高效的计算。每个输入令牌由一个路由器选择一定数量的专家进行处理，这意味着模型在推理阶段只会激活少量参数，这大大降低了内存需求和推理延迟。

例如，一个拥有21亿参数的模型，如果每次处理时只激活4个专家，那么实际使用的参数数目就只有3.6亿。这种方式使得模型的推理速度接近以3.6亿参数的模型运行，但却保留了21亿参数模型的能力和质量。这种计算效率的提升使得MoEs在固定的训练预算下能够 outperform 传统的密集模型，提供更快的迭代和扩展能力。

其次，MoEs的并行化优势也不可忽视。不同的输入令牌可以激活不同的专家，这为计算提供了一个自然的并行化基础。随着AI技术的不断进步，MoEs模型的并行化处理将为大规模模型的训练和推理带来新的可能性。

此外，MoEs的行业应用也在快速增长。最近，许多大型开源模型如Qwen 3.5和DeepSeek R1等都采用了MoEs架构，这标志着AI领域正在经历一个重要的转折点。

总的来说，专家混合模型的出现不仅仅是技术上的革新，更是对大语言模型未来发展的深远影响。对于开发者和企业来说，理解和应用MoEs将是提升AI应用性能的关键。通过关注这种新兴技术，开发者可以更好地应对未来AI发展的挑战，掌握行业脉搏，抢占先机。未来，MoEs将如何在不同场景中发挥作用，值得我们持续关注和探索。

原文地址: Mixture of Experts (MoEs) in Transformers

专家混合模型大语言模型计算效率并行处理 AI趋势