概述
在追求大模型性能提升的道路上,传统的混合专家(MoE)架构往往依赖于不断增加专家数量。然而,这种方法容易陷入瓶颈:专家越多,性能增长的边际收益逐渐降低,同时系统内部的通信与调度开销却显著上升。美团LongCat团队经过深入探索,发现了一条更具潜力的路径——嵌入扩展。他们的研究表明,在特定条件下,专注于扩展模型的嵌入层,相比单纯“堆叠”专家,能够达到更优的效能边界,即获得更好的帕累托前沿。
基于这一突破性洞察,团队正式发布了 LongCat-Flash-Lite 模型。该模型总参数量达685亿,但其核心优势在于极高的稀疏性:每次推理实际激活的参数仅在29亿至45亿之间。实现这一轻量化特性的关键,在于将超过300亿的参数高效配置于N-gram嵌入层。这种设计不仅使其超越了参数量等效的传统MoE基线模型,更在与同规模先进模型的对比中展现出卓越竞争力,尤其在智能体工具调用与代码生成与理解领域表现突出。此外,模型依托YARN技术,可支持长达256K的上下文窗口,能够高效处理长文档、大规模代码库分析等复杂场景。在系统级优化的加持下,其推理效率大幅提升,在典型负载下,API可提供500-700 token/s的高生成速度。
传统的模型扩展思路是“增加专家”,而LongCat团队转向了“扩展嵌入”。N-gram嵌入层的核心价值在于强化模型对局部上下文语义的捕捉精度。它通过哈希函数,将当前词元与其前序N-1个词元构成的序列映射为一个整体的向量表示,并与基础词嵌入融合。例如,当模型遇到“打开终端输入命令”时,便能精准关联到“编程”场景,而非日常的“打开文件”,从而显著提升语义理解的准确性。为应对哈希冲突这一关键挑战,团队采用了子表分解与线性投影等技术,并精细设计词汇表大小,同时引入嵌入放大技术,确保嵌入层的语义信号在深层网络传播中始终保持有效。
专家的核心要点
该模型卓越的推理效率源于从模型结构到运行时系统的三重深度优化。首先,通过将46%的参数(约314亿)智能分配至N-gram嵌入层,在实现高模型稀疏度的同时,避免了专家数量增加带来的通信开销和计算线性增长。其次,团队设计了专用的N-gram Cache缓存机制,并在GPU内核层面进行了大量融合优化(如AllReduce与归一化操作的融合),极大降低了I/O延迟,提升了GPU占用率。最后,创新性地将稀疏激活特性与推测解码策略协同:让轻量级的草案模型使用常规嵌入层规避N-gram计算开销,而主体模型则利用其低激活参数特性处理更大的批处理量,从而实现了从理论优势到实际高吞吐、低延迟性能的转化。
在具体性能评测中,LongCat-Flash-Lite展现了全面而强劲的实力。在智能体任务方面,其在τ²-Bench的电信、零售、航空三大专业场景中均获最高分,证明了处理复杂工具工作流的能力;在VitaBench通用工具调用基准上也领先同类模型。在代码任务上,其表现尤为亮眼:在修复真实软件问题的SWE-Bench上达到54.4%的准确率;在终端命令理解(TerminalBench)上得分远超对比模型区间;在多语言代码生成任务上也展现了良好的泛化能力。同时,模型在MMLU、C-Eval等通用知识与推理基准上保持了与规模相符的均衡表现,在数学推理任务上同样稳健。
LongCat-Flash-Lite的实践,为大规模模型的高效进化提供了一种新颖范式:通过N-gram嵌入扩展与系统级协同优化的联合设计,能够以极低的动态激活参数量,在关键应用领域实现与更大模型媲美的性能。秉持着技术开放的精神,美团已全面开源该模型的权重与技术细节,邀请全球开发者共同体验、研究与共建。