FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts

Heming Zou1∗ ,Yunliang Zang2∗ ,Wutong Xu1 ,Yao Zhu1 ,Xiangyang Ji1†
1清华大学自动化系
2天津大学医学工程与转化医学学院

摘要

​  低秩自适应(LoRA, Low-Rank Adaptation)作为基础模型常用的参数高效微调方法,却因参数干扰导致性能欠佳。虽然基于专家混合(MoE)的LoRA变体在单任务指令调优中有效缓解了任务内相关性,但其引入的额外路由参数在多任务模型融合中仍显不足——该场景下会出现任务间干扰。受果蝇嗅觉回路启发,我们提出FlyLoRA:一种基于MoE的隐式LoRA变体,创新性地实现(1)上投影矩阵的秩向专家激活机制,(2)通过冻结稀疏随机投影矩阵替代传统密集可训练路由机制,构建统一专家路由与下投影的隐式路由系统。该设计通过消除显式路由需求,在任务内去相关与计算效率间取得平衡,同时利用随机矩阵的正交特性天然缓解任务间干扰。在通用知识理解、科学问答、数学推理和代码生成四个领域的大量实验表明,FlyLoRA相较现有方法性能持续提升。超越实证优势,FlyLoRA生动诠释了生物结构如何为人工智能技术带来创新启示。

Code is available at https://github.com/gfyddha/FlyLoRA.

1 引言

​  基础模型已经展示了显著的跨域能力,随着模型参数的扩展[1,4,15,43,57,63,64]。为了提高其在下游任务中的性能,监督微调(SFT)已成为一种典型的后训练方法。然而,全参数微调(Full FT)会带来高昂的计算开销和存储成本,使得大多数个人用户难以实现定制部署。为了解决这一问题,参数高效微调(PEFT)[26,27,35,40,44,47,84,90]作为一种广泛采用的技术应运而生,通过冻结预训练权重仅微调少量额外注入的参数,大幅减少了资源消耗。
​  低秩适应(LoRA)[27] 是最突出的 PEFT 方法之一。通过利用大型语言模型的内在低维特性[2,36],LoRA 将参数矩阵更新 ∆W ∈ R m×n 近似为两个低秩矩阵 B ∈ R m×r 和 A ∈ R r×n 的乘积,其中 r ≪ min(m,n)。该方法在大多数任务中保留了全FT的大部分能力,同时大幅减少了内存需求和计算开销。
​  然而,为了在复杂任务中取得优异表现,LoRA通常需要更高的秩次,这与 PEFT 的核心目标——效率相矛盾[31,45]。此外,LoRA秩次内的干扰会损害训练效果[76],导致幻觉[22]和梯度爆炸[58]等问题,从而大大限制了其潜力。我们将这一挑战称为任务内干扰。同时,基础模型往往需要整合多种能力以处理复杂的下游任务,但在多领域语料库上重新训练成本高昂[71],尤其是在已有多个专用模型的情况下。因此,模型融合[11,28,29,54]被广泛用于以无需训练的方式结合不同领域训练的LoRA组件。由于不同组件之间的冲突,这一过程引入了另一个挑战:任务间干扰。