FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts

Heming Zou1∗ ，Yunliang Zang2∗ ，Wutong Xu1 ，Yao Zhu1 ，Xiangyang Ji1†
1清华大学自动化系
2天津大学医学工程与转化医学学院

摘要

低秩自适应（LoRA， Low-Rank Adaptation）作为基础模型常用的参数高效微调方法，却因参数干扰导致性能欠佳。虽然基于专家混合（MoE）的LoRA变体在单任务指令调优中有效缓解了任务内相关性，但其引入的额外路由参数在多任务模型融合中仍显不足——该场景下会出现任务间干扰。受果蝇嗅觉回路启发，我们提出FlyLoRA：一种基于MoE的隐式LoRA变体，创新性地实现(1)上投影矩阵的秩向专家激活机制，(2)通过冻结稀疏随机投影矩阵替代传统密集可训练路由机制，构建统一专家路由与下投影的隐式路由系统。该设计通过消除显式路由需求，在任务内去相关与计算效率间取得平衡，同时利用随机矩阵的正交特性天然缓解任务间干扰。在通用知识理解、科学问答、数学推理和代码生成四个领域的大量实验表明，FlyLoRA相较现有方法性能持续提升。超越实证优势，FlyLoRA生动诠释了生物结构如何为人工智能技术带来创新启示。

Code is available at https://github.com/gfyddha/FlyLoRA.

1 引言

基础模型已经展示了显著的跨域能力，随着模型参数的扩展[1,4,15,43,57,63,64]。为了提高其在下游任务中的性能，监督微调（SFT）已成为一种典型的后训练方法。然而，全参数微调（Full FT）会带来高昂的计算开销和存储成本，使得大多数个人用户难以实现定制部署。为了解决这一问题，参数高效微调（PEFT）[26,27,35,40,44,47,84,90]作为一种广泛采用的技术应运而生，通过冻结预训练权重仅微调少量额外注入的参数，大幅减少了资源消耗。
低秩适应（LoRA）[27] 是最突出的 PEFT 方法之一。通过利用大型语言模型的内在低维特性[2,36]，LoRA 将参数矩阵更新 ∆W ∈ R m×n 近似为两个低秩矩阵 B ∈ R m×r 和 A ∈ R r×n 的乘积，其中 r ≪ min（m，n）。该方法在大多数任务中保留了全FT的大部分能力，同时大幅减少了内存需求和计算开销。
然而，为了在复杂任务中取得优异表现，LoRA通常需要更高的秩次，这与 PEFT 的核心目标——效率相矛盾[31,45]。此外，LoRA秩次内的干扰会损害训练效果[76]，导致幻觉[22]和梯度爆炸[58]等问题，从而大大限制了其潜力。我们将这一挑战称为任务内干扰。同时，基础模型往往需要整合多种能力以处理复杂的下游任务，但在多领域语料库上重新训练成本高昂[71]，尤其是在已有多个专用模型的情况下。因此，模型融合[11,28,29,54]被广泛用于以无需训练的方式结合不同领域训练的LoRA组件。由于不同组件之间的冲突，这一过程引入了另一个挑战：任务间干扰。