本技术实施例公开了一种混合专家模型分布式训练方法、装置、设备、介质及程序,方法包括:确定用于对混合专家模型进行分布式训练的多个分布式训练策略;计算各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的存储资源;根据各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的存储资源,对各所述分布式训练策略进行筛选,得到用于对所述混合专家模型进行分布式训练的目标分布式训练策略。本发明实施例的技术方案能够提高混合专家模型的分布式训练性能,从而在分布式训练混合专家模型时提高硬件资源利用率和模型的执行效率。
背景技术
混合专家模型(Mixture of Expert,MoE)是一种稀疏神经网络,可以在不增加模型计算量基础上极大增加模型参数量,提升模型的能力。同时,由于模型的稀疏性,通常每个token(模型所使用的输入数据的最小单元)选择1-2个专家(expert)进行处理,不同的数据由不同的专家来处理。
目前,在现有的MoE训练框架中,会涉及6D并行训练的分布式训练方式。所谓6D并行训练,即同时采用EP(Expert Parallel,专家并行)、DP(Data Parallel,数据并行)、PP(Pipeline Parallel,流水并行)、SP(Sequence Parallel,序列并行)、CP(ContextParallel,上下文并行)以及TP(Tensor Parallel,张量并行)。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:由于6D并行复杂度高,并行group size(并行组大小)通常由人工设置,一旦设置不当将导致通信占比高,严重影响芯片算力利用率。因此,目前在分布式训练混合专家模型的过程中,缺乏一种有效的混合专家分布式并行训练策略的筛选方式。
实现思路