【技术实现步骤摘要】
本专利技术属于神经网络,具体而言涉及一种基于决策树的混合专家模型的训练方法和装置。
技术介绍
1、混合专家模型是一种深度学习架构,它通过将输入数据分配给多个专家模型来提高整体模型的参数效率和计算效率,核心思想是将一个大模型分解为一组参数更少、计算更高效的专家子模型,同时通过一个门控网络来协调这些专家的工作。
2、现有的混合专家模型在训练时通常将数据传递到每个专家模型和门控网络中,由门控网络生成一组表示每个专家模型激活程度的权重,然后由每个专家模型生成相应的输出,再与门控网络生成的权重加权求和,得到最终输出;然而当门控网络的路由策略不能满足更多的专家时,存在专家分配不均衡的问题,出现过拟合、资源浪费等现象。
技术实现思路
1、鉴于上述的分析,本专利技术实施例旨在提供一种基于决策树的混合专家模型的训练方法和装置,用以解决现有技术中存在的上述问题中的一者或多者。
2、本专利技术的目的是这样实现的:
3、本专利技术第一方面实施例提供一种基于决策树的混合专家模型的
...【技术保护点】
1.一种基于决策树的混合专家模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的基于决策树的混合专家模型的训练方法,其特征在于,所述待训练的数据集输入到决策树路由器之前,还包括对所述待训练的数据集进行预处理,所述预处理包括数据清洗、归一化和异常值剔除。
3.根据权利要求1所述的基于决策树的混合专家模型的训练方法,其特征在于,所述将所述待训练的数据集输入到决策树路由器中进行分类包括:
4.根据权利要求3所述的基于决策树的混合专家模型的训练方法,其特征在于,每个所述决策树中均具有如下所示的分配标准,所述分配标准用于平衡分配到所述
...【技术特征摘要】
1.一种基于决策树的混合专家模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的基于决策树的混合专家模型的训练方法,其特征在于,所述待训练的数据集输入到决策树路由器之前,还包括对所述待训练的数据集进行预处理,所述预处理包括数据清洗、归一化和异常值剔除。
3.根据权利要求1所述的基于决策树的混合专家模型的训练方法,其特征在于,所述将所述待训练的数据集输入到决策树路由器中进行分类包括:
4.根据权利要求3所述的基于决策树的混合专家模型的训练方法,其特征在于,每个所述决策树中均具有如下所示的分配标准,所述分配标准用于平衡分配到所述决策树的节点的数据集的大小;
5.根据权利要求1所述的基于决策树的混合专家模型的训练方法,其特征在于,所述建立所述叶节点与所述子专家模...
【专利技术属性】
技术研发人员:王倪剑桥,张鹏,
申请(专利权)人:北京智谱华章科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。