处理数据的方法和深度学习模型的训练方法、装置制造方法及图纸

技术编号:33657176 阅读:31 留言:0更新日期:2022-06-02 20:37
本公开提供了一种采用深度学习模型处理数据的方法和深度学习模型的训练方法、装置、设备、介质,涉及人工智能领域,具体涉及分布式处理领域和深度学习领域。深度学习模型包括门网络和N个专家网络,每个专家网络包括M个专家子网络;N个专家网络包括的M*N个专家子网络构成M个子网络组,每个子网络组包括分别属于N个专家网络的N个专家子网络。采用深度学习模型处理数据的方法包括:针对每个子网络组,将数据特征输入门网络,得到分别针对N个专家子网络的N个权重值;根据N个权重值,将数据特征输入每个子网络组包括的专家子网络,得到针对每个子网络组的一组处理结果;以及根据针对M个子网络组的M组处理结果,确定针对数据特征的处理结果。处理结果。处理结果。

【技术实现步骤摘要】
处理数据的方法和深度学习模型的训练方法、装置


[0001]本公开涉及人工智能领域,具体涉及分布式处理领域和深度学习领域,尤其涉及一种采用深度学习模型处理数据的方法和深度学习模型的训练方法、装置、设备和介质。

技术介绍

[0002]随着计算机技术和网络技术的发展,深度学习技术在众多领域得到了广泛应用。在深度学习模型的网络参数较多或待处理数据较多时,可以采用分布式架构对数据进行处理。

技术实现思路

[0003]本公开旨在提供一种采用深度学习模型处理数据的方法和深度学习模型的训练方法、装置、设备和介质,以提高数据处理效率和计算资源的利用率。
[0004]根据本公开的一个方面,提供了一种采用深度学习模型处理数据的方法,其中,深度学习模型包括门网络和N个专家网络,每个专家网络包括M个专家子网络;所述N个专家网络包括的M*N个专家子网络构成M个子网络组,每个子网络组包括分别属于所述N个专家网络的N个专家子网络;该方法包括:针对所述每个子网络组,将数据特征输入所述门网络,得到分别针对所述N个专家子网络的N个权重值;根据所述N个权重值,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种采用深度学习模型处理数据的方法,其中,所述深度学习模型包括门网络和N个专家网络,每个专家网络包括M个专家子网络;所述N个专家网络包括的M*N个专家子网络构成M个子网络组,每个子网络组包括分别属于所述N个专家网络的N个专家子网络;所述方法包括:针对所述每个子网络组,将数据特征输入所述门网络,得到分别针对所述N个专家子网络的N个权重值;根据所述N个权重值,将所述数据特征输入所述每个子网络组包括的专家子网络,得到针对所述每个子网络组的一组处理结果;以及根据针对所述M个子网络组的M组处理结果,确定针对所述数据特征的处理结果,其中,M、N均为大于1的整数。2.根据权利要求1所述的方法,其中,所述根据所述N个权重值,将所述数据特征输入所述每个子网络组包括的专家子网络,得到针对所述每个子网络组的一组处理结果包括:根据所述N个权重值中取值较大的前K个权重值,将所述数据特征输入所述每个子网络组中所述K个权重值所针对的K个专家子网络,得到针对所述每个子网络组的K个处理结果,其中,K为大于等于1的整数,且K小于等于N。3.根据权利要求1所述的方法,其中:所述M个子网络组分别设置于分布式系统包括的M个计算节点中;所述门网络设置于所述M个计算节点中的每个计算节点中;以及所述每个子网络组包括的N个专家子网络的网络参数个数与设置所述每个子网络组的计算节点的内存容量相匹配。4.根据权利要求1所述的方法,其中,所述深度学习模型还包括骨干网络;所述骨干网络包括M个骨干子网络;所述方法还包括:根据将待处理数据输入所述M个骨干子网络所得到的M个数据子特征,确定所述待处理数据的数据特征。5.根据权利要求1所述的方法,其中,所述根据针对所述M个子网络组的M组处理结果,确定针对所述数据特征的处理结果包括:针对所述M组处理结果包括的所有处理结果,将由属于相同专家网络的M个专家子网络得到的M个处理结果组成一个结果序列,得到多个结果序列;以及融合所述多个结果序列,得到针对所述数据特征的处理结果。6.一种深度学习模型的训练方法,其中,所述深度学习模型包括门网络和N个专家网络;每个专家网络包括M个专家子网络;所述N个专家网络包括的M*N个专家子网络构成M个子网络组,每个子网络组包括分别属于所述N个专家网络的N个专家子网络;所述方法包括:针对所述每个子网络组,将样本数据的数据特征输入所述门网络,得到分别针对所述N个专家子网络的N个权重值;所述样本数据包括第一处理结果;根据所述N个权重值,将所述数据特征输入所述每个子网络组包括的专家子网络,得到针对所述每个子网络组的一组处理结果;根据针对所述M个子网络组的M组处理结果,确定针对所述数据特征的第二处理结果;以及根据所述第一处理结果和所述第二处理结果,对所述深度学习模型进行训练,
其中,M、N均为大于1的整数。7.根据权利要求6所述的方法,其中:所述深度学习模型还包括骨干网络;所述M个子网络组分别设置于分布式系统包括的M个计算节点中;所述骨干网络和所述门网络设置于所述M个计算节点中的每个计算节点中;所述样本数据包括多个数据,所述多个数据构成M个数据集;所述多个数据中的每个数据包括一个第一处理结果;所述方法还包括:聚集将所述M个数据集分别输入所述M个计算节点中的骨干网络所得到的M个特征集,得到所述样本数据的数据特征,其中,所述M个特征集与所述M个数据集一一对应。8.一种采用深度学习模型处理数据的装置,其中,所述深度学习模型包括门网络和N个专家网络,每个专家网络包括M个专家子网络;所述N个专家网络包括的M*N个专家子网络构成M个子网络组,每个子网络组包括分别属于所述N个专家网络的N个专家子网络;该装置包括:权重确定模...

【专利技术属性】
技术研发人员:李龙沈亮巩伟宝吴志华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1