【技术实现步骤摘要】
一种基于人工智能的模型训练方法、装置、服务器及介质
本申请涉及计算机
,尤其涉及一种基于人工智能的模型训练方法、装置、服务器及介质。
技术介绍
随着计算机技术的快速发展,人工智能技术在很多领域得到了应用,其中,人工智能技术中的深度神经网络的应用也越来越广泛,比如语音识别技术,计算机视觉技术,自然语言处理技术等领域,并且深度神经网络模型在多种任务中表现出色,特别是机器翻译任务。机器翻译中所利用的神经网络机器翻译(NeuralMachineTranslation,NMT)模型可以利用大量参数以具备足够的能力来拟合海量数据,但是过量的参数存在过参数化的问题。目前,为解决过参数化的问题,通常将对模型参数进行删除后增加一个继续训练阶段,这种方法虽然可以删除部分参数不造成性能损失。但是会导致参数的利用效率比较低,从而造成计算资源的浪费,也容易使模型陷入局部最优,而无法使模型达到最优性能。
技术实现思路
本申请实施例提供了一种基于人工智能的模型训练方法、装置、服务器及介质,可以有效的提升模型参数的利用率,并且有助 ...
【技术保护点】
1.一种基于人工智能的模型训练方法,其特征在于,所述方法包括:/n获取神经网络模型,所述神经网络模型包括多个模型参数,所述神经网络模型是基于序列数据训练得到的;/n在对所述多个模型参数中的第一模型参数进行裁剪后,对第二模型参数进行训练,所述第二模型参数为所述多个模型参数中除所述第一模型参数之外的模型参数;/n在对所述第二模型参数训练完成后,对所述第一模型参数进行训练,以恢复所述第一模型参数在所述神经网络模型中的数据处理能力,其中,在对所述第一模型参数训练完成后,得到序列到序列处理模型,所述序列到序列处理模型用于根据输入序列生成匹配的输出序列。/n
【技术特征摘要】
1.一种基于人工智能的模型训练方法,其特征在于,所述方法包括:
获取神经网络模型,所述神经网络模型包括多个模型参数,所述神经网络模型是基于序列数据训练得到的;
在对所述多个模型参数中的第一模型参数进行裁剪后,对第二模型参数进行训练,所述第二模型参数为所述多个模型参数中除所述第一模型参数之外的模型参数;
在对所述第二模型参数训练完成后,对所述第一模型参数进行训练,以恢复所述第一模型参数在所述神经网络模型中的数据处理能力,其中,在对所述第一模型参数训练完成后,得到序列到序列处理模型,所述序列到序列处理模型用于根据输入序列生成匹配的输出序列。
2.根据权利要求1所述的方法,其特征在于,所述在对所述多个模型参数中的第一模型参数进行裁剪后,对第二模型参数进行训练的步骤之前,所述方法还包括:
获取设定的裁剪比例和所述多个模型参数中每个模型参数的重要程度评价分数;
根据所述裁剪比例和所述每个模型参数的重要程度评价分数从所述多个模型参数中确定第一模型参数;
将所述第一模型参数的权值连接设置为零,以裁剪所述第一模型参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述裁剪比例和所述每个模型参数的重要程度评价分数从所述多个模型参数中确定第一模型参数,包括:
根据所述每个模型参数的重要程度评价分数对所述多个模型参数进行排序;
根据所述裁剪比例和所述多个模型参数的排序从所述多个模型参数中确定第一模型参数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述裁剪比例和所述每个模型参数的重要程度评价分数从所述多个模型参数中确定第一模型参数,包括:
根据所述每个模型参数的重要程度评价分数对所述神经网络模型的每一个网络层包括的模型参数进行排序;
根据所述裁剪比例和所述每一个网络层包括的模型参数进行排序,从所述每一个网络层包括的模型参数中确定第一模型参数...
【专利技术属性】
技术研发人员:王龙跃,史树明,涂兆鹏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。