任务模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31481030 阅读:23 留言:0更新日期:2021-12-18 12:14
本公开提供了一种任务模型的训练方法、装置、电子设备及存储介质,涉及机器学习与自然语言处理等人工智能技术领域。具体实现方案为:获取训练集中的各训练样本与测试集的相似度;根据所述训练集中的各所述训练样本与所述测试集的相似度,配置对应的所述训练样本的权重;根据所述训练集中的各所述训练样本以及对应的各所述训练样本的权重,对任务模型进行训练。本公开能够有效地提高训练的任务模型的准确性。确性。确性。

【技术实现步骤摘要】
任务模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及机器学习与自然语言处理等人工智能
,尤其涉及一种任务模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能(Artificial Intelligence;AI)技术的发展,基于AI的神经网络模型可以应用在各种领域的各种场景下,且可以实现一定的任务,也可以称之为任务模型。
[0003]现有的任务模型在使用之前,需要采用训练集进行训练,并采用测试集进行测试,符合使用需求才可以投入使用。通常情况下,训练集和测试集来自于按时间切分的历史数据,相比于测试集,训练集可以采用时间更远的历史数据。有些任务模型所应用的场景中,需要1~2年甚至更久才能确定一个样本的真实标签。当遇到市场环境变化、准入策略发生调整等情况时,由于时间跨度较大,随着时间推移,样本的分布发生较大的偏移,此时按时间切分的训练集与测试集上的样本分布不一致,导致任务模型在测试集上的效果比训练集上的效果相差很多。

技术实现思路

[0004]本公开提供了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种任务模型的训练方法,其中,所述方法包括:获取训练集中的各训练样本与测试集的相似度;根据所述训练集中的各所述训练样本与所述测试集的相似度,配置对应的所述训练样本的权重;根据所述训练集中的各所述训练样本以及对应的各所述训练样本的权重,对任务模型进行训练。2.根据权利要求1所述的方法,其中,获取训练集中的各训练样本与测试集的相似度之前,还包括:检测并确定所述训练集和所述测试集存在样本分布偏移。3.根据权利要求2所述的方法,其中,获取训练集中的各训练样本与测试集的相似度,包括:基于所述训练集和所述测试集,训练样本分类器;采用所述样本分类器,对所述训练集中各所述训练样本进行打分,以标识所述训练样本与所述测试集的相似度。4.根据权利要求3所述的方法,其中,基于所述训练集和所述测试集,训练样本分类器,包括:为所述训练集中的所有训练样本配置第一标签;为所述测试集中的所有测试样本配置第二标签,所述第二标签不同于第一标签;合并所述训练集和所述测试集,得到合并样本集;基于所述合并样本集,获取新训练集和新测试集;基于所述新训练集和所述新测试集,构建所述样本分类器,使得所述样本分类器能够区分所述训练集和所述测试集中的样本。5.根据权利要求4所述的方法,其中,检测并确定所述训练集和所述测试集存在样本分布偏移,包括:基于训练好的所述样本分类器,检测所述训练集和所述测试集是否存在样本分布偏移。6.根据权利要求5所述的方法,基于训练好的所述样本分类器,检测所述训练集和所述测试集是否存在样本分布偏移,包括:计算训练好的所述样本分类器针对所述新测试集的曲线下的面积ACU指标;检测所述ACU指标是否大于第一预设阈值、且小于或者等于第二预设阈值;若是,确定所述训练集和所述测试集存在样本分布偏移。7.根据权利要求1

6任一所述的方法,其中,根据所述训练集中的各所述训练样本以及对应的各所述训练样本的权重,对任务模型进行训练,包括:基于各所述训练样本的权重,从所述训练集中选择参与训练的训练样本;基于选择的所述训练样本,对所述任务模型进行训练。8.根据权利要求1

6任一所述的方法,其中,根据所述训练集中的各所述训练样本以及对应的各所述训练样本的权重,对任务模型进行训练,包括:从所述训练集中随机选择参与训练的训练样本;基于选择的所述训练样本以及所述训练样本的权重,对所述任务模型进行训练。
9.一种任务模型的训练装置,其中,所述装置包括:获取模块,用于获取训练集中的各训练样本与测试集的相似度;配置模块,用于根据所述训练集中的各所述训练样本与所述测试集的相似度,配置对...

【专利技术属性】
技术研发人员:杨德将
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1