【技术实现步骤摘要】
训练数据处理方法、装置和存储介质
[0001]本申请涉及人工智能
,尤其涉及一种训练数据处理方法、装置和存储介质。
技术介绍
[0002]在深度学习方案中需要解决的关键问题是数据的有效性。通常情况下训练数据的积累是基于技术人员对业务的理解和经验对样本数据进行数据标注,该方式凭借技术人员的知识进行标注,易导致训练数据冗余。此外,一般情况下,样本数据中可能存在大量相似较高的数据,基于人工标注的数据会忽略数据的重复性,进而损害训练数据的有效性,影响相关模型的训练效果和应用性能。因此,需要提供一种能够高效筛选有效数据的训练数据处理方法,以解决现有技术中存在的上述问题。
技术实现思路
[0003]本申请提供了一种训练数据处理方法、装置和存储介质,能够高效筛选候选数据集中的有效数据,优化模型训练效果和后续任务的应用效果。
[0004]一方面,本申请提供了一种训练数据处理方法,所述方法包括:
[0005]获取预训练回归模型和初始训练集;所述预训练回归模型为基于候选数据集和第一损失函数对初始回归模型进行 ...
【技术保护点】
【技术特征摘要】
1.一种训练数据处理方法,其特征在于,所述方法包括:获取预训练回归模型和初始训练集;所述预训练回归模型为基于候选数据集和第一损失函数对初始回归模型进行预设回归任务的约束训练得到的;所述初始训练集属于所述候选数据集;利用所述预训练回归模型获取所述候选数据集中的各样本数据对应的聚类结果;所述聚类结果表征所述候选数据集中的各样本数据所属的聚类类别;基于所述初始训练集和第二损失函数,对所述预训练回归模型进行样本数据的置信度预测和预设回归任务的更新约束训练,得到所述预训练回归模型对应的中间模型;所述第二损失函数为所述第一损失函数对应的最大似然损失函数;利用所述中间模型,对所述候选数据集与所述初始训练集的第一差集中的样本数据,进行置信度预测处理,得到所述第一差集中各样本数据的预测置信度;所述预测置信度表征所述样本数据所携带的信息量;基于所述预测置信度和所述聚类结果,对所述第一差集中的样本数据进行数据采样处理,得到增量训练集;利用所述增量训练集对所述初始训练集进行更新处理,得到更新的初始训练集;基于所述更新的初始训练集,循环执行上述更新约束训练、置信度预测处理、数据采样处理和对所述初始训练集进行更新处理的步骤,至满足迭代结束条件,将满足迭代结束条件的情况下所得到的所述更新的初始训练集作为目标训练集。2.根据权利要求1所述的方法,其特征在于,所述利用所述预训练回归模型获取所述候选数据集中的各样本数据对应的聚类结果包括:利用所述预训练回归模型,对所述候选数据集中的各样本数据进行特征提取处理,得到所述候选数据集中的各样本数据的样本特征;对所述各样本数据的样本特征进行特征聚类处理,得到所述候选数据集中的各样本数据对应的聚类结果。3.根据权利要求1所述的方法,其特征在于,所述基于所述预测置信度和所述聚类结果,对所述第一差集中的样本数据进行数据采样处理,得到增量训练集包括:基于所述预测置信度对所述第一差集中的样本数据进行置信度排序处理,得到置信度排序结果;基于所述置信度排序结果和所述聚类结果,对所述第一差集中的样本数据进行不同聚类类别的数据采样处理,得到所述增量训练集。4.根据权利要求3所述的方法,其特征在于,所述基于所述置信度排序结果和所述聚类结果,对所述第一差集中的样本数据进行不同聚类类别的数据采样处理,得到所述增量训练集包括:基于所述置信度排序结果,对所述第一差集中的样本数据进行数据采样处理,得到第一样本集;所述第一样本集中包括第一预设数量的样本数据;根据所述聚类结果确定所述第一样本集中各样本数据各自所属的目标聚类类别;针对各目标聚类类别中的每个目标聚类类别,从所述第一样本集中筛选出各目标聚类类别各自对应的第二预设数量的样本数据,得到所述第一样本集对应的增量样本数据;基于所述置信度排序结果,对所述第一差集与所述第一样本集间的第二差集中的样本
数据进行数据采样处理,得到第二样本集;所述第二样本集中包括第一预设数量的第二样本数据;针对所述第二样本集,重复执行上述目标聚类类别的确定步骤和所述筛选出第二预设数量的样本数据的步骤,得到所述第二样本集对应的增量样本数据;若所述第一样本集对应的增量样本数据和所述第二样本集对应的增量样本数据的数据量之和大于等于目标增量,基于所述第一样本集对应的增量样本数据和所述第二样本集对应的增量样本数据得到所述增量训练集。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述预训练回归模型包括第一预训练回归模型和第二预训练回归模型,所述初始训练集包括所述第一预训练回归模型对应的第一初始训练集和所述第二预训练回归模型对应的第二初始训练集;所述基于所述初始训练集和第二损失函数,对所述预训练回归模型进行样本数据的置信度预测和预设回归任务的更新约束训练,得到所述预训练回归模型对应的中间模型包括:基于所述第一初始训练集和第二损失函数,对所述第一预训练回归模型进行样本数据的置信度预测和预设回归任务的更新约束训练,得到所述第一预训练回归模型对应的中间模型;基于所述第...
【专利技术属性】
技术研发人员:康洋,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。