一种训练数据的处理方法、装置、设备和介质制造方法及图纸

技术编号:37292011 阅读:12 留言:0更新日期:2023-04-21 03:22
本申请涉及一种训练数据的处理方法、装置、设备和介质,涉及数据处理的技术领域;方法包括获取多个政策训练样本,并从多个政策训练样本中,确定若干复杂样本;根据每一复杂样本进行样本扩充,得到每一复杂样本对应的扩充样本;根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终政策训练样本。本申请能够从多个政策训练样本中筛选出若干边界模糊难以分类的复杂样本;根据每一复杂样本进行样本扩充,以得到更多的有效训练样本,复杂样本在模型训练中的权重增高,进而可以优化分类模型对复杂样本拟合不足的问题,进而利用最终政策训练样本进行模型训练时能够提高模型的分类效果。的分类效果。的分类效果。

【技术实现步骤摘要】
一种训练数据的处理方法、装置、设备和介质


[0001]本申请涉及数据处理的
,尤其是涉及一种训练数据的处理方法、装置、设备和介质。

技术介绍

[0002]随着社会经济的发展,为了提高人们的生活质量,各地政府相继出台多种政策措施,以解决社会面临的各种问题。各地政府政策一般可以分为公式管理、通知文件和产业政策等。政策数据的特点为数据量大维度多,因而在爬取这些数据的同时也需要使用政策分类模型对其进行分类。分类模型包括训练数据准备和模型训练两部分工作,其中训练数据质量好坏直接决定模型的效果。
[0003]一般的对于训练数据的处理并没有一套统一的方案,大都是在标注数据的基础上,进行简单的规则筛选过滤后,直接灌入深度学习模型进行训练,但是训练数据质量较差,进而影响政策分类模型的分类效果。

技术实现思路

[0004]本申请提供一种训练数据的处理方法、装置、设备和介质,用于解决以上技术问题。
[0005]第一方面,本申请提供一种训练数据的处理方法,采用如下的技术方案:一种训练数据的处理方法,包括:获取多个政策训练样本,并从多个政策训练样本中,确定若干复杂样本;根据每一复杂样本进行样本扩充,得到每一复杂样本对应的扩充样本;根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终政策训练样本。
[0006]通过采用上述技术方案,从多个政策训练样本中筛选出若干边界模糊难以分类的复杂样本;根据每一复杂样本进行样本扩充,以得到更多的有效训练样本,复杂样本在模型训练中的权重增高,进而可以优化分类模型对复杂样本拟合不足的问题,进而利用最终政策训练样本进行模型训练时能够提高模型的分类效果。
[0007]本申请在一较佳示例中可以进一步配置为:所述从多个政策训练样本中,确定若干复杂样本,包括:利用政策分类模型依次对多个政策训练样本进行分类,得到多个政策训练样本各自对应的分类结果,其中,所述政策分类模型是利用多个政策训练样本进行训练得到的;根据多个政策训练样本各自对应的分类结果和分类标签,从多个政策训练样本中确定若干复杂样本,其中,复杂样本为分类结果和分类标签不同的样本。
[0008]通过采用上述技术方案,利用由多个政策训练样本训练得到的政策分类模型对多个政策训练样本进行分类,得到每个政策训练样本对应的分类结果,将分类结合和分类标签进行比对,两者不同时,则确定政策训练样本为复杂样本,能够极大的提高复杂样本确定
的效率。
[0009]本申请在一较佳示例中可以进一步配置为:所述获取多个政策训练样本之后,还包括:提取每一政策训练样本的句向量,并计算每两个句向量的相似度;根据所有的相似度、预设相似度阈值,对多个政策训练样本进行筛选,得到筛选后的多个政策训练样本;相应的,所述从多个政策训练样本中,确定若干复杂样本,包括:从筛选后的多个政策训练样本中,确定若干复杂样本。
[0010]通过采用上述技术方案,为每个政策训练样本生成一个句向量,计算样本间的余弦相似度,进而通过设置阈值,对于句间相似度超过预设相似度阈值的样本,只保留部分,以实现相似样本的筛选。能够减少训练样本中出现大量重复相似的语句,导致重复语句集上过拟合现象的发生,提高了模型的分类效果。
[0011]本申请在一较佳示例中可以进一步配置为:所述根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终的政策训练样本,包括:根据所述复杂样本各自对应的扩充样本和多个政策训练样本,确定所有样本类别各自对应的占比;确定占比小于预设占比阈值的目标样本类别,并根据目标样本类别对应的政策训练样本进行复制,得到目标样本类别对应的复制训练样本;将所有复杂样本各自对应的扩充样本、多个政策训练样本和复制训练样本,确定为最终的政策训练样本。
[0012]通过采用上述技术方案,根据复杂样本各自对应的扩充样本和多个政策训练样本,确定所有样本类别各自对应的占比后,基于所有样本类别各自对应的占比,确定占比小于预设占比阈值的目标样本类别,进而基于目标类别的政策训练样本进行样本复制,以实现样本占比均衡的效果,保证了训练好的模型对每一类别的拟合效果。
[0013]本申请在一较佳示例中可以进一步配置为:所述根据每一复杂样本进行样本扩充,得到每一复杂样本对应的扩充样本,包括:抽取每一复杂样本的关键序列片段;针对每一复杂样本,确定复杂样本的关键序列片段,与从词库中的每一序列片段的相似度值;并根据所述相似度值确定若干目标序列片段,其中,所述词库中存储有多个序列片段;根据每一复杂样本对应的若干目标序列片段,对每一复杂样本进行扩充,得到若干第一扩充样本;确定每一复杂样本的样本句式结构;根据每一复杂样本的样本句式结构对每一复杂样本进行语句片段剪切和/或语序调整,得到若干第二扩充样本;其中,每一复杂样本对应的扩充样本包括:若干第一扩充样本和/或若干第二扩充样本。
[0014]通过采用上述技术方案,采用关键序列片段替代的方式进行复杂样本的扩充,和/或,根据复杂样本句式,对语句片段进行剪切,前后调整,以进行数据增强,可以获得更多的
有效训练样本。
[0015]本申请在一较佳示例中可以进一步配置为:所述根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终政策训练样本之后,还包括:利用初始政策分类模型对各政策训练样本进行分类预测,得到政策训练样本属于每个类别的预测概率;根据每一政策训练样本属于每个类别的预测概率和各自对应的类别标签,确定训练损失值;根据所有政策训练样本的训练损失值确定总训练损失值;根据所述总训练损失值和所述政策训练样本对所述初始政策分类模型进行迭代训练,直至训练损失值小于预设损失阈值时,将训练结束时的模型确定为政策分类模型。
[0016]通过采用上述技术方案,利用最终的政策训练样本进行模型训练,提高了模型的分类效果。所述根据所有政策训练样本的训练损失值确定总训练损失值,包括:利用除目标训练样本之外的政策训练样本的训练损失值,确定总训练损失值,其中,目标训练样本是最高预测概率大于预设概率阈值的样本。
[0017]通过采用上述技术方案,能够将容易预测的样本的损失值移除计算总损失值,以使模型自动朝着复杂样本拟合,提高了政策分类模型的分类效果。
[0018]第二方面,本申请提供一种训练数据的处理装置,采用如下的技术方案:一种训练数据的处理装置,包括:获取与确定模块,用于获取多个政策训练样本,并从多个政策训练样本中,确定若干复杂样本;扩充模块,用于根据每一复杂样本进行样本扩充,得到每一复杂样本对应的扩充样本;确定模型,用于根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终政策训练样本。
[0019]本申请实施例的一种可能的实现方式,获取与确定模块在执行所述从多个政策训练样本中,确定若干复杂样本时,具体用于:利用政策分类模型依次对多个政策训练样本进行分类,得到多个政策训练样本各自对应的分类结果,其中,所述政策分类模型是利用多个政策训练样本进行训练得到的;根据多个政策训练样本各自对应的分类结果和分类标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练数据的处理方法,其特征在于,包括:获取多个政策训练样本,并从多个政策训练样本中,确定若干复杂样本;根据每一复杂样本进行样本扩充,得到每一复杂样本对应的扩充样本;根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终政策训练样本。2.根据权利要求1所述的训练数据的处理方法,其特征在于,所述从多个政策训练样本中,确定若干复杂样本,包括:利用政策分类模型依次对多个政策训练样本进行分类,得到多个政策训练样本各自对应的分类结果,其中,所述政策分类模型是利用多个政策训练样本进行训练得到的;根据多个政策训练样本各自对应的分类结果和分类标签,从多个政策训练样本中确定若干复杂样本,其中,复杂样本为分类结果和分类标签不同的样本。3.根据权利要求1所述的训练数据的处理方法,其特征在于,所述获取多个政策训练样本之后,还包括:提取每一政策训练样本的句向量,并计算每两个句向量的相似度;根据所有的相似度、预设相似度阈值,对多个政策训练样本进行筛选,得到筛选后的多个政策训练样本;相应的,所述从多个政策训练样本中,确定若干复杂样本,包括:从筛选后的多个政策训练样本中,确定若干复杂样本。4.根据权利要求1所述的训练数据的处理方法,其特征在于,所述根据所有复杂样本各自对应的扩充样本和多个政策训练样本,确定最终的政策训练样本,包括:根据所述复杂样本各自对应的扩充样本和多个政策训练样本,确定所有样本类别各自对应的占比;确定占比小于预设占比阈值的目标样本类别,并根据目标样本类别对应的政策训练样本进行复制,得到目标样本类别对应的复制训练样本;将所有复杂样本各自对应的扩充样本、多个政策训练样本和复制训练样本,确定为最终的政策训练样本。5.根据权利要求1至4任意一项所述的训练数据的处理方法,其特征在于,所述根据每一复杂样本进行样本扩充,得到每一复杂样本对应的扩充样本,包括:抽取每一复杂样本的关键序列片段;针对每一复杂样本,确定复杂样本的关键序列片段,与从词库中的每一序列片段的相似度值;并根据所述相似度值确定若干目标序列片段,其中,所述词库中存储有多个...

【专利技术属性】
技术研发人员:邹伟东黄威威杨振东蔡子哲
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1