【技术实现步骤摘要】
一种分类模型构建方法及装置
本申请涉及计算机
,具体而言,涉及一种分类模型构建方法及装置。
技术介绍
目前,一般利用分类模型自动对待分类对象进行分类处理。现有技术中,一般利用大量真实的样本数据对分类模型进行训练。在分类模型的训练过程中,经常会出现不同类的样本数据数量不均衡的情况,例如,某一类样本数据的数据量非常大,其他类的样本数据的数据量很少。样本数据数量不均衡导致训练得到的分类模型的分类准确度不够。现有技术中一般采用对数据量大的样本数据进行负采样,对数据量小的样本数据进行正采样的方式,来提高分类模型的分类准确度。该方式虽然在一定程度上提高了训练得到的分类模型的分类准确度,但是训练得到的分类模型的分类稳定无法保证。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种分类模型构建方法及装置,能够在不同类的样本数据存在数量不均衡的情况下,得到分类准确度和分类稳定性均较高的分类模型。第一方面,本申请实施例提供一种分类模型构建方法,包括:获取多个训练样本以及多个训练样本中 ...
【技术保护点】
1.一种分类模型构建方法,其特征在于,包括:/n获取多个训练样本以及多个训练样本中每个训练样本的分类标记;/n基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记;/n基于所述多个训练样本和多个训练样本中每个训练样本的分类标记,对所述初始分类模型进行训练,得到目标分类模型。/n
【技术特征摘要】
1.一种分类模型构建方法,其特征在于,包括:
获取多个训练样本以及多个训练样本中每个训练样本的分类标记;
基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记;
基于所述多个训练样本和多个训练样本中每个训练样本的分类标记,对所述初始分类模型进行训练,得到目标分类模型。
2.根据权利要求1所述的方法,其特征在于,所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记,包括:
基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,确定所述初始分类模型的分类准确度;
在确定的所述分类准确度大于预定数值的情况下,将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记。
3.根据权利要求2所述的方法,其特征在于,所述分类结果信息包括对应的训练样本属于所述目标分类标记对应的类别的概率值;
所述在确定的所述分类准确度大于预定数值的情况下,将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记,包括:
在确定的所述分类准确度大于预定数值的情况下,基于每个训练样本属于所述目标分类标记对应的类别的概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记的训练样本;
将筛选得到的训练样本的分类标记修订为所述目标分类标记。
4.根据权利要求3所述的方法,其特征在于,所述基于每个训练样本属于所述目标分类标记对应的类别的概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记的训练样本,包括:
对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值,进行均匀分布处理,得到每个训练样本属于所述目标分类标记对应的类别的目标概率值;
所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记的训练样本。
5.根据权利要求4所述的方法,其特征在于,所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记的训练样本,包括:
基于所述预制分类比例,确定筛选标准值;
将属于所述目标分类标记对应的类别的目标概率值,大于所述筛选标准值的训练样本,作为筛选得到需要修改分类标记的训练样本。
6.根据权利要求4所述的方法,其特征在于,所述将筛选得到的训练样本的分类标记修订为所述目标分类标记,包括:
针对筛选得到的训练样本,基于该训练样本属于所述目标分类标记对应的类别的目标概率值,和所述初始分类模型的分类准确度,确定修订概率;
按照确定的所述修订概率,将训练样本的分类标记修订为所述目标分类标记。
7.根据权利要求6所述的方法,其特征在于,所述基于该训练样本属于所述目标分类标记对应的类别的目标概率值,和所述初始分类模型的分类准确度,确定修订概率,包括:
计算该训练样本属于所述目标分类标记对应的类别的目标概率值,与所述初始分类模型的分类准确度的乘积,得到所述修订概率。
8.根据权利要求3所述的方法,其特征在于,所述目标分类标记为在多个训练样本中的占比小于预定占比的类别对应的分类标记。
9.根据权利要求2所述的方法,其特征在于,所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记,还包括:
在确定的所述分类准确度不大于所述预定数值的情况下,对所述初始分类模型中的参数进行修订,利用参数修订后的初始分类模型对每个训练样本进行的分类,得到每个训练样本的分类结果信息,并返回所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,确定所述初始分类模型的分类准确度的步骤。
10.根据权利要求1所述的方法,其特征在于,所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记,对所述初始分类模型进行训练,得到目标分类模型,包括:
利用所述初始分类模型对所述多个训练样本中的每个训练样本进行分类,得到每个训练样本的分类结果信息;
基于每个训练样本的分类结果信息,和每个训练样本的分类标记,对所述初始分类模型中的参数进行修订;
在参数修订后的初始分类模型对应的分类准确度大于预定准确度的情况下,将参数修订后的初始分类模型作为所述目标分类模型。
11.根据权利要求10所述的方法,其特征在于,所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记,对所述初始分类模型进行训练,得到目标分类模型,还包括:
在参数修订后的初始分类模型对应的分类准确度不大于预定准确度的情况下,返回所述基于...
【专利技术属性】
技术研发人员:杨晓庆,李奘,谢君,卓呈祥,叶杰平,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。