多分类器的在线调整方法、装置、存储介质及电子设备制造方法及图纸

技术编号:18084641 阅读:41 留言:0更新日期:2018-05-31 12:58
本申请提供的多分类器的在线调整方法及装置,在利用多分类器对当前待处理的在线数据进行分类后,并不直接利用分类后的该条数据调整多分类器,而是对该条在线数据进行相应的缓存处理,直至缓存的各类别数据符合预设数量条件(任两个类别数据的数量差不超过第一预定阈值)时,再利用符合预设数量条件的各类别数据调整多分类器。本申请方案通过缓存分类后的各类别数据,并利用缓存的满足预设数量条件的各类别数据对多分类器进行调整,至少可在一定程度上保证分类器模型调整所采用的各类别数据在数量上的分布均衡性,从而,可有效降低多分类问题中分类模型的性能波动,进而克服了分类模型可能存在的分类不准确的问题。

【技术实现步骤摘要】
多分类器的在线调整方法、装置、存储介质及电子设备
本专利技术涉及数据处理
,尤其涉及一种多分类器的在线调整方法、装置、存储介质及电子设备。
技术介绍
在机器学习领域,分类方法是一种通过向相应分类算法中输入已有被标记好类别的数据训练数据的分类模型,进而利用训练所得的分类模型预测新数据类别的方法。其中,分类模型的训练方式包括离线训练和在线训练两种。目前,对应于在线训练的在线分类方法包括在线梯度下降(OGD,OnlineGradientDescent)和随机梯度下降(SGD,StochasticGradientDescent)等,然而,这些在线方法存在很难产生稀疏解的缺点,进而在预测新数据的类别过程中会存在内存占用和时间复杂度较高的问题,鉴于此,本领域提出了针对随机梯度下降的FTRL(FollowTheRegularizedLeaderProximal),以解决随机梯度下降方法存在的问题。但是在实际应用中,基于该方法(即FTRL)的多分类模型易存在较大的性能波动,进而易导致多分类模型可能会存在分类不准确的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种多分类器的在线调整方法及装置,以至少降低上述多分类问题中分类模型的性能波动。为此,本专利技术公开如下技术方案:一种多分类器的在线调整方法,包括:利用预先构建的多分类器对当前待处理的在线数据进行分类,得到所述在线数据的多分类结果;根据所述在线数据的多分类结果,确定所述在线数据所属的类别;在所述在线数据符合预设缓存条件时,将所述在线数据缓存入预定缓存单元中与所述在线数据所属的类别对应的缓存子单元;在所述预定缓存单元中的各缓存子单元所缓存数据的数量符合预设数量条件时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整;所述预设数量条件包括:所述各缓存子单元中任两个缓存子单元所缓存数据的数量差值不超过第一预定阈值。优选的,所述利用预先构建的多分类器对当前待处理的在线数据进行分类之前,所述方法还包括:获得预先标记有类别信息的多条离线数据,并获得所述离线数据对应的数据特征集;若所述数据特征集中的特征数量未达到第二预定阈值,则利用所述预先标记有类别信息的多条离线数据,构建多分类器;若所述数据特征集中的特征数量达到所述第二预定阈值,则将所述数据特征集划分为多个特征子集,并利用所述预先标记有类别信息的多条离线数据,构建多个子多分类器,各个所述子多分类器构成多分类器;其中,所述多个子多分类器中的子多分类器与所述多个特征子集中的特征子集一一对应。优选的,在数据特征集中的特征数量未达到第二预定阈值时,构建的所述多分类器包括多个二分类器,其中,所述多分类器包括的二分类器与所述多分类器提供的多个类别中的类别一一对应;在数据特征集中的特征数量达到第二预定阈值时,构建的所述子多分类器包括多个二分类器,其中,所述子多分类器包括的二分类器与所述子多分类器提供的多个类别中的类别一一对应。优选的,所述利用预先构建的多分类器对当前待处理的在线数据进行分类,得到多分类结果,包括:将在线数据分别输入多分类器包括的多个子多分类器中,以分别利用所述多个子多分类器对在线数据进行分类,得到各个子多分类器的多分类结果;根据各个子多分类器的多分类结果,获得所述在线数据的多分类结果。优选的,所述利用预先构建的多分类器对当前待处理的在线数据进行分类,得到多分类结果,包括:利用多分类器中每个子多分类器包括的多个二分类器分别对所述在线数据进行分类,得到每个子多分类器对应的一套二分类结果;根据多个子多分类器对应的多套二分类结果,获得所述在线数据的多分类结果。优选的,所述在所述预定缓存单元中的各缓存子单元所缓存数据的数量符合预设数量条件时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整,包括:在所述预定缓存单元中的各缓存子单元所缓存的数据量均达到第一预定数量时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整。优选的,所述在线数据的多分类结果至少包括所述在线数据所属的类别以及属于所述类别的置信度;则所述在所述在线数据符合预设缓存条件时,将所述在线数据缓存入预定缓存单元中与所述在线数据所属的类别对应的缓存子单元,包括:在所述缓存子单元中所缓存的数据量未达到所述第一预定数量时,或者,在所述缓存子单元中所缓存的数据量达到所述第一预定数量,且所述缓存子单元缓存的数据中存在至少一条数据的置信度低于所述在线数据的置信度时,将所述在线数据缓存入所述缓存子单元。优选的,所述方法在构建多分类器或多个子多分类器之后,还包括:利用所述多分类器或者所述各个子多分类器,对各条所述离线数据进行分类,得到各离线数据的多分类结果;其中,离线数据的多分类结果至少包括所述离线数据所属的类别,以及属于所述类别的置信度;根据各离线数据的多分类结果,从所述离线数据中抽取出每个分类类别中按置信度递减顺序确定出的前预定数目的离线数据,得到预先抽样集合。优选的,所述方法还包括:在所述预定缓存单元中的各缓存子单元所缓存的数据量未全部达到第一预定数量时,判断向所述多分类器输入的在线数据的数量是否达到第二预定数量;若达到,则针对缓存量未达到第一预定数量的每个缓存子单元,从所述预先抽样集合中抽取符合所述缓存子单元的数据类别的相应数量离线数据,并将抽取的所述相应数量离线数据添加至所述缓存子单元中,以使得每个缓存子单元的缓存量达到所述第一预定数量;并利用各个缓存子单元中缓存的相应类别的第一预定数量的数据,对所述多分类器进行调整;若未达到,则利用所述多分类器对下一条在线数据进行多分类处理。一种多分类器的在线调整装置,包括:分类模块,用于利用预先构建的多分类器对当前待处理的在线数据进行分类,得到所述在线数据的多分类结果;确定模块,用于根据所述在线数据的多分类结果,确定所述在线数据所属的类别;缓存模块,用于在所述在线数据符合预设缓存条件时,将所述在线数据缓存入预定缓存单元中与所述在线数据所属的类别对应的缓存子单元;分类器调整模块,用于在所述预定缓存单元中的各缓存子单元所缓存数据的数量符合预设数量条件时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整;所述预设数量条件包括:所述各缓存子单元中任两个缓存子单元所缓存数据的数量差值不超过第一预定阈值。优选的,所述装置还包括:预处理模块,用于:获得预先标记有类别信息的多条离线数据,并获得所述离线数据对应的数据特征集;若所述数据特征集中的特征数量未达到第二预定阈值,则利用所述预先标记有类别信息的多条离线数据,构建多分类器;若所述数据特征集中的特征数量达到所述第二预定阈值,则将所述数据特征集划分为多个特征子集,并利用所述预先标记有类别信息的多条离线数据,构建多个子多分类器,各个所述子多分类器构成多分类器;其中,所述多个子多分类器中的子多分类器与所述多个特征子集中的特征子集一一对应。优选的,所述预处理模块在数据特征集中的特征数量未达到第二预定阈值时,构建的所述多分类器包括多个二分类器,其中,所述多分类器包括的二分类器与所述多分类器提供的多个类别中的类别一一对应;所述预处理模块在数据特征集中的特征数量达到第二预定阈值时,构建的所述子多分类器包括多个二分类器,其中,所述子多分类器包括的二分类器与所述子多分类器提供的多个类本文档来自技高网...
多分类器的在线调整方法、装置、存储介质及电子设备

【技术保护点】
一种多分类器的在线调整方法,其特征在于,包括:利用预先构建的多分类器对当前待处理的在线数据进行分类,得到所述在线数据的多分类结果;根据所述在线数据的多分类结果,确定所述在线数据所属的类别;在所述在线数据符合预设缓存条件时,将所述在线数据缓存入预定缓存单元中与所述在线数据所属的类别对应的缓存子单元;在所述预定缓存单元中的各缓存子单元所缓存数据的数量符合预设数量条件时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整;所述预设数量条件包括:所述各缓存子单元中任两个缓存子单元所缓存数据的数量差值不超过第一预定阈值。

【技术特征摘要】
1.一种多分类器的在线调整方法,其特征在于,包括:利用预先构建的多分类器对当前待处理的在线数据进行分类,得到所述在线数据的多分类结果;根据所述在线数据的多分类结果,确定所述在线数据所属的类别;在所述在线数据符合预设缓存条件时,将所述在线数据缓存入预定缓存单元中与所述在线数据所属的类别对应的缓存子单元;在所述预定缓存单元中的各缓存子单元所缓存数据的数量符合预设数量条件时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整;所述预设数量条件包括:所述各缓存子单元中任两个缓存子单元所缓存数据的数量差值不超过第一预定阈值。2.根据权利要求1所述的方法,其特征在于,所述利用预先构建的多分类器对当前待处理的在线数据进行分类之前,所述方法还包括:获得预先标记有类别信息的多条离线数据,并获得所述离线数据对应的数据特征集;若所述数据特征集中的特征数量未达到第二预定阈值,则利用所述预先标记有类别信息的多条离线数据,构建多分类器;若所述数据特征集中的特征数量达到所述第二预定阈值,则将所述数据特征集划分为多个特征子集,并利用所述预先标记有类别信息的多条离线数据,构建多个子多分类器,各个所述子多分类器构成多分类器;其中,所述多个子多分类器中的子多分类器与所述多个特征子集中的特征子集一一对应。3.根据权利要求2所述的方法,其特征在于,在数据特征集中的特征数量未达到第二预定阈值时,构建的所述多分类器包括多个二分类器,其中,所述多分类器包括的二分类器与所述多分类器提供的多个类别中的类别一一对应;在数据特征集中的特征数量达到第二预定阈值时,构建的所述子多分类器包括多个二分类器,其中,所述子多分类器包括的二分类器与所述子多分类器提供的多个类别中的类别一一对应。4.根据权利要求3所述的方法,其特征在于,所述利用预先构建的多分类器对当前待处理的在线数据进行分类,得到多分类结果,包括:利用多分类器中每个子多分类器包括的多个二分类器分别对所述在线数据进行分类,得到每个子多分类器对应的一套二分类结果;根据多个子多分类器对应的多套二分类结果,获得所述在线数据的多分类结果。5.根据权利要求1所述的方法,其特征在于,所述在所述预定缓存单元中的各缓存子单元所缓存数据的数量符合预设数量条件时,利用各个缓存子单元中缓存的数据,对所述多分类器进行调整,包括:在所述预定缓存单元中的各缓存子单元所缓存的数据量均达到第一预...

【专利技术属性】
技术研发人员:邹荣珠
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1