数据处理方法及其系统技术方案

技术编号:20655419 阅读:19 留言:0更新日期:2019-03-23 07:01
本公开提供了一种数据处理方法,该方法包括:获取非平衡数据的初始样本,其中,在初始样本中正类元素的个数小于负类元素的个数;根据初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,其中,每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数;利用正类样本分别与多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至多个分类器中,以对目标非平衡数据进行分类。本公开还提供了一种数据处理系统、一种计算机系统和一种计算机可读介质。

【技术实现步骤摘要】
数据处理方法及其系统
公开涉及数据处理领域,更具体地,涉及一种数据处理方法及其系统、以及一种计算机系统和一种计算机可读介质。
技术介绍
非平衡大数据是指构成大数据的正类样本的样本数量和负类样本的样本数量不平衡,即负类样本中的样本数量远远大于正类样本中的样本数量。由于类别样本数量固有的不平衡性,会导致正类样本的分类结果正确率较低,如容易将正类样本判别为负类样本,严重影响分类算法的分类性能。一般情况下,将正类样本判为负类样本的损失代价要明显高于将负类样本判为正类样本的损失代价。例如,在医学诊断、入侵检测等领域,将有疾病患者诊断为无疾病的损失代价和将非法入侵判为合法交易的损失代价都要明显高于相反的情形。在实现本公开实施例的过程中,专利技术人发现相关技术中至少存在如下问题:对非平衡大数据进行分类时容易导致分类结果正确率低。针对相关技术中的上述问题,目前还未提出有效的解决方案。
技术实现思路
有鉴于此,本公开提供了一种数据处理方法及其系统、以及一种计算机系统和一种计算机可读介质。本公开的一个方面提供了一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在上述初始样本中正类元素的个数小于负类元素的个数;根据上述初始样本中的上述正类元素创建一个正类样本以及根据上述初始样本中的上述负类元素创建多个负类样本,其中,每个上述负类样本中的负类元素的个数都等于上述正类样本中的正类元素的个数;利用上述正类样本分别与上述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类。根据本公开的实施例,根据上述初始样本中的上述正类元素创建一个正类样本包括:根据每个上述负类样本中的负类元素的个数,确定上述正类样本中的上述正类元素的拟定个数;确定上述正类样本中的上述正类元素的实际个数;将上述拟定个数与上述实际个数的差值作为上述正类样本中采样元素的采样个数;根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;在上述采样空间内,按照确定出的上述采样个数对上述正类样本中的上述正类元素进行采样,以获得上述采样元素;以及创建包含上述采样元素和上述正类元素的样本作为上述正类样本。根据本公开的实施例,根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间包括:计算上述初始样本中的上述正类元素与每个上述负类样本中各负类元素之间的欧式距离;从欧式距离的计算结果中找出最小的欧式距离值;以及分别以上述初始样本中的每个上述正类元素为中心,以确定出的上述最小的欧式距离值为半径的超球体作为上述正类元素的采样空间。根据本公开的实施例,根据上述初始样本中的上述负类元素创建多个负类样本包括:确定上述正类样本中的正类元素的个数;确定上述初始样本中的负类元素的个数;参考上述正类元素的个数,确定上述多个负类样本中每个负类样本中的负类元素的个数;以及根据确定出的每个负类样本中的负类元素的个数创建上述多个负类样本中的各个负类样本。根据本公开的实施例,将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类包括:将上述目标非平衡数据输入至上述多个分类器,得到多个分类结果;将上述分类结果中占多数的分类结果作为上述目标非平衡数据的分类结果;或者对上述分类结果进行打分,根据打分结果确定上述目标非平衡数据的分类结果。根据本公开的实施例,上述方法还包括:上述多个分类器的个数为奇数。本公开的另一个方面提供了数据处理系统,包括:获取模块,用于获取非平衡数据的初始样本,其中,在上述初始样本中正类元素的个数小于负类元素的个数;创建模块,用于根据上述初始样本中的上述正类元素创建一个正类样本以及根据上述初始样本中的上述负类元素创建多个负类样本,其中,每个上述负类样本中的负类元素的个数都等于上述正类样本中的正类元素的个数;训练模块,用于利用上述正类样本分别与上述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及分类模块,用于将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类。根据本公开的实施例,上述创建模块包括:第一确定单元,用于根据每个上述负类样本中的负类元素的个数,确定上述正类样本中的上述正类元素的拟定个数;第二确定单元,用于确定上述正类样本中的上述正类元素的实际个数;第一处理单元,用于将上述拟定个数与上述实际个数的差值作为上述正类样本中采样元素的采样个数;第三确定单元,用于根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;采样单元,用于在上述采样空间内,按照确定出的上述采样个数对上述正类样本中的上述正类元素进行采样,以获得上述采样元素;以及第一创建单元,用于创建包含上述采样元素和上述正类元素的样本作为上述正类样本。根据本公开的实施例,上述第三确定单元包括:计算子单元,用于计算上述初始样本中的上述正类元素与每个上述负类样本中各负类元素之间的欧式距离;处理子单元,用于从欧式距离的计算结果中找出最小的欧式距离值;以及构建子单元,用于分别以上述初始样本中的每个上述正类元素为中心,以确定出的上述最小的欧式距离值为半径的超球体作为上述正类元素的采样空间。根据本公开的实施例,上述创建模块包括:第四确定单元,用于确定上述正类样本中的正类元素的个数;第五确定单元,用于确定上述初始样本中的负类元素的个数;第六确定单元,用于参考上述正类元素的个数,确定上述多个负类样本中每个负类样本中的负类元素的个数;以及第二创建单元,用于根据确定出的每个负类样本中的负类元素的个数创建上述多个负类样本中的各个负类样本。根据本公开的实施例,上述分类模块包括:第二处理单元,用于将上述目标非平衡数据输入至上述多个分类器,得到多个分类结果;第三处理单元,用于将上述分类结果中占多数的分类结果作为上述目标非平衡数据的分类结果;或者第四处理单元,用于对上述分类结果进行打分,根据打分结果确定上述目标非平衡数据的分类结果。根据本公开的实施例,上述系统还包括:上述分类器个数为奇数的多个分类器。本公开的另一方面提供了一种计算机系统,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。本公开的另一方面提供了计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。根据本公开的实施例,由于在以对目标非平衡数据进行分类的过程中,采用利用非平衡数据的初始样本中的正类元素创建一个正类样本以及根据初始样本中的负类元素创建多个负类样本,使得每个负类样本中的负类元素的个数都等于正类样本中的正类元素的个数,即实现训练数据的平衡,进而利用创建好的平衡数据训练出多个分类器来对目标非平衡数据进行分类的技术方案,可以至少部分地克服相关技术提供的方案由于正类样本创建方法不合理导致的对目标非平衡数据进行分类时分类结果正确率低的技术问题,并因此通过正类样本的创建方法,达到对目标非平衡数据进行分类时提高分类结果正确率的技术效果。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样本,其中,每个所述负类样本中的负类元素的个数都等于所述正类样本中的正类元素的个数;利用所述正类样本分别与所述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类。

【技术特征摘要】
1.一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样本,其中,每个所述负类样本中的负类元素的个数都等于所述正类样本中的正类元素的个数;利用所述正类样本分别与所述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类。2.根据权利要求1所述的方法,其中,根据所述初始样本中的所述正类元素创建一个正类样本包括:根据每个所述负类样本中的负类元素的个数,确定所述正类样本中的所述正类元素的拟定个数;确定所述初始样本中的所述正类元素的实际个数;将所述拟定个数与所述实际个数的差值作为所述正类样本中采样元素的采样个数;根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;在所述采样空间内,按照确定出的所述采样个数对所述初始样本中的所述正类元素进行采样,以获得所述采样元素;以及创建包含所述采样元素和所述正类元素的样本作为所述正类样本。3.根据权利要求2所述的方法,其中,根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间包括:计算所述初始样本中的所述正类元素与每个所述负类样本中各负类元素之间的欧式距离;从欧式距离的计算结果中找出最小的欧式距离值;以及分别以所述初始样本中的每个所述正类元素为中心,以确定出的所述最小的欧式距离值为半径的超球体作为所述正类元素的采样空间。4.根据权利要求1所述的方法,其中,根据所述初始样本中的所述负类元素创建多个负类样本包括:确定所述正类样本中的正类元素的个数;确定所述初始样本中的负类元素的个数;参考所述正类元素的个数,确定所述多个负类样本中每个负类样本中的负类元素的个数;以及根据确定出的每个负类样本中的负类元素的个数创建所述多个负类样本中的各个负类样本。5.根据权利要求1所述的方法,其中,将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类包括:将所述目标非平衡数据输入至所述多个分类器,得到多个分类结果;将所述分类结果中占多数的分类结果作为所述目标非平衡数据的分类结果;或者对所述分类结果进行打分,根据打分结果确定所述目标非平衡数据的分类结果。6.根据权利要求1所述的方法,其中,所述方法还包括:所述多个分类器的个数为奇数。7.一种数据处理系统,包括:获取模块,用于获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;创建模块,用于根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样...

【专利技术属性】
技术研发人员:张明阳李小刚宋增超马千里
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1