【技术实现步骤摘要】
数据处理方法及其系统
公开涉及数据处理领域,更具体地,涉及一种数据处理方法及其系统、以及一种计算机系统和一种计算机可读介质。
技术介绍
非平衡大数据是指构成大数据的正类样本的样本数量和负类样本的样本数量不平衡,即负类样本中的样本数量远远大于正类样本中的样本数量。由于类别样本数量固有的不平衡性,会导致正类样本的分类结果正确率较低,如容易将正类样本判别为负类样本,严重影响分类算法的分类性能。一般情况下,将正类样本判为负类样本的损失代价要明显高于将负类样本判为正类样本的损失代价。例如,在医学诊断、入侵检测等领域,将有疾病患者诊断为无疾病的损失代价和将非法入侵判为合法交易的损失代价都要明显高于相反的情形。在实现本公开实施例的过程中,专利技术人发现相关技术中至少存在如下问题:对非平衡大数据进行分类时容易导致分类结果正确率低。针对相关技术中的上述问题,目前还未提出有效的解决方案。
技术实现思路
有鉴于此,本公开提供了一种数据处理方法及其系统、以及一种计算机系统和一种计算机可读介质。本公开的一个方面提供了一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在上述初始样本中正类元素的个数小于负类元素的个数;根据上述初始样本中的上述正类元素创建一个正类样本以及根据上述初始样本中的上述负类元素创建多个负类样本,其中,每个上述负类样本中的负类元素的个数都等于上述正类样本中的正类元素的个数;利用上述正类样本分别与上述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至上述多个分类器中,以对上述目标非平衡数据进行分类。根据本公开的实施例,根 ...
【技术保护点】
1.一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样本,其中,每个所述负类样本中的负类元素的个数都等于所述正类样本中的正类元素的个数;利用所述正类样本分别与所述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类。
【技术特征摘要】
1.一种数据处理方法,包括:获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样本,其中,每个所述负类样本中的负类元素的个数都等于所述正类样本中的正类元素的个数;利用所述正类样本分别与所述多个负类样本中的每个负类样本训练出一对应的分类器,而得到多个分类器;以及将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类。2.根据权利要求1所述的方法,其中,根据所述初始样本中的所述正类元素创建一个正类样本包括:根据每个所述负类样本中的负类元素的个数,确定所述正类样本中的所述正类元素的拟定个数;确定所述初始样本中的所述正类元素的实际个数;将所述拟定个数与所述实际个数的差值作为所述正类样本中采样元素的采样个数;根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间;在所述采样空间内,按照确定出的所述采样个数对所述初始样本中的所述正类元素进行采样,以获得所述采样元素;以及创建包含所述采样元素和所述正类元素的样本作为所述正类样本。3.根据权利要求2所述的方法,其中,根据所述初始样本中的所述正类元素和每个所述负类样本中的负类元素确定所述正类元素的采样空间包括:计算所述初始样本中的所述正类元素与每个所述负类样本中各负类元素之间的欧式距离;从欧式距离的计算结果中找出最小的欧式距离值;以及分别以所述初始样本中的每个所述正类元素为中心,以确定出的所述最小的欧式距离值为半径的超球体作为所述正类元素的采样空间。4.根据权利要求1所述的方法,其中,根据所述初始样本中的所述负类元素创建多个负类样本包括:确定所述正类样本中的正类元素的个数;确定所述初始样本中的负类元素的个数;参考所述正类元素的个数,确定所述多个负类样本中每个负类样本中的负类元素的个数;以及根据确定出的每个负类样本中的负类元素的个数创建所述多个负类样本中的各个负类样本。5.根据权利要求1所述的方法,其中,将目标非平衡数据输入至所述多个分类器中,以对所述目标非平衡数据进行分类包括:将所述目标非平衡数据输入至所述多个分类器,得到多个分类结果;将所述分类结果中占多数的分类结果作为所述目标非平衡数据的分类结果;或者对所述分类结果进行打分,根据打分结果确定所述目标非平衡数据的分类结果。6.根据权利要求1所述的方法,其中,所述方法还包括:所述多个分类器的个数为奇数。7.一种数据处理系统,包括:获取模块,用于获取非平衡数据的初始样本,其中,在所述初始样本中正类元素的个数小于负类元素的个数;创建模块,用于根据所述初始样本中的所述正类元素创建一个正类样本以及根据所述初始样本中的所述负类元素创建多个负类样...
【专利技术属性】
技术研发人员:张明阳,李小刚,宋增超,马千里,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。