针对不平衡样本数据的数据处理方法及装置制造方法及图纸

技术编号:28873194 阅读:17 留言:0更新日期:2021-06-15 23:06
本发明专利技术所提供的针对不平衡样本数据的数据处理方法及装置,能够基于第一目标样本构造第二目标样本,并将第一目标样本和第二目标样本进行整合得到采样样本集,本方案的扩充样本的方法避免了简单的欠采样技术导致的信息丢失的问题,在样本较少的情况下,也不会加剧少样本的问题。此外,本方案的扩充样本的方法也不会产生如简单的过采样技术一样的由于生成重复样本而出现的过拟合的问题。如此,能够实现对不平衡样本的处理,使得两类不同样本的数量处于一个合理的比例。在利用上述方案确定得到的采样样本集进行建模并应用到业务场景时,能够避免样本过拟合问题,提高模型的泛化能力,从而提高对业务分类处理的准确性。

【技术实现步骤摘要】
针对不平衡样本数据的数据处理方法及装置
本专利技术涉及样本数据处理
,具体而言,涉及一种针对不平衡样本数据的数据处理方法及装置。
技术介绍
在一些业务场景中,如果用于建模的样本数据存在严重的不平衡,例如,正类样本远少于负类样本,预测得出的结论往往也是有偏的。样本量少的分类所包含的特征过少,并很难从中提取规律,算法会过多地关注多数类,即分类结果会偏向于较多观测的类,容易产生过度依赖与有限的数据样本而导致过拟合问题,导致模型的泛化能力较弱。当模型应用到新的数据上时,模型的准确性会很差。
技术实现思路
为了改善上述问题,本专利技术提供了一种针对不平衡样本数据的数据处理方法及装置。本专利技术实施例提供了一种针对不平衡样本数据的数据处理方法,应用于电子设备,所述方法包括以下步骤:获取建模样本集;其中,所述建模样本集中包括多个原始样本,每个原始样本携带一个样本标签,所述样本标签为第一样本标签或第二样本标签;对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集;确定所述待处理样本集中携带第一样本标签的第一目标样本,根据所述第一目标样本构造第二目标样本,并将所述第一目标样本和所述第二目标样本进行整合得到采样样本集;对所述采样样本集进行切分,得到训练样本集和测试样本集;通过所述训练样本集进行建模得到第一预测模型,基于所述测试样本集确定所述第一预测模型的第一模型性能分布;通过所述采样样本集进行建模得到第二预测模型,基于所述采样样本集确定第一预测模型的第二模型性能分布;根据所述第一模型性能分布、所述第二模型性能分布以及所述跨时间验证样本集确定所述采样样本集是否满足设定条件。可选地,根据所述第一模型性能分布、所述第二模型性能分布以及所述跨时间验证样本集确定所述采样样本集是否满足设定条件,包括:判断所述第一模型性能分布和所述第二模型性能分布是否满足预设模型性能指标;在所述第一模型性能分布和所述第二模型性能分布满足所述预设模型性能指标时,基于所述跨时间验证样本集确定所述第一预测模型的第三模型性能分布以及所述第二预测模型的第四模型性能分布;判断所述第三模型性能分布和所述第四模型性能分布是否满足预设模型性能指标;在所述第三模型性能分布和所述第四模型性能分布满足所述预设模型性能指标时,判定所述采样样本集满足建模条件。可选地,根据所述第一目标样本构造第二目标样本,包括:计算每个所述第一目标样本的K个近邻;其中,K为正整数;从所述K个近邻中挑选出N个近邻样本;其中,N为正整数;对所述N个近邻样本进行随机线性插值,得到多个第二目标样本。可选地,通过所述采样样本集进行建模得到第二预测模型,基于所述采样样本集确定第二预测模型的第二模型性能分布,包括:通过对所述采样样本集进行分层采样,得到设定数量个互斥子集;重复执行以下步骤直至得到设定数量个第二模型性能分布:将所述设定数量个互斥子集中的其中一个互斥子集作为测试子集,将所述设定数量个互斥子集中除所述测试子集之外的剩余互斥子集求并集以作为训练子集;通过所述训练子集进行建模得到第二预测模型,基于所述测试样本子集确定所述第二预测模型的第二模型性能分布。可选地,对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集,包括:按照第一设定比例对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集。可选地,对所述采样样本集进行切分,得到训练样本集和测试样本集,包括:按照第二设定比例对所述采样样本集进行切分,得到训练样本集和测试样本集。可选地,判断所述第一模型性能分布和所述第二模型性能分布是否满足预设模型性能指标,包括:确定第一模型性能分布对应的第一性能属性关联列表,确定第二模型性能分布对应的第二性能属性关联列表,以及统计所述第一性能属性关联列表和所述第二性能属性关联列表中分别包括的多个具有不同属性标签识别度的属性关联元素;提取所述第一模型性能分布在所述第一性能属性关联列表的任一属性关联元素的初始元素描述数据,并将所述第二性能属性关联列表中具有最小属性标签识别度的属性关联元素确定为目标属性关联元素;依据所述第一模型性能分布和所述第二模型性能分布的性能分布融合结果,将所述初始元素描述数据映射到所述目标属性关联元素,在所述目标属性关联元素中得到初始元素映射数据;在得到所述初始元素映射数据之后,基于所述初始元素描述数据以及所述初始元素映射数据,生成所述第一模型性能分布和所述第二模型性能分布之间的性能指标融合清单;以所述初始元素映射数据为基准数据在所述目标属性关联元素中获取性能指向数据,根据所述性能指标融合清单对应的指标融合路径列表,将所述性能指向数据映射到所述初始元素描述数据所在属性关联元素,在所述初始元素描述数据所在属性关联元素中得到所述性能指向数据对应的性能评价数据,并确定所述性能评价数据的指标评价数据;获取所述初始元素描述数据映射到所述目标属性关联元素中的数据映射路径;根据所述性能评价数据与所述数据映射路径上的多个待处理路径节点对应的路径封装数据之间的相关性系数,在所述第二性能属性关联列表中逐层依次获取所述指标评价数据对应的性能指标描述值,直至获取到的所述性能指标描述值所在属性关联元素的元素热度值与所述指标评价数据在所述第一性能属性关联列表中的元素热度值一致时,停止获取下一属性关联元素中的性能指标描述值,并建立所述指标评价数据与最后一次获取到的性能指标描述值之间的描述值队列;计算所述描述值队列的第一指标系数;判读所述第一指标系数是否达到所述预设模型性能指标对应的第二指标系数;在所述第一指标系数达到所述预设模型性能指标对应的第二指标系数的前提下,判定所述第一模型性能分布和所述第二模型性能分布满足所述预设模型性能指标;在所述第一指标系数未达到所述预设模型性能指标对应的第二指标系数的前提下,判定所述第一模型性能分布和所述第二模型性能分布不满足所述预设模型性能指标。本专利技术实施例还提供了一种针对不平衡样本数据的数据处理装置,应用于电子设备,所述装置包括以下模块:样本获取模块,用于获取建模样本集;其中,所述建模样本集中包括多个原始样本,每个原始样本携带一个样本标签,所述样本标签为第一样本标签或第二样本标签;样本切分模块,用于对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集;确定所述待处理样本集中携带第一样本标签的第一目标样本,根据所述第一目标样本构造第二目标样本,并将所述第一目标样本和所述第二目标样本进行整合得到采样样本集;性能确定模块,用于对所述采样样本集进行切分,得到训练样本集和测试样本集;通过所述训练样本集进行建模得到第一预测模型,基于所述测试样本集确定所述第一预测模型的第一模型性能分布;通过所述采样样本集进行建模得到第二预测模型,基于所述采样样本集确定第一预测模型的第二模型性能分布;样本判断模块,用于根据所述第一模型性能分布、所述第二模型性能分布以及所述跨时间验证样本本文档来自技高网...

【技术保护点】
1.一种针对不平衡样本数据的数据处理方法,其特征在于,应用于电子设备,所述方法包括以下步骤:/n获取建模样本集;其中,所述建模样本集中包括多个原始样本,每个原始样本携带一个样本标签,所述样本标签为第一样本标签或第二样本标签;/n对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集;确定所述待处理样本集中携带第一样本标签的第一目标样本,根据所述第一目标样本构造第二目标样本,并将所述第一目标样本和所述第二目标样本进行整合得到采样样本集;/n对所述采样样本集进行切分,得到训练样本集和测试样本集;通过所述训练样本集进行建模得到第一预测模型,基于所述测试样本集确定所述第一预测模型的第一模型性能分布;/n通过所述采样样本集进行建模得到第二预测模型,基于所述采样样本集确定第二预测模型的第二模型性能分布;/n根据所述第一模型性能分布、所述第二模型性能分布以及所述跨时间验证样本集确定所述采样样本集是否满足设定条件。/n

【技术特征摘要】
1.一种针对不平衡样本数据的数据处理方法,其特征在于,应用于电子设备,所述方法包括以下步骤:
获取建模样本集;其中,所述建模样本集中包括多个原始样本,每个原始样本携带一个样本标签,所述样本标签为第一样本标签或第二样本标签;
对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集;确定所述待处理样本集中携带第一样本标签的第一目标样本,根据所述第一目标样本构造第二目标样本,并将所述第一目标样本和所述第二目标样本进行整合得到采样样本集;
对所述采样样本集进行切分,得到训练样本集和测试样本集;通过所述训练样本集进行建模得到第一预测模型,基于所述测试样本集确定所述第一预测模型的第一模型性能分布;
通过所述采样样本集进行建模得到第二预测模型,基于所述采样样本集确定第二预测模型的第二模型性能分布;
根据所述第一模型性能分布、所述第二模型性能分布以及所述跨时间验证样本集确定所述采样样本集是否满足设定条件。


2.根据权利要求1所述的方法,其特征在于,根据所述第一模型性能分布、所述第二模型性能分布以及所述跨时间验证样本集确定所述采样样本集是否满足设定条件,包括:
判断所述第一模型性能分布和所述第二模型性能分布是否满足预设模型性能指标;
在所述第一模型性能分布和所述第二模型性能分布满足所述预设模型性能指标时,基于所述跨时间验证样本集确定所述第一预测模型的第三模型性能分布以及所述第二预测模型的第四模型性能分布;
判断所述第三模型性能分布和所述第四模型性能分布是否满足预设模型性能指标;
在所述第三模型性能分布和所述第四模型性能分布满足所述预设模型性能指标时,判定所述采样样本集满足建模条件。


3.根据权利要求1所述的方法,其特征在于,根据所述第一目标样本构造第二目标样本,包括:
计算每个所述第一目标样本的K个近邻;其中,K为正整数;
从所述K个近邻中挑选出N个近邻样本;其中,N为正整数;
对所述N个近邻样本进行随机线性插值,得到多个第二目标样本。


4.根据权利要求1所述的方法,其特征在于,通过所述采样样本集进行建模得到第二预测模型,基于所述采样样本集确定第二预测模型的第二模型性能分布,包括:
通过对所述采样样本集进行分层采样,得到设定数量个互斥子集;
重复执行以下步骤直至得到设定数量个第二模型性能分布:将所述设定数量个互斥子集中的其中一个互斥子集作为测试子集,将所述设定数量个互斥子集中除所述测试子集之外的剩余互斥子集求并集以作为训练子集;通过所述训练子集进行建模得到第二预测模型,基于所述测试样本子集确定所述第二预测模型的第二模型性能分布。


5.根据权利要求1所述的方法,其特征在于,对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集,包括:
按照第一设定比例对所述建模样本进行切分,得到待处理样本集和跨时间验证样本集。


6.根据权利要求1所述的方法,其特征在于,对所述采样样本集进行切分,得到训练样本集和测试样本集,包括:
按照第二设定比例对所述采样样本集进行切分,得到训练样本集和测试样本集。


7.根据权利要求2所述的方法,其特征在于,判断所述第一模型性能分布和所述第二模型性能分布是否满足预设模型性能指标,包括:
确定第一模型性能分布对应的第一性能属性关联列表,确定第二模型性能分布对应的第二性能属性关联列表,以及统计所述第一性能属性关联列表和所述第二性能属性关联列表中分别包括的多个具有不同属性标签识别度的属性关联元素;
提取所述第一模型性能分布在所述第一性能属性关联列表的任一属性关联元素的初始元素描述数据,并将所述第二性能属性关联列表中具有最小属性标签识别度的属性关联元素确定为目标属性关联元素;
依据所述第一模型性能分布和所述第二模型性能分布的性能分布融合结果,将所述初始元素描述数据映射到所述目标属性关联元素,在所述目标属性关联元素中得到初始元素映射数据;在得到所述初始元素映射数据之后,基于所述初始元素描述数据以及所述初始元素映射数据,生成所述第一模型性能分布和所述第二模型性能分布之间的性能指标融合清单;
以所述初始元素映射数据为基准数据在所述目标属性关联元素中获取性能指向数据,根据所述性能指标融合清单对应的指标融合路径列表,将所述性能指向数据映射到所述初始元素描述数据所在属性关联元素,在所述初始元素描述数据所在属性关联元素中得到所述性能指向数据对应的性能评价数据,并确定所述性能评价数据的指标评价数据;
获取所述初始元素描述数据映射到所述目标属性关联元素中的数据映射路径;根据所述性能评价数据与所述数据映射路径上的多个待处理路径节点对应的路径封装数据之间的相关性系数,在所述第二性能属性关联列表中逐层依次获取所述指标评价数据对...

【专利技术属性】
技术研发人员:顾凌云谢旻旗段湾孟轩王震宇
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1