样本采样方法、装置及存储介质制造方法及图纸

技术编号:21454779 阅读:18 留言:0更新日期:2019-06-26 05:02
本发明专利技术实施例公开了一种样本采样方法、装置及存储介质,涉及信息技术领域。本发明专利技术的方法包括:获取样本集,所述样本集中包括多个正样本及多个负样本;在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;对所述目标样本集中的各样本,进行采样操作。本发明专利技术能够提高样本采样效果。

【技术实现步骤摘要】
样本采样方法、装置及存储介质
本专利技术涉及信息
,尤其涉及一种样本采样方法、装置及存储介质。
技术介绍
随着机器学习技术的不断发展,用于进行模型训练的数据本身质量对机器学习效果显得尤为重要。对于一些机器学习的典型应用,例如欺诈检测,异常检测,文本分类等,其用于进行模型训练的数据集存在一个很严重的问题,即负正样本分布不均衡。针对该问题目前主要的解决方法为进行数据过采样。但目前的过采样算法存在采样区域狭隘,且产生较多无用样本的缺陷。
技术实现思路
本专利技术的实施例提供一种数据采样方法、装置及存储介质,能够解决现有采样方法导致的采样区域狭隘且产生较多无用样本的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种样本采样方法,包括:获取样本集,所述样本集中包括多个正样本及多个负样本;在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;对所述目标样本集中的各样本,进行采样操作。结合第一方面,在第一方面的第一种可能的实现方式中,所述在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,包括:针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值;若所述负正样本比例值大于或等于预设阈值,则所述正样本满足预设筛选条件;将各满足预设条件的正样本,作为所述目标样本集。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述方法还包括:若所述正样本的预设周围范围内全部为负样本,则所述正样本不满足预设筛选条件。结合第一方面,在第一方面的第三种可能的实现方式中,所述对所述目标样本集中的各样本,进行采样操作,包括:对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。结合第一方面,在第一方面的第四种可能的实现方式中,所述方法还包括:对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本;对所述目标样本集中的各样本及各新样本,进行采样操作。第二方面,本专利技术的实施例提供一种样本采集装置,包括:获取模块,用于获取样本集,所述样本集中包括多个正样本及多个负样本;筛选模块,用于在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;采样模块,用于对所述目标样本集中的各样本,进行采样操作。结合第二方面,在第二方面的第一种可能的实现方式中,所述筛选模块包括:计算子模块,用于针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值;筛选子模块,用于当所述负正样本比例值大于或等于预设阈值时,所述正样本满足预设筛选条件;并将各满足预设条件的正样本,作为所述目标样本集。结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,筛选子模块,还用于当所述正样本的预设周围范围内全部为负样本时,所述正样本不满足预设筛选条件。结合第二方面,在第二方面的第三种可能的实现方式中,所述采样模块,用于对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。结合第二方面,在第二方面的第四种可能的实现方式中,所述装置还包括:生成模块,用于对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本;所述采样模块,还用于对所述目标样本集中的各样本及各新样本,进行采样操作。第三方面,本专利技术的实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现第一方面提供的方法的步骤。本专利技术实施例提供的样本采集方法、装置及存储介质,通过获取样本集,所述样本集中包括多个正样本及多个负样本;在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;对所述目标样本集中的各样本,进行采样操作。能够通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本,哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以提高生成得到的样本的质量。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的样本采样方法的流程示意图;图2是本专利技术实施例的样本采样方法的另一流程示意图;图3是本专利技术实施例的样本采样装置结构示意图;图4是本专利技术实施例的样本采样装置的另一结构示意图;图5是本专利技术实施例的样本采样装置500的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术一实施例提供一种样本采样方法,如图1所示,所述方法包括:101、获取样本集,所述样本集中包括多个正样本及多个负样本。102、在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本。对于本专利技术实施例,假设少数类样本为正样本,多数类样本为负样本,则定义挑选“重点”正样本(即满足预设筛选条件的正样本)的方法,根据每一个正样本周围负正样本的比例来进行筛选。例如,关注每一个正样本周围M个样本的分布情况,如果该正样本周围的M个样本均为负样本,则该正样本会被认为是离群点,不进行过采样操作;如果这M个样本中有超过一半的样本为正样本,则该正样本会被认为是安全的,不进行过采样操作;如果这M个样本中有超过一半的样本为负样本,但不全是负样本,那么该正样本会被认为是危险的,加入到“重点”正样本集合中。103、对所述目标样本集中的各样本,进行采样操作。可选地,步骤103可以为:对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。可以理解的,通过本专利技术实施例所示的样本采样方法适用于过采样操作、欠采样操作、代价敏感采样操作等各种采样方法,本专利技术实施例不做限制。与现有技术相比,本专利技术实施例能够通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本,哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以提高生成得到的样本的质量。本专利技术又一实施例提供一种样本采样方法,如图2所示,所述方法包括:201、获取样本集,所述样本集中包括多个正样本及多个负样本。202、针对所述样本集中的每个所述正本文档来自技高网...

【技术保护点】
1.一种样本采样方法,其特征在于,包括:获取样本集,所述样本集中包括多个正样本及多个负样本;在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;对所述目标样本集中的各样本,进行采样操作。

【技术特征摘要】
1.一种样本采样方法,其特征在于,包括:获取样本集,所述样本集中包括多个正样本及多个负样本;在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;对所述目标样本集中的各样本,进行采样操作。2.根据权利要求1所述的样本采样方法,其特征在于,在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,包括:针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值;若所述负正样本比例值大于或等于预设阈值,则所述正样本满足预设筛选条件;将各满足预设条件的正样本,作为所述目标样本集。3.根据权利要求2所述的样本采样方法,其特征在于,所述方法还包括:若所述正样本的预设周围范围内全部为负样本,则所述正样本不满足预设筛选条件。4.根据权利要求1所述的样本采样方法,其特征在于,所述对所述目标样本集中的各样本,进行采样操作,包括:对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。5.根据权利要求1所述的样本采样方法,其特征在于,所述方法还包括:对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本;对所述目标样本集中的各样本及各新样本,进行采样操作。6.一种样本采样装置,其特征在于,包括:获取模块,用于获取样本集,所...

【专利技术属性】
技术研发人员:龙春李嘉伟魏金侠赵静杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1