当前位置: 首页 > 专利查询>新疆大学专利>正文

一种基于高斯分布的智能重采样技术制造技术

技术编号:37088161 阅读:13 留言:0更新日期:2023-03-29 20:03
本发明专利技术为一种基于高斯分布的智能重采样技术。一种基于高斯分布的智能重采样技术,包括以下步骤:(1)判断原始数据是否平衡;(2)对不平衡的所述的原始数据进行密度因子和距离因子的计算后,合并为权重因子;(3)根据所述的权重因子计算权重概率,选择锚样本;(4)根据所述的锚样本生成少数类样本,以高斯分布的形式进行过采样;(5)再进行随机欠采样。本发明专利技术所述的一种基于高斯分布的智能重采样技术,以有效提高食品不平衡数据集的分类性能,从而有效解决食品计算中数据不平衡问题。决食品计算中数据不平衡问题。决食品计算中数据不平衡问题。

【技术实现步骤摘要】
一种基于高斯分布的智能重采样技术


[0001]本专利技术具体涉及一种基于高斯分布的智能重采样技术。

技术介绍

[0002]食品计算通常用于通过识别食品中的不合格产品,为改进食品质量提供科学的数据支持。因此,建立良好的分析模型是有效进行食品计算的关键。食品安全分析传统的方法有基于贝叶斯网络的方法、基于人工神经网络的方法和基于机器学习的方法。但是在现实世界的食品领域中,食品数据不合格样本数量较少,混杂在大量合格样本之间,这就导致经常出现食品数据不平衡的问题。传统的分类算法在不平衡数据集上极易产生过拟合现象,这就使得以往的算法在不平衡数据集上难以应用。
[0003]由于传统的分类算法在不平衡数据集上会出现过拟合现象,尽管实验可能获得了较高的准确率,但这种高准确率往往是不真实的。算法在分类结果中往往会把绝大多数样本甚至全部样本识别为多数类样本,又因为数据集是不平衡的,多数类样本会占据数据集大部分,所以准确率会显得很高,这种情况在高度不平衡的数据集上更加严重。然而那些少数类样本却没有被真正检测出来,在AUC和G

mean这些专门的不平衡数据集的评价指标中,会综合考虑多数类和少数类样本的识别结果,算法通常会得到很差的结果。在食品领域中,为了食品质量安全的研究,我们往往更注重模型能否检测出数据中的不合格样本,所以传统算法很难应用在食品不平衡数据中。
[0004]有鉴于此,本专利技术提出一种新的智能重采样技术,基于高斯分布过采样结合随机欠采样(GDRS),可以有效解决食品计算中的数据不平衡问题,在食品领域具有较好的应用前景。

技术实现思路

[0005]本专利技术的目的在于提供一种基于高斯分布的智能重采样技术,可以有效解决食品计算中数据不平衡问题。
[0006]为了实现上述目的,所采用的技术方案为:
[0007]一种基于高斯分布的智能重采样技术,包括以下步骤:
[0008](1)判断原始数据是否平衡;
[0009](2)对不平衡的所述的原始数据的少数类样本进行密度因子和距离因子的计算后,合并为权重因子;
[0010](3)根据所述的权重因子计算权重概率,选择锚样本;
[0011](4)根据所述的锚样本生成少数类样本,以高斯分布的形式进行过采样;
[0012](5)再进行随机欠采样。
[0013]进一步的,所述的步骤(1)中,平衡的所述的原始数据输入到分类器中。
[0014]进一步的,所述的步骤(2)中,距离因子D(X
i
)的公式为:
[0015][0016][0017]式中,dist(X
i
,X
j
)表示X
i
和X
j
之间的Chebyshev Distance,l表示数据集的特征属性,X
i
为少数类样本集中的样本。
[0018]再进一步的,所述的步骤(2)中,密度因子ρ(X
i
)表示为X
i
的多数类样本的K

近邻数量在总的K

近邻数量中的比例,其公式为:
[0019][0020]式中,表示X
i
多数类样本的K

近邻数量。
[0021]再进一步的,所述的步骤(2)中,综合权重因子I(X
i
)的公式为:
[0022]I(X
i
)=ρ(X
i
)+D(X
i
)。
[0023]进一步的,所述的步骤(3)中,将权重因子归一化后,得到权重概率;再使用轮盘赌算法作为少数类样本中选择锚样本的方法。
[0024]进一步的,所述的步骤(4)中,过采样过程中,加入采样率来控制新的少数类样本生成的数量。
[0025]与现有技术相比,本专利技术的有益效果在于:
[0026]目前主流的类不平衡方法按照处理阶段不同可分为算法级和数据级:算法级方法通常不太注重对数据集进行预处理,一般通过修改算法,训练模型来识别少数类样本。数据级方法一般会对数据集样本进行处理,通过生成新的少数类样本或者减少多数类样本达到数据的平衡后,再通过传统的分类器进行分类。相比之下,研究人员更注重第二种方法,因为它独立于算法之外,不需要针对原始数据进行复杂的算法设计,将预处理后的数据集使用传统的分类器就可以得到不错的结果。数据级的方法通常使用采样技术,最早的采样技术使用随机过采样和随机欠采样对不平衡数据集进行平衡处理。但是随机过采样和随机欠采样对数据集的样本处理具有随机性,不太稳定,于是SMOTE和基于SMOTE的几个变种,ADASYN被研究者们提出来解决这些问题。SMOTE可以在两个少数类样本之间线性生成新的样本,能在一定程度上克服随机过采样的不稳定性。然而虽然SMOTE可以线性生成新样本,却没有考虑少数类样本之间的差异,即使少数类样本之间混杂着多数类样本,新样本依然在两个少数类样本之间生成,这就会导致新生成的少数类样本会和多数类样本重叠在一起。最近一种新的基于高斯分布的重采样技术(GDO)被人们提出来,这种重采样技术通过密度和距离信息对少数类样本进行加权,再进行基于高斯分布的过采样,可以很好的生成符合原始数据集分布的新样本。
[0027]由于SMOTE这些算法的新样本是线性生成的,没有考虑少数类样本之间的差异,而GDO虽然综合考虑了少数类样本的距离和密度信息,但生成新样本后少数类样本数量是和多数类样本数量是一比一的关系,没有加入采样率来控制新样本的数量,少数类样本的扩充会使模型训练复杂度加大,可能会导致错误样本加倍扩大,容易产生过拟合现象。为了弥
补以上不足,本专利技术提出了一种基于高斯分布结合随机欠采样的智能重采样技术GDRS,通过基于高斯分布进行过采样,可以很好的生成符合原始数据集分布的新的数据集,同时加入采样率可以尽量控制新的少数类样本的生成,避免模型训练度加大,错误样本倍生的风险,同时加入了随机欠采样技术,来防止过拟合现象。本专利技术的创新点如下。
[0028](1)针对现实世界食品领域中,不合格数据掺杂在大量合格数据中这种数据不平衡现象,本专利技术首次提出了一种智能重采样技术GDRS。其通过过采样以及欠采样技术对食品数据进行了预处理,大大提高了食品数据中不合格样本的检测性能。
[0029](2)本专利技术提出了的智能重采样技术GDRS分为两步,首先是基于ChebyshevDistance的高斯分布过采样,通过对每个少数类样本的密度和距离因素进行加权,根据权重概率选定锚样本,再在其周围以高斯分布的形式生成新样本。我们对多数类样本再进行随机欠采样可以防止过拟合的产生,所以能更好的解决食品计算中的数据不平衡问题。
[0030](3)为了探索本专利技术所提出技术在不平衡食品数据集上的应用前景,本专利技术在UCI中选取5个食品以及其他公共领域的不平衡数据集,通过AUC、G

mean值来与五个常用的重采样技术来比较。结果证明,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高斯分布的智能重采样技术,其特征在于,包括以下步骤:(1)判断原始数据是否平衡;(2)对不平衡的所述的原始数据进行密度因子和距离因子的计算后,合并为权重因子;(3)根据所述的权重因子计算权重概率,选择锚样本;(4)根据所述的锚样本生成少数类样本,以高斯分布的形式进行过采样;(5)再对多数类样本进行随机欠采样。2.根据权利要求1所述的智能重采样技术,其特征在于,所述的步骤(1)中,平衡的所述的原始数据输入到分类器中。3.根据权利要求1所述的智能重采样技术,其特征在于,所述的步骤(2)中,距离因子D(X
i
)的公式为:)的公式为:式中,dist(X
i
,X
j
)表示X
i
和X
j
之间的Chebyshev Distance,l表示数据集的特征属性,X
i
为少数类样本集中的样本。4.根据权利要求3所述的智能重采样技...

【专利技术属性】
技术研发人员:吕小毅左恩光陈晨陈程严紫薇
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1