一种新型糖尿病状态不平衡数据的检测方法技术

技术编号:38102918 阅读:9 留言:0更新日期:2023-07-06 09:22
本发明专利技术公开了一种新型糖尿病状态不平衡数据的检测方法,计算出预先获取的糖尿病数据集的样本分布情况,具体转化为每一个样本的同类统计量,根据样本类统计量先将噪声数据删除;根据同类统计量定义一个基于每一条样本的新的不平衡尺度,描述该条样本是否处于相对平衡;对于还未平衡的样本,根据样本的类统计量定义出每一条样本的概率密度,根据概率密度的大小选取某些样本周围进行SMOTE采样扩充,扩充的同时进行去噪处理;扩充至所有的样本都达到相对平衡,得到新的数据集,使用基础分类器进行训练。本发明专利技术重构原来的数据分布,可以得到新的广义上相对平衡的数据,新生成的数据相比于原来数据更有助于分类模型获得更高的性能。能。能。

【技术实现步骤摘要】
一种新型糖尿病状态不平衡数据的检测方法


[0001]本专利技术属于数据处理
,具体涉及一种新型糖尿病状态不平衡数据的检测方法。

技术介绍

[0002]中国糖尿病患病原因受生活方式、老龄化、城市化、家族遗传等多种因素影响。同时,糖尿病患者趋向年轻化。糖尿病可导致心血管、肾脏、脑血管并发症的发生。因此,准确诊断出患有糖尿病个体具有非常重要的临床意义。糖尿病早期遗传风险预测将有助于预防糖尿病的发生。医生人工分析糖尿病相关指标信息存在着时间长、效率低,并且很容易受主观因素的影响,如自身经验不足,信息误差等,从而影响其正确性,而本申请专利技术人可以智能辅助医生识别异常样本的数据,旨在让采样后的数据更具有代表性,对正确判断出糖尿病患者的状态有一定的价值和意义。

技术实现思路

[0003]专利技术目的:本专利技术提供了一种新型糖尿病状态不平衡数据的检测方法,重构原来的数据分布,并进行合理的去噪处理,得到新的广义上平衡的数据。
[0004]技术方案:本专利技术提供一种新型糖尿病状态不平衡数据的检测方法,包括以下步骤:
[0005](1)计算出预先获取的糖尿病数据集的样本分布情况,具体转化为每一个样本的同类统计量,根据样本类统计量先将噪声数据删除;
[0006](2)根据同类统计量定义一个基于每一条样本的新的不平衡尺度,描述该条样本是否处于相对平衡;
[0007](3)对于还未平衡的样本,根据样本的类统计量定义出每一条样本的概率密度,根据概率密度的大小选取某些样本周围进行SMOTE采样扩充,扩充的同时进行去噪处理;
[0008](4)扩充至所有的样本都达到相对平衡,得到新的数据集,使用基础分类器进行训练。
[0009]进一步地,所述步骤(1)实现过程如下:
[0010]通过将所有就诊者信息构造成一个信息矩阵X={x1,x2,

,x
N
}中,患者和非患者的样本信息个数分别为N
+
和N

,故患者样本信息个数为故患者样本信息个数为非患者样本信息个数为对于这两类样本,计算出每一个样本在周围最近的k个样本中的同类统计量θ
k
(x):
[0011][0012]其中,k是要考虑的最近样本信息的个数,δ
r
(x,X)是统计样本信息x在k个近邻中
同类的个数;若θ
k
(x)为0,说明周围没有同类,则判定为噪声直接删除。
[0013]进一步地,所述步骤(2)实现过程如下:
[0014]根据少数类的同类统计量和多数类的同类统计量定义新的不平衡尺度Δτ:
[0015][0016]当某条样本的少数类统计量τ
+
(x)与多数类统计量τ

(x)接近时,即两者的比例趋近于1时,该样本相对平衡;其中少数类统计量,即每一条少数类的同类统计量与少数类数目的比值,为:
[0017][0018]多数类统计量为:
[0019][0020]其中,x是某条就诊者信息,k是要考虑的最近样本信息的个数,δ
r
(x,X)是统计样本信息x在k个近邻中同类的个数。
[0021]进一步地,所述步骤(3)实现过程如下:
[0022]根据每个样本的同类统计量定义一个概率密度公式通过轮盘赌的方式进行样本选择,对于少数类进行SMOTE采样的概率密度公式如下:
[0023][0024]其值越大,被选取得概率越大;选择一个样本进行线性插值,插值结束后,进行去噪处理,防止插值产生的是噪声而影响其他数据的平衡性。
[0025]进一步地,所述步骤(4)实现过程如下:
[0026]根据步骤(3)的扩充数据后,其他数据的平衡性也会发生变化,因此重复步骤(2)与步骤(3),直到步骤(2)中所有样本的少数类统计量与多数类统计量的比值都趋近于1的时候,才停止扩充与删除;停止后得到新的数据集,使用新的数据集拟合模型。
[0027]有益效果:与现有技术相比,本专利技术的有益效果:本专利技术首先通过邻域信息,根据新的不平衡度量可以计算出每一条记录的不平衡度,从而划分出正常数据、异常数据和嘈杂数据;接着通过概率密度对边缘信息进行过采样,得到更多正常数据,最后重复该操作直至每个数据都在邻域中处于相对平衡状态;使用新的不平衡度量相比于数量上的不平衡,能够更多地考虑样本数据信息的分布情况,能够获得更多的有效信息从而更好地判断就诊者是否患有糖尿病。
附图说明
[0028]图1为本专利技术的流程图;
[0029]图2为SMOTE过采样示意图。
具体实施方式
[0030]下面结合附图对本专利技术作进一步详细说明。
[0031]本专利技术提供了一种新型糖尿病状态不平衡数据的检测方法,从现有的糖尿病数据信息中根据同类统计量公式计算出各条样本的统计量;根据该统计量划分出多个种类:正常信息、嘈杂信息以及噪声信息,然后再根据同类统计量定义出新的广义上的不平衡度量,同时对三种信息区分别进行处理;将处理后的信息作为新的数据集重新根据邻域密度计算出各条数据是否相对平衡,若平衡,则停止,将目前的数据信息作为最终糖尿病信息,使用分类器进行拟合训练,若不平衡,继续重复操作,如图1所示,具体包括如下步骤:
[0032]步骤1:计算出预先获取的糖尿病数据集的样本分布情况,具体转化为每一个样本的同类统计量,根据样本类统计量先将噪声数据删除。
[0033]从糖尿病就诊者相关信息对患者是否患有糖尿病进行测量,将所有就诊者信息构造成一个数据信息矩阵X={x1,x2,

,x
N
}中,患者和非患者的样本信息个数分别为N
+
和N

,故患者样本信息个数为非患者样本信息个数为对于这两类样本,计算出每一个样本在周围最近的k个样本中的同类统计量θ
k
(x):
[0034][0035]其中,k是要考虑的最近样本信息的个数,δ
r
(x,X)是统计样本信息x在k个近邻中同类的个数;若θ
k
(x)为0,说明周围没有同类,则判定为噪声直接删除。
[0036]步骤2:根据同类统计量定义一个基于每一条样本的新的不平衡尺度,描述该条样本是否处于相对平衡。
[0037]根据步骤(1)计算出的每个样本的同类统计量,推出数据中所有同类样本的统计量,以下是少数类统计量的公式,即每一条少数类的同类统计量与少数类数目的比值:
[0038][0039]其中,x是某条就诊者信息,k是x周围距离最近的样本个数。δ
r
(x,X)是统计样本信息x在k个近邻中同类的个数,即让x与周围k个样本进行比较,若是同类样本为1,异类则为0,累加到δ
r
(x,X)中。同理,多数类统计量的公式为:
[0040][0041]根据少数类的同类统计量和多数类的同类统计量可以定义新的不平衡尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新型糖尿病状态不平衡数据的检测方法,其特征在于,包括如下步骤:(1)计算出预先获取的糖尿病数据集的样本分布情况,具体转化为每一个样本的同类统计量,根据样本类统计量先将噪声数据删除;(2)根据同类统计量定义一个基于每一条样本的新的不平衡尺度,描述该条样本是否处于相对平衡;(3)对于还未平衡的样本,根据样本的类统计量定义出每一条样本的概率密度,根据概率密度的大小选取某些样本周围进行SMOTE采样扩充,扩充的同时进行去噪处理;(4)扩充至所有的样本都达到相对平衡,得到新的数据集,使用基础分类器进行训练。2.根据权利要求1所述的一种新型糖尿病状态不平衡数据的检测方法,其特征在于,所述步骤(1)实现过程如下:通过将所有就诊者信息构造成一个信息矩阵X={x1,x2,

,x
N
}中,患者和非患者的样本信息个数分别为N
+
和N

,故患者样本信息个数为故患者样本信息个数为非患者样本信息个数为对于这两类样本,计算出每一个样本在周围最近的k个样本中的同类统计量θ
k
(x):其中,k是要考虑的最近样本信息的个数,δ
r
(x,X)是统计样本信息x在k个近邻中同类的个数;若θ
k
(x)为0,说明周围没有同类,则判定为噪声直接删除。3.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:王树祥于化龙秦斌高尚段继聪
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1