一种基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法及系统技术方案

技术编号:39720370 阅读:12 留言:0更新日期:2023-12-17 23:26
本发明专利技术提供一种基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法及系统

【技术实现步骤摘要】
一种基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法及系统


[0001]本专利技术属于数据检测领域,具体涉及一种基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法及系统


技术介绍

[0002]甲状腺疾病是一类常见的内分泌系统疾病,包括甲状腺功能亢进

甲状腺功能减退等,如未能及时准确地进行诊断和治疗,将对患者的生活质量和健康状况造成长期的严重影响

[0003]由于疾病具有复杂性和多样性,相关影响因素具有多元性,传统的医学检查和诊断方法涉及多种生化实验检测,过程非常复杂,在时间和设备材料成本很高的同时,还存在人为错误影响诊断准确性的问题

因此,自动化的机器学习算法在医学诊断方面有着巨大的应用潜力

[0004]目前市面上的机器学习算法大多是为平衡数据集涉及的,而在甲状腺疾病检测中,正常样本通常远多于异常样本,造成了数据不平衡,这种不平衡会导致算法对于多数类
(
正常样本
)
过度敏感,而对少数类
(
异常样本
)
不够敏感
,
从而影响了分类模型的准确性

目前在甲状腺疾病检测中常用的不平衡检测方法,大多是黑盒性质的输出,缺乏良好的语言可解释性


技术实现思路

[0005]专利技术目的:本专利技术的目的是提供一种高准确度

高可解释性的基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法及系统

[0006]技术方案:本专利技术所述的一种基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法,包括以下步骤:
[0007]S1、
使用甲状腺疾病类别不平衡数据集对0阶
TSK
模糊分类器进行训练;
[0008]S2、
采用自适应采样策略
,
利用
S1
中训练后的0阶
TSK
模糊分类器对甲状腺疾病类别不平衡数据集进行连续平衡处理,将0阶
TSK
模糊分类器分类错误的样本加入下一轮平衡的数据集,使甲状腺疾病数据的分布不断平衡化;
[0009]S3、
采用
S2
中自适应采样策略,产生若干相对平衡的甲状腺疾病类别不平衡训练数据集,同时生成若干0阶
TSK
模糊分类器,每个0阶
TSK
模糊分类器分别对应一个甲状腺疾病类别不平衡训练数据集;
[0010]S4、
使用投票法对
S3
中的若干0阶
TSK
模糊分类器进行集成

[0011]具体的,步骤
S1
包括以下子步骤:
[0012]S101、
定义第
t
个0阶
TSK
模糊分类器的甲状腺疾病类别不平衡训练数据集为
Dt
,包括数据特征集合
X

[x1,x2,

,x
N
]、
与该数据特征集合
X
对应的类标签集合
Y

[y1,y2,

,y
N
];
[0013]式中:集合
X
中任意一个元素
x
n
∈R
d
,n

1,2,

,N

N
表示甲状腺疾病类别不平衡训练数据集的样本数量,
R
d
表示
d
维的样本数据,
d
是样本的维度;
Y
中任意一个元素
y
n

X
中元素
x
n
相对应,为该元素
x
n
的类标签;
[0014]S102、
计算样本在每一个维度下的高斯隶属度函数,第
k
条模糊规则在样本第
j
维输入特征下的高斯隶属度函数为:
[0015][0016]式中:
φ
是隶属度函数;
t
表示第
t
个0阶
TSK
模糊分类器;
j

1,2,

,d

k

1,2



K

K
是模糊规则的初始化数量;
x
nj
表示在
N
个甲状腺疾病类别不平衡训练样本中第
n
个训练样本
x
n
的第
j
维数据;为隶属度函数中心参数,且从
{0,0.25,0.5,0.75,1}
中随机选取;
σ
为手动输入的高斯函数的宽度;
[0017]S103、
计算所有模糊规则下的样本
x
n
归一化后的隶属度函数值:
[0018][0019]S104、
得到模糊分类器的
Φ
t
矩阵:
[0020][0021]S105、
引入单位矩阵
I
K
×
K
,对下式使用最小二乘法求解,得到模糊规则的后件参数:
[0022][0023]式中:
a
t
为后件参数;
λ
为正则化常量参数;
I
为单位矩阵;
[0024]S106、
得到模糊分类器的输出:
[0025]Y

φ
t
a
t
[0026]式中:
Y
是甲状腺疾病类别不平衡数据的标签集合;
φ
t
是在甲状腺疾病类别不平衡数据集基础上求得的隶属度函数值

[0027]具体的,步骤
S2
包括以下子步骤:
[0028]S201、
定义
Rt
为训练集,
Re
为错误集,利用初始的不平衡训练集
Rt1训练首个0阶
TSK
模糊分类器
TSK1,然后利用
TSK1对所有属于
Rt1的训练样本分类;
[0029]S202、
将被误分类的训练样本组成误分类训练样本集
Re1,将
Rt1与
Re1合并得
Rt2,即
Rt2=
Rt1∪Re1,用于训练第二个0阶
TSK
模糊分类器
TSK2;
[0030]S203、
重复步骤
S201、S202...

【技术保护点】

【技术特征摘要】
1.
一种基于自适应采样驱动的类别不平衡甲状腺疾病数据检测方法,其特征在于,包括以下步骤:
S1、
使用甲状腺疾病类别不平衡数据集对0阶
TSK
模糊分类器进行训练;
S2、
采用自适应采样策略
,
利用
S1
中训练后的0阶
TSK
模糊分类器对甲状腺疾病类别不平衡数据集进行连续平衡处理,将0阶
TSK
模糊分类器分类错误的样本加入下一轮平衡的数据集,使甲状腺疾病数据的分布不断平衡化;
S3、
利用
S2
中自适应采样策略,产生若干相对平衡的甲状腺疾病类别不平衡训练数据集,同时生成若干0阶
TSK
模糊分类器,每个0阶
TSK
模糊分类器分别对应一个甲状腺疾病类别不平衡训练数据集;
S4、
使用投票法对
S3
中的若干0阶
TSK
模糊分类器进行集成
。2.
根据权利要求1所述的类别不平衡甲状腺疾病数据检测方法,其特征在于:步骤
S1
包括以下子步骤:
S101、
定义第
t
个0阶
TSK
模糊分类器的甲状腺疾病类别不平衡训练数据集为
Dt
,包括数据特征集合
X

[x1,x2,

,x
N
]、
与该数据特征集合
X
对应的类标签集合
Y

[y1,y2,

,y
N
]
;式中:集合
X
中任意一个元素
x
n
∈R
d
,n

1,2,

,N

N
表示甲状腺疾病类别不平衡训练数据集的样本数量,
R
d
表示
d
维的样本数据,
d
是样本的维度;
Y
中任意一个元素
y
n

X
中元素
x
n
相对应,为该元素
x
n
的类标签;
S102、
计算样本在每一个维度下的高斯隶属度函数,第
k
条模糊规则在样本第
j
维输入特征下的高斯隶属度函数为:式中:
φ
是隶属度函数;
t
表示第
t
个0阶
TSK
模糊分类器;
j

1,2,

,d

k

1,2



K

K
是模糊规则的初始化数量;
x
nj
表示在
N
个甲状腺疾病类别不平衡训练样本中第
n
个训练样本
x
n
的第
j
维数据;为隶属度函数中心参数,且从
{0,0.25,0.5,0.75,1}
中随机选取;
σ
为手动输入的高斯函数的宽度;
S103、
计算所有模糊规则下的样本
x
n
归一化后的隶属度函数值:
S104、
得到模糊分类器的
Φ
t
矩阵:
S105、
引入单位矩阵
I
K
×
K
,对下式使用最小二乘法求解,得到模糊规则的后件参数:式中:
a
t
为后件参数;
λ
为正则化常量参数;
I
为单位矩阵;
S106、
得到模糊分类器的输出:
Y

φ
t
a
t
式中:
Y
是甲状腺疾病类别不平衡数据的标签集合;
φ
t
是在甲状腺疾病类别不平衡数据
集基础上求得的隶属度函数值
。3.
根据权利要求1所述的类别不平衡甲状腺疾病数据检测方法,其特征在于:步骤
S2
包括以下子步骤:
S201、
定义
Rt
为训练集,
Re
为错误集,利用初始的不平衡训练集
Rt1训练首个0阶
TSK
模糊分类器
TSK1,然后利用
TSK1对所有属于
Rt1的训练样本分类;<...

【专利技术属性】
技术研发人员:张景红于化龙秦斌高尚王树祥
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1