一种基于深度学习的类不平衡磁共振全脑数据分类方法技术

技术编号:35528652 阅读:25 留言:0更新日期:2022-11-09 14:51
本发明专利技术公开了一种基于深度学习的类不平衡磁共振全脑数据分类方法,属于数据分类领域。本方法抽取网络关键特征降低数据的维度,并利用深度长短期记忆神经网络对数据进行训练分类,网络训练过程中采用自定义损失函数使得在不影响分类性能的情况下让分类结果偏向于负样本,最后借助DLSTM高精确性、高鲁棒性、无梯度消失和梯度爆炸问题等优点,输出最优数据分类结果。本发明专利技术相较与现有技术,可有效避免不平衡数据集对分类性能的影响,并在不影响分类性能的情况下让分类结果偏向于负样本,能够抽取原始数据的关键特征,降低原始数据特征空间的维度,减少模型训练的计算量,并提高分类表现。类表现。类表现。

【技术实现步骤摘要】
个脑区,提取M1个脑区中所有体素中的时间序列平均值作为对应脑区的时间序列;脑区时间序列均值作为网络节点,任意两个脑区平均时间序列之间的相关系数定义为两节点的边,由皮尔逊相关系数得出;则第k个被试节点i与j之间的边计算公式如下:
[0014][0015]式中t
i
和t
j
分别为节点i与j的时间序列,与分别为节点i与j时间序列的平均值;
[0016]构建的脑网络为:r
ij
表示节点i与节点j之间的边,N表示被试者的数量;
[0017]采用稀疏度阈值法对脑网络W进行二值化,得二值化脑网络R
ij
表示经过二值化后得到的值;
[0018]提取节点路径长度NL、节点度ND、节点中心度BC、集群系数CC;
[0019]其中第i个节点的NL的计算公式为:式中,V表示节点集合的大小,L
ij
表示从节点i出发到节点j结束必须要走的最少的边的个数;
[0020]第i个节点的ND的计算公式为:K
i
=∑
j∈V
b
ij
,式中b
ij
为二值化网络矩阵中位于i行j列的值;
[0021]第i个节点的BC的计算公式为:式中S
jm
表示从节点j出发到节点m结束所走的最少边的路径个数,S
jm
(i)表示从节点j出发到节点m结束所走的最少边的路径中经过i的个数;
[0022]第i个节点的CC的计算公式为:式中E
i
表示第i个节点相邻节点组成的子网络内实际存在的边数;
[0023](2):合并NL、ND、BC和CC,最后得到融合后的特征矩阵{m
NL
,m
ND
,m
BC
,m
CC
}=Z,用于后续处理,其中m
NL
为所有被试的NL参数,m
ND
为所有被试的ND参数,m
BC
为所有被试的BC参数,m
CC
为所有被试的CC参数;
[0024]步骤2:生成新的负样本以及抽取网络关键特征Z;
[0025]步骤2.1:生成新的负样本;
[0026](1)使用逻辑回归方法得到每段特征对标签的权重系数;
[0027]标签矩阵Y中,正样本用1表示,负样本用0表示,令f(z)=θ
T
z
i
+b,其中θ为权重系数,θ可细分为NL、ND、BC和CC段,既θ={θ
NL

ND

BC

CC
},b为偏置项,z
i
为特征矩阵Z中第i个样本;标签为1的后验概率为:式中y
i
表示标签矩阵Y中的第i个标签,标签为0的后验概率为:损失函数损失函数采用梯度下降法对权重进
行更新:其中α为学习率,得到最终的θ,使得损失函数lo(θ)最小;
[0028](2)利用分段加权的欧式距离计算样本点的近邻点,进而生成新样本;
[0029]对于任意一个负样本点z
i
,计算其与其他所有负样本点的分段加权欧式距离,负样本点z
i
与负样本点z
k
的分段加权欧式距离Dd定义为:
[0030][0031][0032][0033][0034][0035]其中z
ij
表示负样本点z
i
的第j个特征,分别表示权重矩阵θ
NL

ND

BC

CC
的平均值;采用分段加权的欧式距离更能体现不同的核磁脑网络参数对距离的贡献,使新生成的样本与原样本更相似;根据计算得到的距离,得到每个负样本z
i
距离最近的km个负样本,从这km个负样本中随机抽取kn个负样本,kn个负样本中的每个负样本z
r
与z
i
通过以下公式生成新的负样本:z
i

=z
i
+rand(0,1)
×
(z
r

z
i
),将新生成的负样本加入到原类不平衡数据中,补充负样本,得到类平衡样本集,用于后续分类训练;
[0036]步骤2.2:多维特征选择的提取;
[0037]采用嵌入式特征选择算法对生成的新的类平衡样本集进行特征选择,采用基学习器对多维数据进行回归学习,损失函数引入正则项,学习结束后选取特征系数为非零的特征作为筛选出的特征Z,同时根据特征系数对特征进行排序,根据特征系数绝对值进行由大到小的排序,其中基学习器使用SVM支持向量机;
[0038]步骤3:采用DLSTM进行分类预测;
[0039](1)组合步骤2得到的网络关键特征Z和标签矩阵Y得到{Z,Y};选取排序后Z的前h个特征得到数据集{Z
h
,Y},对数据集的特征部分Z
h
进行归一化预处理,映射公式如下:x、x
norm
分别是数据归一化前后的值,x
min
、x
max
分别表示原数据中最小、最大的值;对数据集的标签部分Y进行独热编码;
[0040](2)将上个步骤得到的归一化和独热编码后的数据集进行随机划分,分为训练集和测试集,然后构建出DLSTM;
[0041](3)将训练集输入DLSTM中进行训练,当训练的损失函数值收敛时或达到最大迭代次数时,训练结束;
[0042]采用梯度下降算法对网络进行迭代更新,梯度下降算法的公式为:其中θ
t
表示第t次迭代时神经网络的参数集合,I
r
表示网络学习率,J(θ)表示自定义损失函数;因为对于rs

fMRI数据的大多数分类任务而言,负样本更为重要,因此采用自定义损失函数J,具体为:
[0043]当y为正标签且y为正标签且y为负标签且这三种情况时:
[0044][0045]当y为负标签且时:
[0046][0047]其中y表示真实的标签,表示模型预测为正标签的概率值;
[0048]为了避免训练过程震荡,同时提高训练效率,在迭代训练过程中,对学习率进行衰减,网络学习率I
r
衰减公式为:当损失函数为J1时,当损失函数为J2时,迭代训练完成后,将测试集的数据输入到训练好的DLSTM中,得到输出标签,根据输出标签判断分类是否正确;
[0049](4)重复步骤(2)和(3),直到每个样本都当过测试集。求取各分类结果性能指标的平均值,分类结果统计性能指标包括:分类准确率ACC、敏感性SEN、特异性SPE以及曲线下面积AUC;
[0050](5)重复步骤(2)、(3)、(4),h的取值由1递增到h
e
,步长为1,其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的类不平衡磁共振全脑数据分类方法,该方法包括:步骤1:样本数据采集、预处理、添加标签并计算脑网络参数;步骤1.1:样本数据采集、预处理、添加标签;采集被试者的rs

fMRI数据再预处理;预处理方法包括:去时间点、时间层矫正、头动矫正、空间标准化、平滑、去线性漂移和滤波;并为每名被试者的数据添加二分类标签,被试标签分为正样本和负样本两种类型,标签矩阵记为Y;步骤1.2:脑网络参数计算;(1):对rs

fMRI数据提取多维节点特征:基大脑分区模板将rs

MRI数据划分为M1个脑区,提取M1个脑区中所有体素中的时间序列平均值作为对应脑区的时间序列;脑区时间序列均值作为网络节点,任意两个脑区平均时间序列之间的相关系数定义为两节点的边,由皮尔逊相关系数得出;则第k个被试节点i与j之间的边计算公式如下:式中t
i
和t
j
分别为节点i与j的时间序列,与分别为节点i与j时间序列的平均值;构建的脑网络为:r
ij
表示节点i与节点j之间的边,N表示被试者的数量;采用稀疏度阈值法对脑网络W进行二值化,得二值化脑网络R
ij
表示经过二值化后得到的值;提取节点路径长度NL、节点度ND、节点中心度BC、集群系数CC;其中第i个节点的NL的计算公式为:式中,V表示节点集合的大小,L
ij
表示从节点i出发到节点j结束必须要走的最少的边的个数;第i个节点的ND的计算公式为:K
i
=∑
j∈V
b
ij
,式中b
ij
为二值化网络矩阵中位于i行j列的值;第i个节点的BC的计算公式为:式中S
jm
表示从节点j出发到节点m结束所走的最少边的路径个数,S
jm
(i)表示从节点j出发到节点m结束所走的最少边的路径中经过i的个数;第i个节点的CC的计算公式为:式中E
i
表示第i个节点相邻节点组成的子网络内实际存在的边数;(2):合并NL、ND、BC和CC,最后得到融合后的特征矩阵{m
NL
,m
ND
,m
BC
,m
CC
}=Z,用于后续处理,其中m
NL
为所有被试的NL参数,m
ND
为所有被试的ND参数,m
BC
为所有被试的BC参数,m
CC
为所有被试的CC参数;步骤2:生成新的负样本以及抽取网络关键特征Z;步骤2.1:生成新的负样本;(1)使用逻辑回归方法得到每段特征对标签的权重系数;标签矩阵Y中,正样本用1表示,负样本用0表示,令f(z)=θ
T
z
i
+b,其中θ为权重系数,θ可
细分为NL、ND、BC和CC段,既θ={θ
NL

ND

BC

CC
},b为偏置项,z
i
为特征矩阵Z中第i个样本;标签为1的后验概率为:式中y
i
表示标签矩阵Y中的第i个标签,标签为0的后验概率为:损失函数损失函数采用梯度下降法对权重进行更新:其中α为学习率,得到最终的θ,使得损失函数lo(θ)最小;(2)利用分段加权的欧式距离计算样本点的近邻点,进而生成新样本;对于任意一个负样本点z
i
,计算其与其他所有负样本点的分段加权欧式距离,负样本点z
i
与负样本点z
k
的分段加权欧式距离Dd定义为:的分段加权欧式距离Dd定义为:的分段加权欧式距离Dd定义为:的分段加权欧式距离Dd定义为:的分段加权欧式距离Dd定义为:其中z
ij
表示负样本点z
i
的第j个特征,分别表示权重矩阵θ
NL

ND

BC

CC
的平均值;采用分段加权的欧式距离更能体现不同的核磁脑网络参数对距离的贡献,使新生成的样本与原样本更相似;根据计算得到的距离,得到每个负样本z
i
距离最近的km个负样本,从这km个负样本中随机抽取kn个负样本,kn个负样本中的每个负样本z
r
与z
i
通过以下公式生成新的负样本:z
i

=z
i
+rand(0,1)
×
(z
r

z
i
),将新生成的负样本加入到原类不平衡数据中,补充负样本,得到类平衡样本集,用于后续分类训练;步骤2.2:多维特征选择的提取;采用嵌入式特征选择算法...

【专利技术属性】
技术研发人员:白登辉张婷婷李凌
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1