一种基于混合稀疏的样本和特征选择方法、装置制造方法及图纸

技术编号:36351229 阅读:67 留言:0更新日期:2023-01-14 18:06
针对医学影像数据含有噪音,包含冗余特征,并存在类别不平衡的问题,本发明专利技术提供了一种基于混合稀疏的样本和特征选择方法、装置,来选择富含信息的样本和特征,具体而言,利用嵌入学习和l0范数来选择合适的正负样本数量,以此缓解类别不平衡问题,本发明专利技术利用l

【技术实现步骤摘要】
一种基于混合稀疏的样本和特征选择方法、装置


[0001]本专利技术涉及医学影像数据挖掘
,尤其涉及一种基于混合稀疏的样本和特征选择方法、装置。

技术介绍

[0002]随着人工智能(Artificial Intelligence,AI)技术的飞速发展,基于AI的医学影像分析方法在疾病智能诊断中发挥着越来越大的作用。稀疏学习作为AI的一个代表性技术之一,它既可以学习数据固有的结构信息,又可以进行样本选择和特征选择来缓解医学影像数据存在的噪音、类别不平衡和特征维度高等问题,因此在医学影像数据的疾病智能诊断中得到了广泛的应用。
[0003]目前,大多数研究主要集中在特征选择以缓解医学影像数据维度太高而造成的过拟合问题。然而,这些特征选择方法没有考虑样本噪声对分类和得分预测任务的负面影响。因此,一些研究尝试使用样本和特征筛选的方法来解决上述问题。但是这些方法只考虑了样本和特征联合稀疏,并未考虑类别不平衡的问题,因而导致模型泛化能力不佳。

技术实现思路

[0004]本专利技术提供了一种基于混合稀疏的样本和特征选择方法、装置,用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于混合稀疏的样本和特征选择方法,其特征在于,包括:S1:通过深度学习、传统机器学习、医学工具包提取每个医学图像的特征,提取出的医学图像特征组成样本特征矩阵其中,n表示特征样本数量,d表示特征维度;S2:采用混合稀疏嵌入学习方法将样本特征矩阵中的原始高维度特征数据映射到低维流形空间中,其中,目标函数为:s.t.s
i
1=1,0≤s
ij
≤1,W
T
W=E,γ=sum(S,2)γ
i
∈{0,1},||γ
Z(+1)
||0=k1,||γ
Z(

1)
||0=k2ꢀꢀꢀꢀꢀꢀꢀ
(5

1)上式中,x
i
和x
j
分别表示样本特征矩阵X中的第i个和第j个样本,表示投影维度为m的特征权重系数矩阵,表示样本相似性矩阵,s
ij
表示第i个样本和第j个样本的相似性值,μ是正则化参数,表示将原始高维度特征数据映射到低维流形空间时,同时利用l
2,p
范数进行特征权重自适应稀疏控制,λ1是一个超参数;约束项中,s
i
是S的第i行相似性向量,s
i
1=1用以保证每一个样本与其他样本的相似性之和等于1,其中1是由n个1组成的列向量,0≤s
ij
≤1保证两个样本之间的相似性在0和1区间内;W
T
W=E用以保证得到的列向量解为单位正交向量,sum(S,2)表示对样本相似性矩阵S在行的方向上求和,γ
i
为样本选择向量中对应第i个样本的元素,如果选择第i个样本x
i
,则γ
i
等于1,否则γ
i
为0;||γ
Z(+1)
||0=k1和||γ
z(

1)
||0=k2表示利用范数来约束γ,从而选择指定数量的正负样本,k1和k2分别表示正样本的数量和负样本的数量,Z(+1)=[i:y
i
=+1}和Z(

1)={i:y
i


1}分别表示正负样本索引集;S3:对目标函数进行优化,得到最优的特征权重矩阵W

和最优的样本选择向量γ

,S4:根据最优特征权重矩阵W

选择出对应的特征,根据最优的样本选择向量γ

的取值选择出对应的样本;S5:利用选择出的样本和特征数据对分类模型或者预测模型进行训练,得到训练好的分类模型或者预测模型,待分类或待预测的医学影像数据根据得到的最优的特征权重矩阵来选择特征,然后输入至训练好的分类模型或者预测模型,得到分类结果或者预测结果。2.如权利要求1所述的基于混合稀疏的样本和特征选择方法,其特征在于,S3包括:S3.1:固定样本相似性矩阵S,然后更新W,公式(5

1)转换为:s.t.W
T
W=E
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5

2)其中L
s
等于度矩阵D是一个对角矩阵,它的对角线上的第i个元素值等于S3.2:固定W,然后更新S,公式(5

1)转换为:s.t.s
i
1=1,0≤s
ij
≤1,γ=sum(S,2)γ
i
∈{0,1},||γ
Z(+1)
||0=k1,||γ
Z(

1)
||0=k2ꢀꢀꢀꢀꢀꢀꢀꢀ
(5

3)
由于每个样本的相似性向量是独立的,分别对每个样本求解:s.t.s
i
1=1,0≤s
ij
≤1
ꢀꢀꢀꢀꢀꢀꢀ
(5

4)其中用且重写公式(5

4)得到:s.t.s
i
1=1,0≤s
ij
≤1
ꢀꢀꢀꢀꢀꢀꢀ
(5

5)对相似性矩阵S进行求解,将与样本i具有相同标签的c个最近样本计算相似性值,其余置零,得到未进行样本选择的相似矩阵S;S3.3:将矩阵A=[a
ij
]中不同类别的样本...

【专利技术属性】
技术研发人员:黄忠唯李建强甘海涛时明方小悦周然杨智
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1