一种磨玻璃肺结节的识别方法技术

技术编号:34012372 阅读:16 留言:0更新日期:2022-07-02 14:54
本发明专利技术公开了一种磨玻璃肺结节的识别方法,包括,对所标记的肺结节区域进行特征提取;把所提取到的特征送到CatBoost模型中,进行特征选择,将经过特征选择后的磨玻璃肺结节特征数据集划分为训练集和测试集,送入Stacking集成学习模型中的第一层学习器中,在训练集上利用5折交叉验证实现对每个基分类器的训练与测试,在每个基模型训练测试结束后,把输出的结果拼接得到一个新的数据集,将该数据集做为第二层学习器的输入进行训练和测试,最终完成磨玻璃肺结节的识别。本发明专利技术先将提取到的原始影像组学特征,选择最优特征,随后使用Stacking集成学习方法,并引入随机森林、决策树、KNN、LightGBM四种学习器作为基分类器,以及SVM作为元学习器,提高磨玻璃肺结节识别准确率。提高磨玻璃肺结节识别准确率。提高磨玻璃肺结节识别准确率。

【技术实现步骤摘要】
一种磨玻璃肺结节的识别方法


[0001]本专利技术属于计算机视觉领域,特别涉及医学图像的特征选择和集成学习方法,主要用于磨玻璃肺结节的识别。

技术介绍

[0002]近年来,随着人工智能的快速发展,医学影像的计算机辅助诊断技术(CAD)越来越多的被应用于医生对肺部结节诊断的过程中。CAD诊断技术主要遵循以下步骤:1.候选肺结节的分割2.肺结节特征提取以及优化选择3.肺结节的分类识别。在步骤2中,由于提取方式的不同,我们会得到多种类型的结节特征,不同类型的特征对肺结节分类具有不同程度的影响,特征过多可能会存在冗余,引起较高的计算复杂度和较低的正确识别率,特征过少可能会导致重要特征缺失,使机器学习模型的性能降低。另外,在肺结节分类器的选择上,大多数研究者使用的为单一的机器学习方法,但对于较为复杂的医学图像,单一的机器学习模型还是存在一定的局限性。
[0003]为了提高磨玻璃肺结节的识别准确率,本专利技术提出一种基于CatBoost特征选择和Stacking集成学习的方法用于磨玻璃肺结节的识别。该方法首先针对磨玻璃肺结节高维度特征的冗余现象,通过CatBoost方法建模,得到原始各个数据特征的重要度,选取重要度较高的数据特征构建最优特征子集;其次针对识别精度不高的问题,在Stacking集成过程中,分别引入了随机森林,决策树,KNN,LightGBM四种基分类器,以及SVM作为元分类器,提升了磨玻璃肺结节的识别准确率。

技术实现思路

[0004]本专利技术的目的是提供一种磨玻璃肺结节的识别方法,从而解决目前对于磨玻璃肺结节识别准确率较低的问题。
[0005]为了实现上述目的,所采用的技术方法如下:
[0006]步骤1)、首先对实验数据进行特征提取,共计对每个肺结节提取45个特征;
[0007]步骤2)、CatBoost特征选择,将步骤1)提取的45个影像组学特征经过标准化处理后用CatBoost方法建模,得到45维数据特征的重要度,选取重要程度较高的27个特征构成最优特征数据集;
[0008]步骤3)、构建Stacking集成学习模型,将步骤2)中所得到的最优特征集作为数据集,输入到集成学习模型中,最后得到磨玻璃肺结节的识别结果。
[0009]本专利技术提供的磨玻璃肺结节识别方法,先将提取的肺结节影像组学特征送入CatBoost方法建模,得到经特征选择后的最优特征数据集,随后使用Stacking集成学习模型对该数据集进行分类,能够有效提高磨玻璃肺结节识别的准确率。
附图说明
[0010]图1为肺结节的影像组学特征提取过程图;
[0011]图2为肺结节原始特征数据45维特征的重要度;
[0012]图3为本专利技术对磨玻璃肺结节识别的流程示意图。
具体实施方式
[0013]为了使本领域的技术人员更好地理解本申请的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
[0014]根据本专利技术的实施方案,本专利技术的实验数据集采用华北石油管理局总医院提供的肺部CT数据集。
[0015]步骤1:参见图1的示意图,根据结节的坐标信息,在三维图像数据中提取结节区域(即三维数据块),将得到的肺结节三维数据块上低于60的灰度值置为0,计算数据块上的影像组学特征。对每个结节提取45个特征,包括15个一阶特征(energy、statistics energy、kurtosis、maximum、minimum、mean、mean deviation、median、range、root mean squared、skewness、standard deviation、variance、entropy、uniformity),依据灰度共生矩阵(GLCM)原理提取的20个纹理特征值(autocorrelation、cluster prominence、cluster shade、cluster tendency、contrast、correlation、difference entropy、dissimilarity、glcm energy、glcm entropy、homogeneity1、informational measure of correlation1、informational measure of correlation2、inverse difference normalized、inverse difference moment normalized、inverse variance、maximum probability、sum average、sum entropy、sum variance),基于灰度游程矩阵(GLRLM)的原理提取的10个特征值(short run emphasis、long run emphasis、run lenght nonuniformity、run percentage、low gray level run emphasis、high gray level run emphasis、short run gray level emphasis、short run high gray level emphasis、long run low gray level emphasis、long run high gray level emphasis)。
[0016]步骤2:使用CatBoost方法建模,将经过上述特征提取后获得的45维影像组学特征,使用CatBoost方法进行特征选择,采用loss_function(损失函数)为RMSE,iterations(最大树数)为1000,learning_rate(学习率)为0.03,depth(树深)为6,得到原始数据45维特征的重要度,重要度如图2所示,把图中较为重要的27个特征构成新的最优特征数据集。
[0017]步骤3.1:构建Stacking集成学习模型。Stacking模型通常设计为2层结构,参见图的示意图3。在第一层中构建多个基学习器,本专利技术使用LightGBM(Light Gradient Boosting Machine),KNN(K

Nearest Neighbor),决策树(DecisionTree),随机森林(Random Forest,RF)这四种学习器作为第一层的基分类器,其中LightGBM学习器采用learning_rate(学习率)为0.1,n_estimators(迭代次数)为1000,KNN学校器采用n_neighbors(KNN中的k值)为5,weights(标识每个样本的近邻样本的权重)为uniform,algorithm(限定半径最近邻法使用的算法)为auto,决策树学习器采用criterion(分裂节点)时的评价准则是Gini指数,指定分裂节点时的策略splitter为best最优的分裂策略,随机森林学习器采用n_estimators(森林中数的个数)为800,max_dept本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种磨玻璃肺结节的识别方法,其特征在于:包括:步骤1)、对肺结节所在的三维立体块,提取45个影像组学特征;步骤2)、使用CatBoost方法建模,以步骤1)所提取的特征数据集作为输入,分析所有的输入变量,得到原始数据45维特征的重要度,并从中筛选出27个与磨玻璃结节分类具有高相关性的特征;步骤3)、构建Stacking集成学习模型,将步骤2)所得的筛选后的特征集输入该模型,完成对磨玻璃肺结节的识别。2.根据权利要求1所述的磨玻璃肺结节识别方法,其特征在于:所述的步骤1)中所得提取45个影像组学特征,其特征在于,将得到的肺结节三维数据块上低于60的灰度值置为0,再计算数据块上的影像组学特征。3.根据权利要求1所述的磨玻璃肺结节识别方法,其特征在于:所述的步骤2)使用CatBoost方法建模,其特征在于针对磨玻璃结节特征数据冗余问题,使用CatBoost模型进行特征选择;CatBoost中所提供的...

【专利技术属性】
技术研发人员:常艺茹苗军陈辰刘艳齐洪钢
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1