【技术实现步骤摘要】
一种数据集中含有不确定数据时的肺结节图像分类方法
本专利技术涉及计算机视觉
,特别是涉及一种数据集中含有不确定数据时的肺结节图像分类方法。
技术介绍
肺癌是世界上最致命的疾病之一,2017年肺癌约占所有癌症发病人数的26%。尽管最近的诊断和治疗取得了长足的发展,但肺癌五年治愈率仅为18%。值得注意的是,如果患者能够进行早期准确诊断并且实施适当的治疗,那么这一比率将大大增加。低剂量计算机断层扫描(CT)已被广泛用于肺癌检查,与其他成像技术相比,CT可以显示低对比度的结节,具有更多优势。根据全国肺部筛查的报告,低剂量CT扫描可将肺癌死亡率降低20%。传统的肺结节诊断主要依赖医生专家的观察,因此会有一些缺点:诊断结果具有主观性;工作量大耗时长;人类视觉局限性;偏远地区医生无法普及。随着计算机视觉技术的发展,特别是自动分类识别技术取得的进步,通过提供有价值的意见来帮助临床医生进行诊断。现在计算机视觉和机器学习技术的发展使快速和可靠的CT图像分类成为可能,因其高效和减少人工等优势成为热门的研究领域。一些有代表性的工作包括采用基于肺结节图像的低维度特征,包括纹理、形状、 ...
【技术保护点】
1.一种数据集中含有不确定数据时的肺结节图像分类方法,其特征在于,包括下述步骤:步骤1:组织数据集:收集N张肺结节CT图像构成图像集I={I1,I2,...,In,...,IN},将肺结节分为良性、恶性和不确定三种类型;采用专家法对每张肺结节CT图像进行类别标注,得到第n张肺结节CT图像In的类别为en;对每张肺结节CT图像进行预处理,得到肺结节CT图像数据集D;所述预处理包括将肺结节CT图像转换为JPG格式并对转换后的图像进行裁剪、尺寸调整、数据增强预处理;其中,n∈{1,2,...,N},en∈Mlevel,Mlevel={0,1,2},Mlevel中的0、1、2分别代 ...
【技术特征摘要】
1.一种数据集中含有不确定数据时的肺结节图像分类方法,其特征在于,包括下述步骤:步骤1:组织数据集:收集N张肺结节CT图像构成图像集I={I1,I2,...,In,...,IN},将肺结节分为良性、恶性和不确定三种类型;采用专家法对每张肺结节CT图像进行类别标注,得到第n张肺结节CT图像In的类别为en;对每张肺结节CT图像进行预处理,得到肺结节CT图像数据集D;所述预处理包括将肺结节CT图像转换为JPG格式并对转换后的图像进行裁剪、尺寸调整、数据增强预处理;其中,n∈{1,2,...,N},en∈Mlevel,Mlevel={0,1,2},Mlevel中的0、1、2分别代表良性、不确定、恶性三种肺结节类型;D={(x1,y1),(x2,y2),...,(xi,yi),...,(xm,ym)},m为肺结节CT图像数据集D中的样本总数,xi为肺结节CT图像数据集D中的第i张肺结节CT图像,yi为第i张肺结节CT图像xi的类别标签,yi∈Mlevel;步骤2:基于知识蒸馏法,构建肺结节图像分类模型,所述肺结节图像分类模型包括教师模型、学生模型;所述教师模型包括L个神经网络模型和L个softmax分类器,所述学生模型包括神经网络模型、第一softmax分类器s1、第二softmax分类器s2;步骤3:在确定标签数据集上训练教师模型;步骤3.1:获取确定标签数据集:从肺结节CT图像数据集D中提取类别标签为良性和类别标签为恶性的元素,构成确定标签数据集DC;其中,DC={(x1,y1),(x2,y2),...,(xj,yj),...,(xmC,ymC)}∈D,mC为确定标签数据集DC中的样本总数,yj为确定标签数据集DC中的肺结节CT图像xj的类别标签,yj∈MC={0,1},MC中的0、1分别代表良性、恶性两种肺结节类型;步骤3.2:对确定标签数据集DC按照批次处理,依次将每一批次的样本集DCs输入教师模型中的每个神经网络模型,采用随机初始化来初始化网络参数,通过教师模型中的L个神经网络模型对样本集DCs进行特征提取,在教师模型中的每个神经网络模型后都通过softmax分类器对样本集DCs中的肺结节CT图像进行分类;其中,DCs∈DC,DCs中的样本个数为ms;对于输入的肺结节CT图像xk∈DCs,经过假设函数输出二维向量pk,向量pk中的每个元素代表对于给定的肺结节CT图像xk每一个肺结节类型σ∈MC的概率估计值p(yk=σ|xk),假设函数为其中,θ={θ,θ1}为模型参数集,为对概率分布进行归一化使得所有概率总和为1,为模型参数集θ中第μ个元素的转置;在确定标签数据集DC上通过损失函数JC(θ)采用小批量梯度下降法对教师模型进行训练:其中,logloss为类别交叉熵损失函数,logloss(p,q)=-plogq,为肺结节CT图像xk经过教师模型中的神经网络模型和softmax分类器输出的类别概率向量;为肺结节CT图像xk的正确类别标签即硬标签,根据步骤1中计算的类别标签来确定良性为[1,0]、恶性为[0,1];R(θ)为正则化项,γ为正则化系数,γ≥0;p(yk=σ|xk;θ)为参数为θ时softmax分类器将样本xk分类为类别σ的概率,l_rt为学习率;步骤3.3:应用训练好的教师模型到肺结节CT图像数据集D以计算软标签:去掉教师模型中每个神经网络模型后的softmax分类器,将肺结节CT图像数据集D作为教师模型中每个神经网络模型的输入,获取教师模型中每个神经网络模型的logits输出值,对教师模型中所有神经网络模型的logits输出值进行加权平均,得到肺结节CT图像xi的最终logits输出值为计算得到肺结节CT图像xi的软标签为其中,αr为教师模型中第r个神经网络模型的logits输出...
【专利技术属性】
技术研发人员:毛克明,王新琦,常辉东,李佳明,李翰鹏,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。