一种基于半监督学习的医学图像自动标注方法技术

技术编号:29403984 阅读:13 留言:0更新日期:2021-07-23 22:42
本发明专利技术公开了一种基于半监督学习的医学图像自动标注方法。首先将训练集输入到一级分类网络中得到一级通用深度卷积特征,然后根据输出结果对数据进行预分类,并得到预分类的混淆矩阵。接着通过谱聚类得到类别训练子集,输入到将其输入到二级分类网络中,得到二级特殊深度卷积特征;将两者融合得到图像的深度卷积特征。将患者的附加信息通过word2vec编码成多源异构特征,与深度卷积特征进行融合并通过SVM分类器得到最后的输出结果。本发明专利技术所述的方法只需使用少量有标注的医学数据即可完成对大量医学数据的自动标注。极大了减少了人工标注所耗费的大量的人力物力。相比于现有的自动标注方法,本方法效率更高,标注结果更加准确。

【技术实现步骤摘要】
一种基于半监督学习的医学图像自动标注方法
本专利技术涉及图像的半监督自动标注,具体的说涉及如何利用少量有标记的图像和附加的文字描述信息,对医学图像进行自动标注的半监督学习方法。
技术介绍
在上个世纪末这个世纪初,随着计算机技术和成像技术的发展,医学影像成为临床诊断的重要信息来源,在众多疾病的诊断上,如脑梗死、肺结节、肺栓塞、甲状腺肿瘤等,起到了至关重要的作用。医学图像是医生诊断的重要参考依据,利用图像标注技术可以辅助医生对患者进行初步的诊断,并提供相应的治疗方案供医生参考,从而减轻医生的一部分工作负荷,促进医疗实现智慧转型.目前,全国各大医院已经搜集了大量的影像数据,如:B超扫描图像,彩色多普勒超声图像,核磁共振图像,CT图像,PET图像,SPECT图像,数字X光机图像,X射线透视图像,电子内窥图像等数据。如何有效的管理这些图片,如何帮助医生迅速的找到感兴趣的图像,利用这些己有病例图帮助其进行诊断并提高工作效率,这些问题使得医学图像的检索及其相关技术成为一个研究热点。通常,图像检索技术分为两类:基于文本的图像检索技术((Text-basedImageRetrieval,TBIR)和基于内容的图像检索技术(Content-basedImageRetrieval,CBIR)。在TBIR技术中,图像通常先由人工标注,然后再以检索文本的方式来检索图像,但TBIR技术存在着明显的缺陷,特别是在图像的种类和数量非常多时,手工标注图像所需的工作量非常大。CBIR技术是基于图像的低层特征进行图像的检索,然而用户在检索图像时并不是直接考虑图像的低层视觉特征相似性,而是根据图像所描述的对象和所表达的语义信息来判断图像是否满足检索的需求,因此,“语义鸿沟”使CBIR技术的发展受到了限制。图像自动标注技术的出现,大大改善了这两种检索技术的窘境,使得用户检索既能像文本检索那样方便又不需要考虑图像的低层特征,因而图像自动标注技术成为图像检索领域中一个重要的研究方向。图像自动标注技术的核心思想是算法自动地从大量的样本中学习一个语义概念模型,然后再用学习到的模型为新的图像自动分配合适的标签。一旦图像被赋予了语义标签,用户就可以根据关键字来检索到此图像,这种方式与文本检索类似。图像自动标注的特点是根据图像的语义内容给出图像的标注,同时具备了TBIR和CBIR的优势。尽管学者们在图像自动标注方面己经取得了很大的进步,但很多算法依然依赖于有标签图像的数量,也就是说这些方法模型通常需要大量的有标记数据进行训练,而这却要付出巨大的人工代价。在有标记数据的数量不足的情况下,很多模型的泛化性能都不高。而在具体任务中,有标记数据的获得比较困难,无标记数据却很容易获得,如何充分利用大量的无标记数据来提升标注模型的泛化性能是一个极具挑战的问题。半监督学习试图充分利用未标记数据来辅助弱分类器训练出泛化能力较强的标注模型。因而如何将半监督学习技术引入到图像标注领域是一个有价值的研究课题。
技术实现思路
本专利技术主要考虑到目前虽然拥有大量的医学数据,但是这些数据缺乏标签,人工标注需要耗费巨大的人力物力。如何利用少量有标记的数据对未标记的数据进行自动标注是值得探讨的问题。针对上述实际情况,本专利技术提出了一种基于半监督学习的医学图像自动标注方法,并结合了迁移学习和深度卷积特征,对相似度较高的样本提取了二级深度卷积特征,实现更为准确的自动标注结果,极大地减少了所需人力物力。本专利技术的方法是先在ImageNet数据集上进行ResNet网络预训练,然后利用少量有标记的医学图像数据集对网络进行微调,得到数据的一级通用深度卷积特征,然后根据网络的输出结果对数据进行预分类,并得到预分类的混淆矩阵。接着通过谱聚类得到类别训练子集,输入到网络中可以得到数据的二级特殊深度卷积特征。将一级通用深度卷积特征和二级特殊深度卷积特征融合在一起可以得到图像的深度卷积特征。此外,将患者的附加文本信息,如年龄、性别、血压等数据通过word2vec编码成多源异构特征,与深度卷积特征进行融合并通过SVM分类器可以得到最后的输出结果。具体包括以下步骤:步骤(1)、以在ImageNet预训练的Resnet为一级分类网络,并将第四和第五个卷积块的卷积替换成空洞率为2的空洞卷积。搜集医学图像数据,并由专业的医生进行标记,获得数据集,并划分成训练集和测试集。然后,通过有分类标签的训练集对一级分类网络进行训练,完成一级分类网络的训练。将训练集输入到一级分类网络中得到数据的一级通用深度卷积特征。步骤(2)、利用训练好的一级分类网络对数据进行预分类,得到预分类的混淆矩阵,然后通过谱聚类的方式得到类别训练子集,将其输入到二级分类网络中进行训练,该网络与一级分类网络结构相同;得到数据的二级特殊深度卷积特征。将一级通用深度卷积特征和二级特殊深度卷积特征通过拼接的方式融合在一起,得到数据的深度卷积特征。步骤(3)、将图像的附加信息通过word2vec编码成多源异构特征。步骤(4)、将深度卷积特征与多源异构特征进行特征融合,并通过SVM分类器得到最后的标注结果。步骤(5)、训练过程中,输入训练集,计算输出的损失函数,并通过反向传播算法调整网络参数。在测试阶段,输入测试集,即可得到标注结果。本专利技术的有益效果如下:本专利技术所述的方法只需使用少量有标注的医学数据即可完成对大量医学数据的自动标注。极大了减少了人工标注所耗费的大量的人力物力。相比于现有的自动标注方法,本方法效率更高,标注结果更加准确。附图说明图1为本专利技术实施例的实现流程图;图2为本专利技术实施例两级层次特征学习示意图。具体实施方式以下结合附图及实施例,对本专利技术进行进一步的详细说明。本专利技术提出了一种基于半监督学习的医学图像自动标注方法,仅需要少量有标记的医学图像数据即可完成对大规模医学图像数据的自动标注。实施流程如图1所示。本专利技术所述方法包括以下步骤:步骤(1)、以在ImageNet上预训练的Resnet为一级分类网络,并将第四和第五个卷积块的卷积替换成空洞率为2的空洞卷积,这样在保持图像空间分辨率不变的同时可以获得更大的感受野,得到更密集的特征响应,并且可以保持运算量不变。搜集医学图像数据,并由专业的医生进行标记,获得数据集并划分成训练集和测试集。然后,将有分类标签的训练集输入到一级分类网络中对网络进行微调,完成一级分类网络的训练。训练完成后,将训练集的图像数据输入到训练好的一级分类网络中得到图像数据的一级通用深度卷积特征。步骤(2)、利用训练好的一级分类网络对数据进行预分类,得到预分类的混淆矩阵,然后通过谱聚类的方式得到相似度高的样本作为类别训练子集;利用全连接法来构建邻接矩阵,将每个样本数据看作一个节点,距离远的两个样本点之间的权重低,而距离近的两个样本点之间的权重高。对于全连接法,所有的点之间的权重值都大于0。选择不同的核函数来定义边权重,常用的有多项式核函数,高斯核函数和Sigmoid核函数。采用高斯核函数RBF定义边权重,具体公式如下本文档来自技高网
...

【技术保护点】
1.一种基于半监督学习的医学图像自动标注方法,其特征在于,包括以下步骤:/n步骤(1)、以在ImageNet预训练的Resnet为一级分类网络,并将第四和第五个卷积块的卷积替换成空洞率为2的空洞卷积;搜集医学图像数据,并由专业的医生进行标记,获得数据集,并划分成训练集和测试集;然后,通过有分类标签的训练集对一级分类网络进行训练,完成一级分类网络的训练;将训练集输入到一级分类网络中得到数据的一级通用深度卷积特征;/n步骤(2)、利用训练好的一级分类网络对数据进行预分类,得到预分类的混淆矩阵,然后通过谱聚类的方式得到类别训练子集,将其输入到二级分类网络中进行训练,该网络与一级分类网络结构相同;得到数据的二级特殊深度卷积特征;将一级通用深度卷积特征和二级特殊深度卷积特征通过拼接的方式融合在一起,得到数据的深度卷积特征;/n步骤(3)、将图像的附加信息通过word2vec编码成多源异构特征;/n步骤(4)、将深度卷积特征与多源异构特征进行特征融合,并通过SVM分类器得到最后的标注结果;/n步骤(5)、训练过程中,输入训练集,计算输出的损失函数,并通过反向传播算法调整网络参数;在测试阶段,输入测试集,即可得到标注结果。/n...

【技术特征摘要】
1.一种基于半监督学习的医学图像自动标注方法,其特征在于,包括以下步骤:
步骤(1)、以在ImageNet预训练的Resnet为一级分类网络,并将第四和第五个卷积块的卷积替换成空洞率为2的空洞卷积;搜集医学图像数据,并由专业的医生进行标记,获得数据集,并划分成训练集和测试集;然后,通过有分类标签的训练集对一级分类网络进行训练,完成一级分类网络的训练;将训练集输入到一级分类网络中得到数据的一级通用深度卷积特征;
步骤(2)、利用训练好的一级分类网络对数据进行预分类,得到预分类的混淆矩阵,然后通过谱聚类的方式得到类别训练子集,将其输入到二级分类网络中进行训练,该网络与一级分类网络结构相同;得到数据的二级特殊深度卷积特征;将一级通用深度卷积特征和二级特殊深度卷积特征通过拼接的方式融合在一起,得到数据的深度卷积特征;
步骤(3)、将图像的附加信息通过word2vec编码成多源异构特征;
步骤(4)、将深度卷积特征与多源异构特征进行特征融合,并通过SVM分类器得到最后的标注结果;
步骤(5)、训练过程中,输入训练集,计算输出的损失函数,并通过反向传播算法调整网络参数;在测试阶段,输入测试集,即可得到标注结果。


2.根据权利要求1所述的一种基于半监督学习的医学图像自动标注方法,其特征在于,步骤(1)具体方法如下:
以在ImageNet上预训练的Resnet为一级分类网络,并将第四和第五个卷积块的卷积替换成空洞率为2的空洞卷积;搜集医学图像数据,并由专业的医生进行标记,获得数据集并划分成训练集和测试集;然后,将有分类标签的训练集输入到一级分类网络中对网络进行微调,完成一级分类网络的训练;训练完成后,将训练集的图像数据输入到训练好的一级分类网络中得到图像数据的一级通用深度卷积特征。


3.根据权利要求2所述的一种基于半监督学习的医学图像自动标注方法,其特征在于,步骤(2)具体方法如下:
利用训练好的一级分类网络对数据进行预分类,得到预分类的混淆矩阵,然后通过谱聚类的方式得到相似度高的样本作为类别训练子集;利用全连接法来构建邻接矩阵,将每个样本数据看作一个节点,距离远的两个样本点之间的权重低,而距离近的...

【专利技术属性】
技术研发人员:颜成钢张二四彭开来朱晨瑞孙垚棋张继勇李宗鹏张勇东
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1