当前位置: 首页 > 专利查询>中南大学专利>正文

一种面向皮肤医学数据的标签纠错方法技术

技术编号:19062429 阅读:53 留言:0更新日期:2018-09-29 13:18
本发明专利技术公开了一种面向皮肤医学数据的标签纠错方法,采用深度学习tensorflow框架和卷积神经网络GoogleNet:inception V3模型,利用迁移学习技术,将少量并含多种已标记标签的皮肤病图像数据集作为训练样本,放入inception V3模型中训练,得到一个可区分多种皮肤病的鉴别模型,将含有大量噪音标签的皮肤病图像数据集作为测试集,用此模型进行测试,模型可对这些具有噪音标签的图像进行纠正。结果表明模型可纠正大部分的错误标签,并且纠正后的数据集所训练的模型对疾病的鉴别率较未纠正前有了较大的提升。

【技术实现步骤摘要】
一种面向皮肤医学数据的标签纠错方法
本专利技术涉及计算机领域和医学领域,特别是一种面向皮肤医学数据的标签纠错方法。
技术介绍
近年来,人工智能给人类带来了很多便利,使人们的生活受到多方面的影响,如智能家居、自动驾驶和人脸识别。在人工智能中,深度学习正成为一种代表性的技术,并产生了许多应用案例。在深度学习中,机器根据现有的已标记数据集,计算训练样本的各个特征,来对此进行训练和学习,并生成用于识别和分类的判别模型,产生一系列的智能行为,最简单的应用如数字人像识别,图片分类等,故为了保证准确率和效率,获取足够的标记数据是非常重要的。目前在医学领域中,深度学习技术取得了良好的效果。例如,近年来提出的基于深度学习的先天性白内障多医院协作管理平台、利用深层神经网络设计达到皮肤科医生级别的皮肤癌分类等等。在临床上,一些皮肤疾病的病理特征相似,其图像不易区分,但是不同皮肤疾病的治疗方案差异大,所以正确的诊断十分重要。把深度学习技术应用于皮肤医学中,就需要高质量的皮肤医学数据标签。然而,在对皮肤医学数据进行处理中,我们会遇到很多的困难。一方面,对于大型数据集来说,人工处理数据是一项费时费力的工作,而且在许多系统中,标签存在噪音的问题。另一方面,在医院中,疾病数据的标签需要大量专业医生的参与,不同的医生可能会对疾病数据有不同的见解,这同样也会产生噪音标签。因此,在基于深度学习的皮肤医学数据处理领域,标签的纠错已成为非常重要的问题。目前在数据处理领域中,人工处理还是其主力。但在标签纠错中,研究人员提出了一些解决方案。例如,近年来提出了两种校正标签噪声的算法:自我训练校正和基于群集的校正。人工处理医学数据会花费大量的时间与精力,并且也会生成噪音标签。而上述已有方法中,需要大量的标记数据作为训练样本,并且没有应用于皮肤医学领域。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供一种面向皮肤医学数据的标签纠错方法,纠正大部分的错误标签。为解决上述技术问题,本专利技术所采用的技术方案是:一种面向皮肤医学数据的标签纠错方法,包括以下步骤:1)使用迁移学习方法将种子数据集加载到GoogleNet:inceptionV3模型上进行训练,对种子数据集中的各种特征进行学习与计算,得到相对应皮肤疾病的诊断模型;2)用步骤2)的模型对含有噪音标签的数据集中的所有图像进行测试,总共有N张图像,得到每张图像的置信度;3)对所有图像的置信度进行降序排序,选择置信度排名在前K的图像,选择原有标签与模型诊断标签一致的图像,将这些图像标识为具有正确标签的图像;选择原有标签与模型诊断标签不一致的图像,并将其标识为错误标签的图像,然后对该图像的标签进行纠正;将纠正后的图像与标签正确的图像添加到增量数据集中,并从原来含有噪音标签的数据集中移除这两部分图像;4)将种子数据集与增量数据集合并为新的种子数据集,判断含有噪音标签的数据集中是否还有图像,若有,返回执行步骤1);若没有,则结束。根据所述的面向皮肤医学数据的标签纠错方法,其特征在于,步骤1)之前,进行如下操作:在tensorflow平台上加载GoogleNet:inceptionV3模型。本方法的执行步骤次数为N/K次,K的取值可根据N的大小合理设置,如N为800,若K取200,执行步骤次数为4次;若K取400,执行步骤次数为2次等。采用深度学习tensorflow框架和卷积神经网络GoogleNet:inceptionV3模型,利用迁移学习技术,将少量并含多种已标记标签的皮肤病图像数据集作为训练样本,放入inceptionV3模型中训练,得到一个可区分多种皮肤病的鉴别模型,将含有大量噪音标签的皮肤病图像数据集作为测试集,用此模型进行测试,模型可对这些具有噪音标签的图像进行纠正。结果表明模型可纠正大部分的错误标签,并且纠正后的数据集所训练的模型对疾病的鉴别率较未纠正前有了较大的提升。与现有技术相比,本专利技术所具有的有益效果为:本专利技术由于采用了基于深度学习技术对皮肤医学图像数据中的噪音标签进行纠错的方法,在没有大量标记数据的情况下,利用少量的皮肤疾病图像数据集作为训练样本,训练相对应皮肤疾病的诊断模型,检测含有噪音标签的数据集,利用置信度挑选图片加入训练样本,重新训练模型,继续检测含有噪音标签数据集,依次迭代,方法可对含有噪音标签的数据集进行标签纠错的进步。在不需要大量专业医生对图片进行标注和纠正错误标签图片的情况下,也能高精度的纠正错误标签图像,节省了医生对疾病图像进行标注与纠错的时间和精力,与此同时,经过标签纠错后的模型也能辅助医生对疾病的判断,提高了医生对疾病诊断的效率,减少错误标签对模型的影响,使得医生能够高效准确的诊断疾病。附图说明图1为本专利技术方法原理图。具体实施方式在标签纠错过程中,数据集中包含一定数量具有噪音标签的图像,这些图像将被纠正。该过程所需要的数据集为两部分,第一部分为多种疾病的特征图数据集,此部分数据为皮肤科专家进行标注的,将该部分数据集称为种子数据;第二部分为大量的已标记数据集,该部分数据集包含多种疾病的特征图,但是其标签有噪音。现在要将这些噪音标签进行纠正,步骤如下:1)使用迁移学习方法将种子数据集加载到GoogleNet:inceptionV3模型上进行训练,对种子数据集中的各种特征进行学习与计算,得到相对应皮肤疾病的诊断模型;2)用步骤2)的模型对含有噪音标签的数据集中的所有图像进行测试,总共有N张图像,得到每张图像的置信度;3)对所有图像的置信度进行降序排序,选择置信度排名在前K的图像,选择原有标签与模型诊断标签一致的图像,将这些图像标识为具有正确标签的图像;选择原有标签与模型诊断标签不一致的图像,并将其标识为错误标签的图像,然后对该图像的标签进行纠正;将纠正后的图像与标签正确的图像添加到增量数据集中,并从原来含有噪音标签的数据集中移除这两部分图像;4)将种子数据集与增量数据集合并为新的种子数据集,判断含有噪音标签的数据集中是否还有图像,若有,返回执行步骤1);若没有,则结束。根据所述的面向皮肤医学数据的标签纠错方法,其特征在于,步骤1)之前,进行如下操作:在tensorflow平台上加载GoogleNet:inceptionV3模型。在步骤4)中,我们在置信度为前K名中的图像中选择正确标签的图像和错误标签的图像,假设第二部分数据集的图像数量为N张,则整个实验将进行N/K次迭代,即重复N/K次本步骤,直到该部分数据集无剩余图片。如N为800,若K取200,执行步骤次数为4次;若K取400,执行步骤次数为2次。这时所有的噪音标签都被模型进行检查并纠正。标签纠错流程如图1所示,本方法可适用于多种皮肤病间的标签纠错,为了便于表达,图中假设在两种皮肤疾病间进行纠错,即图中的疾病A和B。本文档来自技高网
...

【技术保护点】
1.一种面向皮肤医学数据的标签纠错方法,其特征在于,包括以下步骤:1)使用迁移学习方法将种子数据集加载到GoogleNet:inception V3模型上进行训练,对种子数据集中的各种特征进行学习与计算,得到相对应皮肤疾病的诊断模型;2)用步骤2)的模型对含有噪音标签的数据集中的所有图像进行测试,总共有N张图像,得到每张图像的置信度;3)对所有图像的置信度进行降序排序,选择置信度排名在前K的图像,选择原有标签与模型诊断标签一致的图像,将这些图像标识为具有正确标签的图像;选择原有标签与模型诊断标签不一致的图像,并将其标识为错误标签的图像,然后对该图像的标签进行纠正;将纠正后的图像与标签正确的图像添加到增量数据集中,并从原来含有噪音标签的数据集中移除这两部分图像;4)将种子数据集与增量数据集合并为新的种子数据集,判断含有噪音标签的数据集中是否还有图像,若有,返回执行步骤1);若没有,则结束。

【技术特征摘要】
1.一种面向皮肤医学数据的标签纠错方法,其特征在于,包括以下步骤:1)使用迁移学习方法将种子数据集加载到GoogleNet:inceptionV3模型上进行训练,对种子数据集中的各种特征进行学习与计算,得到相对应皮肤疾病的诊断模型;2)用步骤2)的模型对含有噪音标签的数据集中的所有图像进行测试,总共有N张图像,得到每张图像的置信度;3)对所有图像的置信度进行降序排序,选择置信度排名在前K的图像,选择原有标签与模型诊断标签一致的图像,将这些图像标识为具有正确标签的图像;选择原有标签与...

【专利技术属性】
技术研发人员:曹瑞郭克华
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1