一种应用于医药识别的数据增强方法技术

技术编号:21434599 阅读:29 留言:0更新日期:2019-06-22 12:39
本发明专利技术公开了一种应用于医药识别的数据增强方法,包括如下方法:1.使用传统的数据增强技术对训练集中的图片做数据增强,得到新图片;2.构建生成对抗网络生成的新图片;3.使用替换背景颜色来做训练集图片的数据增强,保存下新的图片;4.将原始的训练集的图片与传统数据增强技术生成的新图片、生成对抗网络生成的新图片和背景色替换技术生成的新图片组合成训练样本送入中药材识别人工智能模型中进行训练。本发明专利技术生成的新图片与原始图片之间的相关性小,使用这种数据增强技术,能够达到拓展数据集目的的同时,避免传统数据增强技术可能带来的过拟合问题,使基于中药材图片数据集的人工智能模型具有更好的泛化能力。

【技术实现步骤摘要】
一种应用于医药识别的数据增强方法
本专利技术涉及一种数据增强方法,特别是涉及一种应用于医药识别的数据增强方法。
技术介绍
近年来,人工智能和大数据技术的高速发展,人工智能算法在中药材识别领域的应用也在不断普及。现有的人工智能技术,例如图像识别技术使用的是深度学习算法。深度神经网络参数众多,结构复杂,需要大量的样本来进行模型训练。汽车、人脸等常见事物可以从网络中获取大量的图片样本,但是中药材由于其特殊性,所有的图片样本都需要自己拍摄得到,因此样本数量通常会有所不足。数据增强是深度学习中常用的数据预处理方式,通过数据增强技术增加训练样本的数量可以很好的预防模型出现过拟合,从而提高模型的泛化能力。传统的数据增强技术例如:对原始图片镜像、随机翻转、平移变换、按特定比例缩放等。这些增强后的图片样本在初始阶段会有不错的效果,但因为本质上传统的数据增强技术产生的的新图片只是在原始图片上进行微小变化形成的,生成的图片和原始图片在某些局部包含的信息还是完全一致的,随着数据增强的不断继续,样本数量增加对提升模型的效果会越来越不明显。
技术实现思路
本专利技术的目的就是提供一种应用于医药识别的数据增强方法,能完全解决上述现有技术的不足之处。本专利技术的目的通过下述技术方案来实现:一种应用于医药识别的数据增强方法,包括如下方法:1).将拍摄的中药材图片分为训练集和测试集,训练集用来训练模型,当训练集数量不足时,训练集做数据增强处理;测试集用来测试训练完后模型的泛化能力,测试集无需做数据增强处理,保持不变;2).使用传统的数据增强技术对训练集中的图片做数据增强,得到新图片;3).构建生成对抗网络,对抗网络由生成模型和判别模型组成,生成模型用来生成新的图片,判别模型用来判断生成的新图片与原始图片是否同类;4).使用替换背景颜色来做训练集图片的数据增强,首先将图片从RGB格式转变为HSV格式,取图片左上、右上、左下、右下4个顶点的像素值,根据这些像素值和HSV颜色区间像素阈值表,可以得到原始图片的背景颜色;设置此背景色的像素阈值区间,识别出整张图片中的背景区域,设定替换目标背景色的像素阈值,将背景区域内所有像素点的像素值均替换成目标背景色的阈值;将HSV格式的图片转换成RGB格式,保存下新的图片,完成背景色的替换;5).将原始的训练集的图片与传统数据增强技术生成的新图片、生成对抗网络生成的新图片和背景色替换技术生成的新图片组合成训练样本送入中药材识别人工智能模型中进行训练。进一步,方法1)中将拍摄的中药材图片数据按4︰1的比例分为训练集和测试集。进一步,方法3)中生成对抗网络的实现方法是让生成模型和判别模型进行博弈,训练过程中通过相互竞争让这两个模型同时得到增强。进一步,使用训练集中的中药材图片作为生成对抗网络的训练样本。进一步,训练集中的图片要经过预处理,保证每张图片像素为512x512。与现有技术相比,本专利技术的有益效果在于:传统的数据增强技术只是在原始图片上进行线性变换,泛化能力不强。本专利技术设计的中药材图片数据增强技术生成的新图片与原始图片之间的相关性小,使用这种数据增强技术,能够达到拓展数据集目的的同时,避免传统数据增强技术可能带来的过拟合问题,使基于中药材图片数据集的人工智能模型具有更好的泛化能力。附图说明图1是本专利技术的流程图;图2是生成对抗网络方法的步骤流程图;图3是替换背景色方法的步骤流程图;图4是川贝图片替换背景效果示意图;图5是HSV颜色区间像素阈值表。具体实施方式下面结合具体实施例和附图对本专利技术作进一步的说明。如图1至图5所示,公开了一种应用于医药识别的数据增强方法,本方法是一种不同于传统数据增强技术的方法。首先使用生成对抗网络对图片进行数据增强,与传统数据增强不同,生成对抗网络生成的新图片不是在原始的图片上做一些线性变换,而是以原始图片样本为生成对抗网络的训练样本,学习原始图片各个分类的特征,来生成一些原来不存在同时又满足原图片分类的新图片。另外,替换图片的背景色也是一种不错的数据增强方法。一般来说,图片像素值是以RGB的格式表示的。HSV格式是一种常见的圆柱坐标表示颜色的模型,可以重新影射RGB模型,视觉上比RGB模型更具有视觉直观性。替换背景方法将原始图片从RGB格式转化为HSV格式,识别出背景区域,然后替换成其他颜色。相比与传统的数据增强技术只是在原始图片上进行线性变换,使用本专利技术的方法生成的新图片所包含的信息可以和原始图片尽量不同,使用这样的图片进行训练能增强模型最终的泛化能力。具体方法如下:1.将拍摄的中药材图片数据按4:1的比例分为训练集和测试集。训练集用来训练模型,数据量不足的时候,需要做数据增强处理;测试集用来测试训练完后模型的泛化能力,测试集不需要有任何变化。2.使用传统的数据增强技术(如镜像、随机翻转、平移变换、剪切缩放、增加噪声等方法)对训练集中的图片做数据增强,一般根据原始数据量的大小和人工智能模型的复杂程度决定增强的比例,一般使增强的图片数量为原始图片的2-3倍。3.构建生成对抗网络,网络由生成模型和判别模型组成,生成模型用来生成新的图片,判别模型用来判断生成的新图片是否和原始图片使同一类的;生成对抗网络的实现方法是让生成模型和判别模型进行博弈,训练过程中通过相互竞争让这两个模型同时得到增强。使用训练集中的中药材图片作为生成对抗网络的训练样本,图片要经过预处理使每张图片像素为512x512后导入网络,训练好生成对抗网络后,使用其中的生成模型来生成新的中药材图片。4.使用替换背景颜色来做中药材图片的数据增强。首先将图片从RGB格式转变为HSV格式,取图片左上,右上,左下,右下4个顶点的像素值,根据这些像素值和HSV颜色区间像素阈值表,可以得到原始图片的背景颜色;设置此背景色的像素阈值区间,识别出整张图片中的背景区域,设定替换目标背景色的像素阈值,将背景区域内所有像素点的像素值均替换成目标背景色的阈值;将HSV格式的图片转换成RGB格式,保存下新的图片,完成背景色的替换。以川贝为例,参见图4中川贝图片替换背景效果示意图。5.将原始训练集与传统增强技术、生成对抗网络、背景色替换技术生成的新图片组合成数据量更大的训练样本送入中药材识别人工智能模型中进行训练。其中,生成对抗网络(GAN,GenerativeAdversarialNetworks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中至少两个模块:生成模型(GenerativeModel)和判别模型(DiscriminativeModel)的互相博弈学习产生相当好的输出。实际中,一般均使用深度神经网络作为生成模型G和判别模型D。生成模型G:不断学习训练集中真实数据的概率分布,目标是将输入的随机噪声转化为可以以假乱真的图片,生成的图片与训练集中的图片越相似越好。判别模型D:判断一个图片是否是真实的图片,目标是将生成模型G产生的“假”图片与训练集中的“真”图片分辨开。使用生成对抗网络进行数据增强:训练生成对抗网络,使用完成训练的生成模型来生成新的图片样本。其具体方法如下:1.定义生成对抗网络的结构,建立生成对抗网络的生成模型G和判别模型D。2.训练判别模型,冻结生成模型(冻结意思是不训练,神经网络只向前传播,本文档来自技高网...

【技术保护点】
1.一种应用于医药识别的数据增强方法,其特征在于,包括如下方法:1).将拍摄的中药材图片分为训练集和测试集,训练集用来训练模型,当训练集数量不足时,训练集做数据增强处理;测试集用来测试训练完后模型的泛化能力,测试集无需做数据增强处理,保持不变;2).使用传统的数据增强技术对训练集中的图片做数据增强,得到新图片;3).构建生成对抗网络,对抗网络由生成模型和判别模型组成,生成模型用来生成新的图片,判别模型用来判断生成的新图片与原始图片是否同类;4).使用替换背景颜色来做训练集图片的数据增强,首先将图片从RGB格式转变为HSV格式,取图片左上、右上、左下、右下4个顶点的像素值,根据这些像素值和HSV颜色区间像素阈值表,可以得到原始图片的背景颜色;设置此背景色的像素阈值区间,识别出整张图片中的背景区域,设定替换目标背景色的像素阈值,将背景区域内所有像素点的像素值均替换成目标背景色的阈值;将HSV格式的图片转换成RGB格式,保存下新的图片,完成背景色的替换;5).将原始的训练集的图片与传统数据增强技术生成的新图片、生成对抗网络生成的新图片和背景色替换技术生成的新图片组合成训练样本送入中药材识别人工智能模型中进行训练。...

【技术特征摘要】
1.一种应用于医药识别的数据增强方法,其特征在于,包括如下方法:1).将拍摄的中药材图片分为训练集和测试集,训练集用来训练模型,当训练集数量不足时,训练集做数据增强处理;测试集用来测试训练完后模型的泛化能力,测试集无需做数据增强处理,保持不变;2).使用传统的数据增强技术对训练集中的图片做数据增强,得到新图片;3).构建生成对抗网络,对抗网络由生成模型和判别模型组成,生成模型用来生成新的图片,判别模型用来判断生成的新图片与原始图片是否同类;4).使用替换背景颜色来做训练集图片的数据增强,首先将图片从RGB格式转变为HSV格式,取图片左上、右上、左下、右下4个顶点的像素值,根据这些像素值和HSV颜色区间像素阈值表,可以得到原始图片的背景颜色;设置此背景色的像素阈值区间,识别出整张图片中的背景区域,设定替换目标背景色的像素阈值,将背景区域内所有像素点的像素值均替换成目标背景色的阈值...

【专利技术属性】
技术研发人员:袁杨许慧张群华
申请(专利权)人:颐保医疗科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1