一种基于深度卷积神经网络的模式识别方法技术

技术编号:20222285 阅读:29 留言:0更新日期:2019-01-28 20:38
本发明专利技术公开了一种基于深度卷积神经网络的模式识别方法,主要是一种基于深度卷积神经网络,引入attention机制及图像增强手段的模式识别方法。首先拿到样本数据集,由相关专业人员对数据集图像进行标注,对图像做灰度处理,这样可以凸显出主要目标的轮廓,有利于特征提取,然后利用随机旋转不同角度对数据集进行扩充,再对图像数据做增强以及数据预处理,最后构建出能够高效提取图像特征的深度卷积神经网络,用建立好的数据集进行五折交叉验证对模型进行训练并测试,完成视觉辅助检测模型的构建。本发明专利技术在样本识别时运算效率更高,而模型参数减少,降低了资源的占用,以及对软硬件的高需求,可以更好投入到实际使用。

【技术实现步骤摘要】
一种基于深度卷积神经网络的模式识别方法
本专利技术属于深度学习计算机视觉领域,主要是一种基于深度卷积神经网络,引入attention机制及图像增强手段的模式识别方法。
技术介绍
“特征提取+分类器”是模式识别领域的经典框架,即通过人力构建特征对图像进行表示,再将特征层面的图像数据送入分类器实现目标图像的分类识别。神经学研究表明人类大脑在处理视觉图像的过程并没有对特征进行抽取,而是将信号传入到一个由大量神经元组成的深度网络并层层传递最终得到信号的隐式表达。深度学习正是通过模拟人脑信号的传输过程让图像在网络中传播并输出图像的有效表示。卷积神经网络作为目前广泛应用的深度模型在计算机视觉及图像处理等领域的成功应用引起了人们的广泛关注。相关研究也在大气、医疗、生物等领域取得了较好的实验效果。例如在医疗辅助识别领域,肺癌已经成为致人死亡的恶性疾病中比较典型的一种,肺部在病变前期的症状主要表现为结节,如果能早期发现并治疗将会极大提高存活率。肺部的检查也是每年体检的重要部分,肺部检查中主要手段是电子计算机断层扫描(CT),需要经专业医生逐个检查筛选存在肺结节的病例,工作量巨大并且考验着人工筛查的准确性,具有高度的主观差异性,基于深度学习的方法实现对图像特征进行提取制作的图像识别系统,可以完成甚至超过通过人眼进行识别的工作效果。因此一个计算机视觉辅助检测的方法对于癌症的及早诊断与治疗是非常具有实际意义的。视觉辅助检测(Visualaideddetection,VAD)随着人工智能的不断兴起,已经成为当下的研究热点。近年来国内外学者在各个研究领域也取得了一定的研究成果。例如Zhu等用传统机器学习SVM方法对肺结节进行了初步分类;Hu等利用反向传播神经网络,通过梯度下降算法调节误差来提取图像特征;Krewer等利用边缘纹理特征通过分类器对图像进行分类。然而,这些现有的方法还是具有一定缺陷。首先在对图像标注分割时,需要操作人员具有相关领域的专业知识,能够对标注样本点或纹理特征做出专业解释,而不同的方法提取到的特征可能不尽相同,同时有些图像十分复杂,如果计算机可以实现自动提取图像中特征,对图像进行分类,结果可能会更加客观,分类精度也会更高。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于深度卷积神经网络的模式识别方法,首先拿到样本数据集,由相关专业人员对数据集图像进行标注,对图像做灰度处理,这样可以凸显出主要目标的轮廓,有利于特征提取,然后利用随机旋转不同角度对数据集进行扩充,再对图像数据做增强以及数据预处理,最后构建出能够高效提取图像特征的深度卷积神经网络(ConvolutionalNeuralNetwork,CNN),用建立好的数据集进行五折交叉验证对模型进行训练并测试,完成视觉辅助检测模型(VAD)的构建。本专利技术面向待检测图像数据,提出了一种基于深度卷积神经网络的模式识别方法。由于深度学习所需样本量巨大,但某些领域的图像难以获取,在训练过程会有欠拟合或过拟合的情况发生,需要加入一些样本噪声扩充数据集,同时采用五折交叉验证的训练方法,在防止过拟合的同时增加数据集样本量。输入图像的尺寸过大会占用过多不必要的资源,增大模型计算量,将图像进行适当压缩可以避免占用资源过大的问题。同时,在一张图片中可能需要识别的点只集中于某一小区域,因此引入attention机制来优化模型,attention机制可以利用有限的注意力资源从大量信息中快速筛选出高价值信息。为了实现上述目的,本专利技术采用以下技术方案:目的在于提升分类识别准确性的同时让模型有更高的鲁棒性,同时又不会让模型太复杂。因此本专利技术使用了一个169层稠密连接卷积神经网络(DenselyConnectedConvolutionalNetwork,DenseNet)来进行图像的分类识别。DenseNet的网络基本结构主要包含DenseBlock和TransitionLayer两个组成模块。其中DenseBlock为稠密连接的highway模块,TransitionLayer为相邻2个DenseBlock中的部分。DenseNet中的每一个稠密块(DenseBlock)都利用了模块之前所有层的特征信息,每一层都和前向的每一层有highway的稠密连接,即每一层都接收了前向所有层的特征图作为输入,防止了随着网络层数加深而产生的梯度消失问题,同时也很好的减轻了过拟合现象的发生。由于TransitionLayer会随机丢掉一半的特征,虽然网络层数很深,稠密连接又会使网络看起来很“臃肿”,但该模型的实际参数数量并不多,节约了大量资源占用。为进一步避免过拟合,本专利技术还通过对数据集引入噪声,对数据集中的图像随机添加90、180、270三个角度的旋转,扩充数据集。为了增强模型的特征提取能力,对输入图像做了灰度处理,凸显目标区域轮廓,将图像压缩到256*256的尺寸,加快模型的训练。同时所有数据在进入模型前都做了批量正则化(BatchNormalization)处理。训练时也对数据进行了FiveCrop,随机的水平、竖直翻转等数据增强方法。视觉注意力机制是人类视觉特有的一种信号处理机制,通过快速扫面全局信息获得需要重点关注的区域,对这一特定区域投入更多注意力资源,避免无用信息干扰。本方法将注意力机制引入DenseNet,将模型计算力集中于更需要关注的区域。通过在模型的过渡层(TransitionLayer)中加入注意力模块,让模型学习特征图每一个点的概率,最后根据所得概率权重加强图像信息。本专利技术在训练时使用了五折交叉验证,在面对样本数量不足时,充分利用数据集对模型效果进行测试。本专利技术采用的技术方案为一种基于深度卷积神经网络的模式识别方法,该方法包括以下步骤:步骤1、构建一个169层的DenseNet模型,该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成,稠密块与过渡层之间会有若干个卷积核。每个稠密块内,在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接,实现密集连接的特征图传递,一个具有L层的网络,那么highway稠密连接数目为L*(L+1)/2。模型的最后一层为一个Sigmoid输出的全连接层,输出分类结果。步骤2、对数据集加入噪声,对数据集中每张图片随机添加90、180、270三个角度的旋转,起到扩充数据集的目的。步骤3、对图像数据集进行相关预处理。作为优选,步骤3具体包括以下步骤:步骤3.1、将每张图像进行灰度处理,凸显目标区域位置及轮廓纹理,并将图像压缩到256*256的尺寸;步骤3.2、对图像数据集中每张图像做FiveCrop到224,有50%几率对图像随机进行水平、竖直翻转;步骤3.3、使用ImageNet数据集的平均值与方差对数据集进行标准化处理,即对于图像中第i个点的原像素值xi求标准差其中μ和σ2分别代表ImageNet数据集的均值与方差。步骤3.4、将图像数据集随机生成五份数据集,每份图像数据集包含不同的训练集与验证集。训练集的数据占所有数据的80%,验证集的数据占所有数据的20%。步骤4、使用预处理好的数据集对DenseNet模型进行训练。作为优选,步骤4具体包括以下步骤:步骤4.1、DenseNet模型的训练方法采用标准的Ada本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积神经网络的模式识别方法,其特征在于:该方法包括以下步骤:步骤1、构建一个169层的DenseNet模型,该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成,稠密块与过渡层之间会有若干个卷积核;每个稠密块内,在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接,实现密集连接的特征图传递,一个具有L层的网络,那么highway稠密连接数目为L*(L+1)/2;模型的最后一层为一个Sigmoid输出的全连接层,输出分类结果;步骤2、对数据集加入噪声,对数据集中每张图片随机添加90、180、270三个角度的旋转,起到扩充数据集的目的;步骤3、对图像数据集进行相关预处理;步骤3具体包括以下步骤:步骤3.1、将每张图像进行灰度处理,凸显目标区域位置及轮廓纹理,并将图像压缩到256*256的尺寸;步骤3.2、对图像数据集中每张图像做Five Crop到224,有50%几率对图像随机进行水平、竖直翻转;步骤3.3、使用ImageNet数据集的平均值与方差对数据集进行标准化处理,即对于图像中第i个点的原像素值xi求标准差

【技术特征摘要】
1.一种基于深度卷积神经网络的模式识别方法,其特征在于:该方法包括以下步骤:步骤1、构建一个169层的DenseNet模型,该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成,稠密块与过渡层之间会有若干个卷积核;每个稠密块内,在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接,实现密集连接的特征图传递,一个具有L层的网络,那么highway稠密连接数目为L*(L+1)/2;模型的最后一层为一个Sigmoid输出的全连接层,输出分类结果;步骤2、对数据集加入噪声,对数据集中每张图片随机添加90、180、270三个角度的旋转,起到扩充数据集的目的;步骤3、对图像数据集进行相关预处理;步骤3具体包括以下步骤:步骤3.1、将每张图像进行灰度处理,凸显目标区域位置及轮廓纹理,并将图像压缩到256*256的尺寸;步骤3.2、对图像数据集中每张图像做FiveCrop到224,有50%几率对图像随机进行水平、竖直翻转;步骤3.3、使用ImageNet数据集的平均值与方差对数据集进行标准化处理,即对于图像中第i个点的原像素值xi求标准差其中μ和σ2分别代表ImageNet数据集的均值与方差;步骤3.4、将图像数据集随机生成五份数据集,...

【专利技术属性】
技术研发人员:刘博史超张佳慧
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1