一种基于注意力机制和双模态图像的分类方法技术

技术编号:20076039 阅读:22 留言:0更新日期:2019-01-15 00:55
本发明专利技术公开了一种基于注意力机制和双模态图像的分类方法,属于图像分类领域,对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果;本发明专利技术通过模型的学习提取出了样本各自比较重要的特征,实现了更优的特征提取,最终可以得到更好的分类结果,分类准确率高;且本发明专利技术提出的方法是端到端的模型,而不需要分开训练两个模态的网络。

A Classification Method Based on Attention Mechanism and Bimodal Image

The invention discloses a classification method based on attention mechanism and bimodal image, which belongs to the field of image classification. The bimodal image data of classification items are preprocessed, and the preprocessed bimodal image data are divided into training data and test data. A deep learning model based on attention mechanism is constructed, and the training data is input into the deep learning model for training. Practice; Optimize the network parameters of the deep learning model by using back propagation and random gradient descent algorithm, and get the test model; Input the test data into the test model, and get the classification results of the test data by forward propagation; The invention extracts the important features of each sample through the learning of the model, realizes better feature extraction, and finally obtains the test data. To achieve better classification results, the classification accuracy is high, and the method proposed by the present invention is an end-to-end model without the need to train two modal networks separately.

【技术实现步骤摘要】
一种基于注意力机制和双模态图像的分类方法
本专利技术涉及图像分类领域,具体涉及一种基于注意力机制和双模态图像的分类方法。
技术介绍
利用不同的成像原理、不同的传感器(设备)对于同一场景所采集到的不同图像即为多模态图像。随着计算机、电子信息等技术的迅速发展,传感器技术也得到飞速发展,图像的模态也越来越多样性,例如,医学图像中的MRI(MagneticResonanceImaging)图像、PET(PositronEmissionTomography)图像以及CT(ComputedTomography)图像等。面对图像模态的多样性,多模态图像融合应运而生。多模态图像融合的目的是最大限度地提取各模态的图像信息,同时减少冗余信息。图像融合一般分为三个等级:像素级、特征级和决策级。像素级的处理对象是像素,最简单直接;特征级建立在抽取输入图像特征的基础上;决策级是对图像信息更高要求的抽象处理。常用的图像融合算法有加权平均法、IHS变换法、金字塔图像融合法等。对于分类任务来说,显然,相比于单模态图像,多模态图像具有更多的信息,理应获得更好的分类效果。而目前利用双模态图像来进行分类的分类任务(例如医学图像分类),存在双模态图像信息融合困难、分类精度低等问题;以及双模态图像往往不能使用端到端的模型的问题。
技术实现思路
本专利技术的目的在于:提供一种基于注意力机制和双模态图像的分类方法,解决了现有技术中双模态图像信息融合困难、分类精度低的技术问题。本专利技术采用的技术方案如下:一种基于注意力机制和双模态图像的分类方法,包括以下步骤:步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。进一步的,所述步骤1中,双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理使A模态图像数据和B模态图像数据的尺寸相同。进一步的,所述步骤2中,基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络用于输入B模态图像数据,输出主干网络特定层特征图的权重;所述主干网络用于输入A模态图像数据并结合所述权重,输出最终的分类结果。进一步的,所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attentionmodule和一个softmax分类层;所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元;所述Attention支干网络归一化处理单元的输出输入至所述主干网络的Attentionmodule。进一步的,所述权重用于更新主干网络中传输至Attentionmodule的特征图,且所述权重与特征图尺寸相等,采用的公式为:其中,表示更新后的特征图,Fi表示更新前的特征图,Watten表示权重,n表示特征图的通道个数,i表示特征图通道的序号。进一步的,所述归一化处理单元使输出位于0-1之间。进一步的,所述归一化单元采用softmax函数;或采用尺度变换函数;或采用自定义函数f(x),所述自定义函数f(x)满足:定义域(2)值域且不能只包含单个元素。(3)f(x)只有有限个不可导点。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术在深度学习模型中引入注意力机制,从B模态图像数据得到相应的A模态图像的权重,一方面以一种新的方式融合了A、B两种模态图像的信息;另一方面在提取每个样本的A模态图像不同空间位置的信息上都有各自不同的侧重,通过模型的学习提取出了样本各自比较重要的特征,最终可以得到更好的分类结果,分类准确率高;此外,虽然输入数据是双模态图像,但本专利技术提出的模型是端到端的模型。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是本专利技术的基本流程图;图2是本专利技术的一般模型图;图3是本专利技术用于阿尔兹海默病分类的模型图。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面结合图1-3对本专利技术作详细说明。一种基于注意力机制和双模态图像的分类方法,包括以下步骤:步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。进一步的,所述步骤1中,双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理使A模态图像数据和B模态图像数据的尺寸相同。进一步的,所述步骤2中,基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络用于输入B模态图像数据,输出主干网络特定层特征图的权重;所述主干网络用于输入A模态图像数据并结合所述权重,输出最终的分类结果。进一步的,所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attentionmodule和一个softmax分类层;所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元;所述Attention支干网络归一化处理单元的输出输入至所述主干网络的Attentionmodule。进一步的,所述权重用于更新主干网络中传输至Attentionmodule的特征图,且所述权重与特征图尺寸相等,采用的公式为:其中,表示更新后的特征图,Fi表示更新前的特征图,Watten表示权重,n表示特征图的通道个数,i表示特征图通道的序号。进一步的,所述归一化处理单元使输出位于0-1之间。进一步的,所述归一化单元采用softmax函数;或采用尺度变换函数;或采用自定义函数f(x),所述自定义函数f(x)满足:定义域(2)值域且不能只包含单个元素。(3)f(x)只有有限个不可导点。具体实施例1一种基于注意力机制和双模态图像的分类方法,包括以下步骤:步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理采用插值或者下采样方法使A模态图像数据和B模态图像数据的尺寸相同;步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元,用于输入B模态图像数据,输出A模态图像数据的权重,所述权重大小位于0-1;所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attentionmodule和一个softmax分类层;用于输入A模态本文档来自技高网...

【技术保护点】
1.一种基于注意力机制和双模态图像的分类方法,其特征在于,包括以下步骤:步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。

【技术特征摘要】
1.一种基于注意力机制和双模态图像的分类方法,其特征在于,包括以下步骤:步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。2.根据权利要求1所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述步骤1中,双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理使A模态图像数据和B模态图像数据的尺寸相同。3.根据权利要求2所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述步骤2中,基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络用于输入B模态图像数据,输出主干网络特定层特征图的权重;所述主干网络用于输入A模态图像数据并结合所述权重,输出最终的分类结果。4.根据权利要求3所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所...

【专利技术属性】
技术研发人员:程建周娇郭桦苏炎洲周晓晔
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1