基于通道注意力机制的神经网络压缩方法及相关设备技术

技术编号:21301020 阅读:34 留言:0更新日期:2019-06-12 08:17
本申请涉及人工智能领域,本申请公开了一种基于通道注意力机制的神经网络压缩方法及相关设备,所述方法包括:构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;对所述神经网络模型进行训练;在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。本申请通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。

Neural Network Compression Method and Related Equipment Based on Channel Attention Mechanism

This application relates to the field of artificial intelligence. The application discloses a neural network compression method and related equipment based on channel attention mechanism. The method includes: constructing a neural network model and establishing a channel attention mechanism in the neural network model, which includes multiple channels; training the neural network model; and training the neural network model. In the training process of the network model, the channels in the neural network model are deleted according to the channel attention mechanism. In this application, the channel attention layer is added before the full connection layer of the neural network model, and the channel weight is calculated. The channel with low weight is deleted to realize the compression of the neural network.

【技术实现步骤摘要】
基于通道注意力机制的神经网络压缩方法及相关设备
本申请涉及人工智能领域,特别涉及一种基于通道注意力机制的神经网络压缩方法及相关设备。
技术介绍
卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层),全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。全连接层(fullyconnectedlayers,FC)在整个卷积神经网络中起到“分类器”的作用,目前由于全连接层参数冗余(仅全连接层参数就可占整个网络参数80%左右),运算时间耗时很久,且大量占用资源,效率低下。因此有必要对卷积神经网络进行压缩。
技术实现思路
本申请的目的在于针对现有技术的不足,提供一种基于通道注意力机制的神经网络压缩方法及相关设备,通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。为达到上述目的,本申请的技术方案提供一种基于通道注意力机制的神经网络压缩方法及相关设备。本申请公开了一种基于通道注意力机制的神经网络压缩方法,包括以下步骤:构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;对所述神经网络模型进行训练;在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。较佳地,所述构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道,包括:构建神经网络模型,在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层,并在所述通道注意力层中设置softmax函数,所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应;根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。较佳地,所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重,包括:获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量;计算上一时刻的隐层输出向量与所述输入信息之间的相似度,将所述相似度输入所述softmax函数并进行归一化处理,获得所述通道注意力层中的每个通道的通道权重。较佳地,所述对所述神经网络模型进行训练,包括:对所述神经网络模型根据公式:进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。较佳地,所述对所述神经网络模型进行训练,包括:当在对所述神经网络模型进行训练时,检测所述神经网络模型的交叉熵损失函数的收敛状态;当检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时,启动对所述神经网络模型中的通道的删减。较佳地,所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减,包括:预设通道的通道权重阈值;在对所述神经网络模型的训练过程中将所述每个通道的通道权重与所述通道权重阈值进行比较,并将低于所述通道权重阈值的通道进行删减。较佳地,所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后,包括:预设所述神经网络模型的最低通道数;当对所述神经网络模型中的通道进行删减时,将所述神经网络模型中的当前通道数与所述预设的最低通道数进行比较,当所述神经网络模型中的当前通道数不大于所述预设的最低通道数时,停止删减。本申请还公开了一种基于通道注意力机制的神经网络压缩装置,所述装置包括:模型构建模块:设置为构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;训练模块:设置为对所述神经网络模型进行训练;通道删减模块:设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。本申请还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述所述神经网络压缩方法的步骤。本申请还公开了一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述神经网络压缩方法的步骤。本申请的有益效果是:本申请通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。附图说明图1为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;图2为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;图3为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;图4为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;图5为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;图6为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;图7为本申请实施例的一种基于通道注意力机制的神经网络压缩装置结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程如图1所示,本实施例包括以下步骤:步骤s101,构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;具体的,所述神经网络模型可包含输入层、卷积层、激活函数、池化层和全连接层,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层),所述神经网络包含多个通道,所述通道与全连接层相连,所述的通道输出作为全连接层的输入。具体的,所述通道注意力机制可通过建立通道注意力层实现,所述通道注意力层可建立在神经网络模型中的全连接层与卷积层之间,所述通道注意力层可包含多个通道,所述通道注意力层的每个通道可与所述神经网络中的每个通道一一对应,即通道注意力层的每个通道与经过卷积运算后的每个通道一一对应,并在通道注意力层中设置softmax函数,所述softmax函数与通道注意力层的每个通道相连,用于为通道注意力层的每个通道分配权重。所述经过softmax函数计算后的权重数值在0-1之间,且所有通道的权重之和为1,计算公式如下:其中,i表示第i个通道,j表示通道总数,Si为第i个通道的通道权重,V表示的是一个数组。步骤s10本文档来自技高网
...

【技术保护点】
1.一种基于通道注意力机制的神经网络压缩方法,其特征在于,包括以下步骤:构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;对所述神经网络模型进行训练;在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。

【技术特征摘要】
1.一种基于通道注意力机制的神经网络压缩方法,其特征在于,包括以下步骤:构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;对所述神经网络模型进行训练;在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。2.如权利要求1所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道,包括:构建神经网络模型,在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层,并在所述通道注意力层中设置softmax函数,所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应;根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。3.如权利要求2所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重,包括:获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量;计算上一时刻的隐层输出向量与所述输入信息之间的相似度,将所述相似度输入所述softmax函数并进行归一化处理,获得所述通道注意力层中的每个通道的通道权重。4.如权利要求1所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述对所述神经网络模型进行训练,包括:对所述神经网络模型根据公式:进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。5.如权利要求1所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述对所述神经网络模型进行训练,包括:当在对所述神经网络模型进行训练时,检测所述...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1