System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于聚合注意力的食品识别方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于聚合注意力的食品识别方法及系统技术方案

技术编号:41130495 阅读:5 留言:0更新日期:2024-04-30 17:59
本发明专利技术提出了一种基于聚合注意力的食品识别方法及系统,涉及计算机视觉领域。本发明专利技术通过构建聚合注意力模块进行图像特征的提取,并提出了以聚合注意力模块为主要构件的主干网络,主干网络采用金字塔结构,主干网络包括四个阶段,阶段与阶段之间对图像进行下采样增加图像的通道数且降低图像分辨率,通过主干网络提取图像特征,从而实现食品识别的高效性。

【技术实现步骤摘要】

本专利技术属于计算机视觉领域,特别涉及一种基于聚合注意力的食品识别方法及系统


技术介绍

1、vision transformer近年来已成为各种计算机视觉任务的流行骨干架构。vit模型包括两个关键组件:自注意力层和mlp层。自注意力机制在特征提取中起着至关重要的作用,它通过query和key之间的相似度计算动态生成一个关联矩阵。这种全局信息聚合方法具有显著的特征提取潜力,可以构建强大的数据驱动模型。然而,vision transformer的编码器设计最初是为语言建模而开发的,在下游计算机视觉任务中表现出固有的局限性。具体而言,自注意全局关联矩阵的计算由于其二次复杂度和较高的内存消耗而面临挑战,限制了其在高分辨率图像特征上的应用。


技术实现思路

1、本专利技术提供一种基于聚合注意力的食品识别方法及系统,旨在进行高效且有效的全局上下文建模,并通过聚合注意力模块关注目标存在的位置,从而提高食品的识别效果。

2、本专利技术对于传统自注意力机制作出了改进,提供一种基于聚合注意力的食品识别方法,包括以下步骤:

3、s1、获取摄像头拍摄的食品视频,对视频进行抽帧,得到待检测食品图像;

4、s2、构建食品检测主干网络,主干网络采用四阶段金字塔结构,输入食品图像到该主干网络进行分层特征的提取,两阶段之间使用平均池化进行图像下采样操作,考虑到平均池化会丢失大量的信息,因此在平均池化之前进行线性投影和激活操作;将图像特征输入到阶段i之后,首先进行动态位置编码来捕捉不同位置之间的关系,接着应用layernorm进行标准化处理,然后使用多头自注意力机制进行图像序列内部的注意力计算,再次应用layernorm进行标准化,最后使用卷积门控模块对序列进行非线性变换,完成对图像序列的特征提取过程;

5、s3、构建食品检测模型,模型由主干网络、平均池化层和全连接分类器组成,主干网络由下采样模块和聚合注意力模块组成,平均池化层和全连接分类器进行结果预测输出;

6、s4、将待检测的食品图像输入食品检测模型,获得检测结果。

7、优选地,s2中的下采样模块,给定输入图像x,可以用公式来表示下采样过程,平均池化进行图像下采样操作,考虑到平均池化会丢失大量的信息,因此在平均池化之前进行线性投影和激活操作;将图像特征x输入到阶段i之后,先通过动态位置编码记录位置信息:,接着应用layernorm进行标准化处理,然后使用多头自注意力机制进行序列内部的注意力计算,再次应用layernorm进行标准化,最后使用卷积门控模块对序列进行处理,卷积门控模块由两个线性投影组成,这两个线性投影进行逐元素相乘,其中一个投影由激活函数激活,且在激活函数之前应用3×3深度卷积加强特征提取,逐元素相乘的结果再去输入到卷积门控模块的图像特征相加后进行输出。

8、本专利技术还提供一种基于聚合注意力的食品识别系统,其特征在于,包括食品图像采集模块和食品识别模块,视频图像采集模块负责拍摄食品视频,并对视频进行抽帧操作,得到多张待检测的食品图像;将视频图像输入到食品识别模块进行识别分类,食品识别模块内置食品检测模型,食品检测模型由主干网络、平均池化层和全连接分类器组成,主干网络由下采样模块和聚合注意力模块组成,平均池化层和全连接分类器进行结果预测输出;主干网络采用金字塔结构,图像处理过程分为四个阶段,第i阶段由个聚合注意力模块堆叠而成,图像通过主干网络进行分层特征提取;然后将图像特征输入到平均池化层进行平均池化,最后通过全连接分类器进行食品结果的预测。

9、与现有技术相比,本专利技术具有以下技术效果:

10、本专利技术提供的技术方案通过设计的聚合注意力模块关注目标存在的位置,可以高效且有效的全局上下文建模,同时在平均池化之前进行线性投影和激活操作,减少了图像在下采样过程中信息的丢失,保证了检测结果的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于聚合注意力的食品识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于聚合注意力的食品识别方法,其特征在于,S2中的下采样模块,给定输入图像X,使用公式来表示下采样过程;将图像特征X输入到阶段i之后,先通过动态位置编码记录位置信息:,接着应用LayerNorm进行标准化处理,然后使用多头自注意力机制进行序列内部的注意力计算,再次应用LayerNorm进行标准化,最后使用卷积门控模块对序列进行处理,卷积门控模块由两个线性投影组成,这两个线性投影进行逐元素相乘,其中一个投影由激活函数激活,且在激活函数之前应用3×3深度卷积加强特征提取,逐元素相乘的结果再去输入到卷积门控模块的图像特征相加后进行输出。

3.一种基于聚合注意力的食品识别系统,其特征在于,包括食品图像采集模块和食品识别模块,视频图像采集模块负责拍摄食品视频,并对视频进行抽帧操作,得到多张待检测的食品图像;将视频图像输入到食品识别模块进行识别分类,食品识别模块内置食品检测模型,食品检测模型由主干网络、平均池化层和全连接分类器组成,主干网络由下采样模块和聚合注意力模块组成,平均池化层和全连接分类器进行结果预测输出;主干网络采用金字塔结构,图像处理过程分为四个阶段,第i阶段由个聚合注意力模块堆叠而成,图像通过主干网络进行分层特征提取;然后将图像特征输入到平均池化层进行平均池化,最后通过全连接分类器进行结果的预测。

...

【技术特征摘要】

1.一种基于聚合注意力的食品识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于聚合注意力的食品识别方法,其特征在于,s2中的下采样模块,给定输入图像x,使用公式来表示下采样过程;将图像特征x输入到阶段i之后,先通过动态位置编码记录位置信息:,接着应用layernorm进行标准化处理,然后使用多头自注意力机制进行序列内部的注意力计算,再次应用layernorm进行标准化,最后使用卷积门控模块对序列进行处理,卷积门控模块由两个线性投影组成,这两个线性投影进行逐元素相乘,其中一个投影由激活函数激活,且在激活函数之前应用3×3深度卷积加强特征提取,逐元素相乘的结果再去输入到卷积门控模块的...

【专利技术属性】
技术研发人员:李忠涛赵光龙李雅其王婉露张玉璘
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1