一种基于明厨亮灶场景的复杂环境YOLO算法与混合注意力应用算法制造技术

技术编号：41199622 阅读：6 留言：0更新日期：2024-05-07 22:26

本发明专利技术涉及明厨亮灶复杂环境监测技术领域，尤其为通过设计一种基于明厨亮灶场景的复杂环境YOLO算法与混合注意力应用算法，使用了增强型多头注意力和坐标注意力机制的混合注意力机制，提高了注意力网络感知上下文信息的能力，扩大了网络特征的利用范围，其中坐标注意力机制增强了不同通道之间的链接，减少了位置信息的丢失，从而增加了混合注意力机制网络感知远距离小微目标信息和学习局部特征的能力，并且把增强的FPN应用到YOLOv5检测模型中，改进后的算法模型具有较为良好的检测能力，进而与其他版本的YOLO相比，平均精度均值，精度，召回率和每秒帧数指标显著提升，并且在满足实时检测要求的同时，适应各种厨房的场景，且满足检测准确性要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及明厨亮灶复杂环境监测，具体为一种基于明厨亮灶场景的复杂环境yolo算法与混合注意力应用算法。

技术介绍

1、利用视频监控技术进行远程集中监管无疑是更高效的方式。通过视频进行全流程监管对于监管人员来说，需要投入大量的人力进行视频巡视监管，效率仍有很大提升空间。而利用ai视频智能识别技术识别后厨违规场景，如口罩、着装、手套未按要求佩戴等，就可大大提升监管效率。

2、为了解决明厨亮灶项目中目标检测的低准确性、高误检率和高计算成本问题。

3、综上所述，本专利技术通过设计一种基于明厨亮灶场景的复杂环境yolo算法与混合注意力应用算法来解决存在的问题。

技术实现思路

1、本专利技术的目的在于提供一种基于明厨亮灶场景的复杂环境yolo算法与混合注意力应用算法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于明厨亮灶场景的复杂环境yolo算法与混合注意力应用算法，其步骤具体如下：

4、步骤1，混合注意力机制：混合注意力机制hybrid attention mechanis m-ham模块式基于transformer结构；

5、首先，输入特征经过深度卷积(dwconv)残差块以实现参数共享并增强局部特征的学习；

6、然后通过layer nomalization(ln)进行规划化处理，并且通过两个注意力机制模块，即增强多头自注意和坐标注意力,对输出进行处理；

7、最后，经过ln层进行规范化，并最终通过mlp层输出处理结果，其中整个过程如下列公式所示：

8、x1＝x+dwconv(x)

9、x2＝ln(x1)

10、x3＝ca(x2)+emsa(x2)+x1

11、y＝mlp(ln(x3))+x3

12、其中x表示输入特征，y表示输出特征，x1,x2,x3是中间特征；dwconv表示深度可分卷积，ln表示层规范化，ca表示坐标注意力，emsa表示增强多头注意力，mlp是多层感知机；

13、步骤2，基于混合注意力特征金字塔网络架构：在明厨亮灶项目中，存在光线暗，小微目标检测的痛点，从而通过增强fpn的特征融合能力实现对复杂情况下小微目标检测，并且为了增强fpn的特征融合能力，通过增加混合注意力特征金字塔网络对fpn进行优化；

14、同时，提出了一个新颖的emsa模块，已经被提出用来获取上下文信息和全局特征，同时使用ca机制来准确捕获位置特征并有效地捕获通道之间的信息；

15、然后，通过emsa和ca捕获的信息特征融合，以增强特征金字塔网络的特征融合能力，从而设计概念基于transformer中的msa机制；具体实现机制如公式所示：

16、q,k,v＝fc(xinput)

17、q`＝linear(q)

18、k`＝linear(k)

19、v`＝linear(v)

20、

21、

22、

23、其中，xinput表示输入特征，xoutput表示输出特征，xm和xn表示中间特征，q,k,v分别表示query矩阵，key矩阵和value矩阵；linear是线性变换操作，silu是sigmoid线性单元激活函数，fc表示全连接层，d是参数规模大小表示因子；

24、首先，q,k,v组件通过全连接(fc)层形成，其次对三个组件分别进行线性变换，将变换后的q和k矩阵相乘，然后对它们进行一系列非线性处理，最后，使用全连接层输入silu激活函数；

25、经过全连接层后，使用tanh激活函数进行处理，输出结果是一个与线性变换的v组件相乘的矩阵；

26、最后，将全连接层与原始输入特征相融合，以获得最终输出结果；

27、步骤3，yolov5中改进的特征融合网络：在原有的yolov5中，替换了原来的pafpn结构和原始特征融合网络架构。

28、作为本专利技术优选的方案，所述fpn是常用的特征融合方法，用于目标检测，fpn是一种提取金字塔特征表示的网络模型，通常在目标检测的特征融合阶段使用，并且在对backbone网络进行底向上特征提取操作后，将fpn连接到相应层的前后相邻特征图，从上到下、横向依次结合backbone网络特征层次中的两个相邻层，构建一个特征金字塔。

29、作为本专利技术优选的方案，所述msa机制为多头自注意力(机制，其中msa机制是一种与cnn不同的特征提取方法，建立全局依赖关系并扩展图像的感知场。

30、作为本专利技术优选的方案，所述原始特征融合网络架构包括卷积(convolution)、批量归一化(batch normalization)和silu激活函数(cbs)、跨阶段部分(csp)瓶颈结构，其中包含3个卷积(c3)和空间金字塔池化快速(sppf)。

31、与现有技术相比，本专利技术的有益效果是：

32、1、本专利技术中，通过设计为了解决明厨亮灶项目中目标检测的低准确性、高误检率和高计算成本问题，本方案使用了增强型多头注意力和坐标注意力机制的混合注意力机制，提高了注意力网络感知上下文信息的能力，扩大了网络特征的利用范围，其中坐标注意力机制增强了不同通道之间的链接，减少了位置信息的丢失，从而增加了混合注意力机制网络感知远距离小微目标信息和学习局部特征的能力，并且把增强的fpn应用到yolov5检测模型中，改进后的算法模型具有较为良好的检测能力，进而与其他版本的yolo相比，平均精度均值，精度，召回率和每秒帧数指标显著提升，并且在满足实时检测要求的同时，适应各种厨房的场景，且满足检测准确性要求，因此在利用视频ai感知，满足市场监督局对商户的加工过程控制、行为管理、环境管理、食品管理等情况的科学管理，辅助餐饮单位规范操作、透明操作，帮助企业自身降本增效，对辖区餐饮单位的联网监管，提升监管效能，完善公众服务渠道。

本文档来自技高网...

【技术保护点】

1.一种基于明厨亮灶场景的复杂环境YOLO算法与混合注意力应用算法，其步骤具体如下：

2.根据权利要求1所述的一种基于明厨亮灶场景的复杂环境YOLO算法与混合注意力应用算法，其特征在于：所述FPN是常用的特征融合方法，用于目标检测，FPN是一种提取金字塔特征表示的网络模型，通常在目标检测的特征融合阶段使用，并且在对Backbone网络进行底向上特征提取操作后，将FPN连接到相应层的前后相邻特征图，从上到下、横向依次结合Backbone网络特征层次中的两个相邻层，构建一个特征金字塔。

3.根据权利要求1所述的一种基于明厨亮灶场景的复杂环境YOLO算法与混合注意力应用算法，其特征在于：所述MSA机制为多头自注意力(机制，其中MSA机制是一种与CNN不同的特征提取方法，建立全局依赖关系并扩展图像的感知场。

4.根据权利要求1所述的一种基于明厨亮灶场景的复杂环境YOLO算法与混合注意力应用算法，其特征在于：所述原始特征融合网络架构包括卷积(Convolution)、批量归一化(Batch Normalization)和SiLu激活函数(CBS)、跨阶段

...

【技术特征摘要】

1.一种基于明厨亮灶场景的复杂环境yolo算法与混合注意力应用算法，其步骤具体如下：

2.根据权利要求1所述的一种基于明厨亮灶场景的复杂环境yolo算法与混合注意力应用算法，其特征在于：所述fpn是常用的特征融合方法，用于目标检测，fpn是一种提取金字塔特征表示的网络模型，通常在目标检测的特征融合阶段使用，并且在对backbone网络进行底向上特征提取操作后，将fpn连接到相应层的前后相邻特征图，从上到下、横向依次结合backbone网络特征层次中的两个相邻层，构建一个特征金字塔。

3.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：堵炜炜，孙盛婷，郭佳珺，石翼华，郑学锋，于帅，桂敏，
申请(专利权)人：联通上海产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人