一种基于LR-CenterNet的快餐菜品旋转目标检测方法技术

技术编号:36687150 阅读:24 留言:0更新日期:2023-02-27 19:51
本发明专利技术公开了一种基于LR

【技术实现步骤摘要】
一种基于LR

CenterNet的快餐菜品旋转目标检测方法


[0001]本专利技术属于图像目标检测领域,具体涉及一种基于LR

CenterNet的快餐菜品旋转目标检测方法。

技术介绍

[0002]随着深度学习技术的深入发展和日渐成熟,深度学习技术在人脸识别、语音识别、自然语言处理、无人驾驶等领域都作出了巨大的贡献,极大地便利了人类的生活。餐饮行业也不例外的在深度学习技术的加持下实现菜品的自动识别、自动计价、营养分析等更加便利的功能,极大地减少了收银员的工作负担、提高收银效率、较少了顾客排队和等待的时长。深度学习方法与通过餐盘底部内嵌RFID射频芯片等类似的借助硬件辅助而实现的菜品识别方法相比具有高效、经济、易迁移的绝对优势。从目前来看,使用深度学习方法实现菜品识别功能的技术主要包括两类:One

Stage方法和Two

Stage方法。
[0003]One

Stage方法直接通过主干网络提取特征来同时预测物体的位置和类别。常见的One

Stage算法有YOLO系列和SSD算法。Two

Stage方法将检测分为两步,主要思想是先通过卷积神经网络生成一系列的目标区域候选区域,即区域建议,然后对这些目标候选区域进行分类和回归,代表算法有R

CNN、Fast R

CNN等。
[0004]通过对餐饮行业的充分调研和分析后发现,某一个快餐餐厅的菜单随着季节变化、菜品原料价格的浮动而经常性的发生变化,但同时每一个快餐餐厅用于盛装菜品的餐盘是固定不变的。对于One

Stage方法来说,菜单的经常性变化就会导致其网络模型的经常性更新,且One

Stage方法的网络训练时间通常较长(YOLOv3的训练时长为5~8小时),模型更新不便利,且模型识别准确率不如Two

Stage方法。对于Two

Stage方法,盛装菜品的餐盘固定不变意味着菜品的位置信息的特征是长期稳定的,餐厅菜单更新时只需要更新Two

Stage方法中的分类和回归部分的网络模型,而不需要更新生成菜品候选区域的网络模型部分。因此,在快餐行业的实际应用场景中,Two

Stage方法比One

Stage方法更加合适。
[0005]但是,Two

Stage方法在识别菜品位置时使用的是矩形框进行位置的标注,如图1所示,这种标注方法在一些不规则的尤其是采用长方形或类长方形菜碟盛放的不规则菜品图像中,会产生大量的背景噪声,影响下一步菜品的分类和回归的准确率。
[0006]因此,如何在Two

Stage方法中,针对含有长方形菜碟的不规则菜品图像实现快速、准确的目标检测获得代表其位置的外包框,是目前亟待解决的技术问题。

技术实现思路

[0007]本专利技术的目的在于解决现有技术中针对含有长方形菜碟的不规则菜品图像的目标检测速度较慢、准确率不高的问题,并提供一种基于LR

CenterNet的快餐菜品旋转目标检测方法。
[0008]本专利技术所采用的具体技术方案如下:
[0009]一种基于LR

CenterNet的快餐菜品旋转目标检测方法,其包括:
[0010]S1、获取通过俯拍得到的快餐菜品图像数据集,数据集中的每一张菜品图像中包含餐盘以及放置于餐盘上通过碗碟盛放的至少一个菜品;对数据集中的每一张菜品图像的四个边界进行外扩填充,并对填充后的菜品图像进行数据增强处理;
[0011]S2、对经过S1中数据增强后的数据集中每张菜品图像进行菜品边界框的标注,将菜品边界框的中心点、菜品边界框的长度和宽度、菜品类型以及边界框旋转角度作为标注标签;
[0012]S3、利用带有标注标签的数据集训练LR

CenterNet网络模型,直至网络收敛后,得到快餐菜品检测模型;
[0013]所述LR

CenterNet网络模型以CenterNet网络为基础,将CenterNet网络中提取特征的主干网络替换为MobileNet

V3网络,同时在CenterNet网络原有的分别用于预测关键点热力图、预测框高度和宽度尺寸、预测框中心点偏置的三个回归分支之外增加第四个回归分支,通过第四个回归分支输出预测框旋转角度;
[0014]训练LR

CenterNet网络模型的总损失函数为CenterNet网络原有的三个损失项与预测框旋转角度损失的加权和,且预测框旋转角度损失采用L1损失;
[0015]S4、将待检测的快餐菜品图像输入所述快餐菜品检测模型中,输出菜品边界框的中心点、菜品边界框的长度和宽度、菜品类型、以及边界框旋转角度,从而确定图像中的菜品所在位置。
[0016]作为优选,所述快餐菜品图像通过高拍仪进行俯拍。
[0017]作为优选,对数据集中的菜品图像进行外扩填充时,菜品图像的上下左右四个边界分别向外填充的像素宽度应当保证斜向标注的菜品边界框不会超出填充后的图像范围。
[0018]作为优选,菜品图像的上下左右四个边界分别向外填充70~100像素。
[0019]作为优选,所述数据增强处理是对图像随机加入少量的高斯噪声。
[0020]作为优选,在标注过程中,所述菜品类型不做区分,全部标注为统一类型,使训练后得到的快餐菜品检测模型仅检测菜品位置而不检测菜品类型。
[0021]作为优选,所述预测框角度损失的形式为:
[0022][0023]式中:A
k
为图像中第k个目标的边界框旋转角度真实值,为图像中第k个目标的预测边界框旋转角度预测值,N为图像中关键点的数量。
[0024]作为优选,所述总损失函数的形式为:
[0025]L=L
k

size
L
size

off
L
off

angle
L
angle
[0026]式中:L表示总损失,L
k
表示CenterNet网络原有的中心点预测损失,L
size
表示CenterNet网络原有的预测框尺寸损失,L
off
表示CenterNet网络原有的预测框中心点偏置损失,L
angle
表示预测框角度损失,λ
size
、λ
off
、λ
angle
分别为对应权重。
[0027]作为优选,所述权重λ
size
、λ
off
、λ
angle
的取值优选为0.1、1、0.本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LR

CenterNet的快餐菜品旋转目标检测方法,其特征在于,包括:S1、获取通过俯拍得到的快餐菜品图像数据集,数据集中的每一张菜品图像中包含餐盘以及放置于餐盘上通过碗碟盛放的至少一个菜品;对数据集中的每一张菜品图像的四个边界进行外扩填充,并对填充后的菜品图像进行数据增强处理;S2、对经过S1中数据增强后的数据集中每张菜品图像进行菜品边界框的标注,将菜品边界框的中心点、菜品边界框的长度和宽度、菜品类型以及边界框旋转角度作为标注标签;S3、利用带有标注标签的数据集训练LR

CenterNet网络模型,直至网络收敛后,得到快餐菜品检测模型;所述LR

CenterNet网络模型以CenterNet网络为基础,将CenterNet网络中提取特征的主干网络替换为MobileNet

V3网络,同时在CenterNet网络原有的分别用于预测关键点热力图、预测框高度和宽度尺寸、预测框中心点偏置的三个回归分支之外增加第四个回归分支,通过第四个回归分支输出预测框旋转角度;训练LR

CenterNet网络模型的总损失函数为CenterNet网络原有的三个损失项与预测框旋转角度损失的加权和,且预测框旋转角度损失采用L1损失;S4、将待检测的快餐菜品图像输入所述快餐菜品检测模型中,输出菜品边界框的中心点、菜品边界框的长度和宽度、菜品类型、以及边界框旋转角度,从而确定图像中的菜品所在位置。2.如权利要求1所述的基于LR

CenterNet的快餐菜品旋转目标检测方法,其特征在于,所述快餐菜品图像通过高拍仪进行俯拍。3.如权利要求1所述的基于LR

CenterNet的快餐菜品旋转目标检测方法,其特征在于,对数据集中的菜品图像进行外扩填充时,菜品图像的上下左右四个边界分别向外填充的像素宽度应当保证斜向标注的菜品边界框不会超出填充后的图像范围。4.如权利要求3所述的基于LR

CenterNet的快餐菜品旋转目标检测方法,其特征在于,菜品图像的上下左右四个边界分别向外填充70~100像素。5.如权利要求1所述的基于LR

CenterNet的快餐菜品旋转目标检测方法,其特征在于,所述数...

【专利技术属性】
技术研发人员:刘俊张俊峰李万清李枨柳佳乐陈超强唐莹
申请(专利权)人:绍兴数鸿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1