一种基于双路摄像头的商品识别方法技术

技术编号:35992386 阅读:18 留言:0更新日期:2022-12-17 23:07
一种基于双路摄像头的商品识别方法涉及到基于深度学习的商品识别方法。本发明专利技术中对两个角度的画面进行融合检测,提高了商品的识别精度。使用混合的数据对特征提取主干网络进行训练,得到的特征提取主干网络可以同时提取两个角度的画面的特征,降低了使用传统目标检测算法时特征提取主干网络的训练成本。算法时特征提取主干网络的训练成本。算法时特征提取主干网络的训练成本。

【技术实现步骤摘要】
一种基于双路摄像头的商品识别方法


[0001]本专利技术涉及到基于深度学习的商品识别方法,具体涉及到智能售货柜方面的商品识别方法。

技术介绍

[0002]智能售货柜是新零售时代的一种重要技术,业内主要采用四种技术方案,包括RFID、重力传感器、静态识别和动态识别。本方案属于动态识别方案中的一种。动态识别方案通常是通过在柜体顶端或两侧安装的摄像头对消费者开门后拿取商品的过程进行录制,通过对视频进行识别从而在确定消费者购买的商品的信息后进行结算。动态视觉方案的特性包括对商品陈列无任何要求,商品可堆叠摆放,能够提高空间利用率,支持多品类SKU售卖。但动态视觉识别为了能够兼容各类商家和商品的多样要求,对图像识别的精准度要求更高。部分方案通过加装柜体上的摄像头提高识别的精准度,但常用的识别算法都是基于一个摄像头的,如应用广泛的yolo系列算法,R

CNN系列算法,其检测方式都是单独对一个摄像头录取的画面进行特征提取、定位和分类。但多摄像头场景下,由于摄像头的视角不同,能够录制消费者拿取商品的不同角度的信息,因此本申请提出了对同一个场景的多个角度的视频帧进行融合检测的模型,从而提高商品类别识别精度。

技术实现思路

[0003]本专利技术的目的是针对现有技术存在的问题,结合双路摄像头售货柜的特点提供一种新的基于双路摄像头的商品识别方法,所述方法通过利用具有特征融合机制和注意力机制的算法对双路摄像头所拍摄的图像进行融合检测,提高了商品识别率。
[0004]本专利技术采用的技术方案如下:r/>[0005]一种基于双路摄像头的商品识别方法,包括数据集构建、模型构建、模型训练和模型识别;
[0006]步骤1:数据集构建
[0007]数据集构建的主要任务是在主、副摄像头所拍摄的为同一时刻的购物场景的前提下,对主、副摄像头同时录制的视频进行关键帧采帧,并保证采帧的帧间时差,以及对所采图像帧进行去噪和标注。
[0008]步骤2:模型构建
[0009]模型构建的主要任务是为主、副摄像头构建特征提取网络和对应单路检测头以及融合检测所需的融合检测头。
[0010]步骤3:模型训练
[0011]模型训练的主要任务是将构建好的数据进行混合然后输入模型中,计算损失函数值,通过反向传播和梯度下降算法对模型参数寻优,求得模型权重。模型训练阶段包括对特征提取主干网络的训练,单路检测头的训练和融合检测头的训练。
[0012]步骤4:推理识别
[0013]推理识别的任务主要是将待检测画面输入训练好的模型包括特征提取主干网络,单路检测头和融合检测头,并最终输出待检测目标在主、副摄像头画面中的坐标和类别信息。
[0014]通过本专利技术提供的基于双路摄像头的商品识别技术能够带来以下增益效果:
[0015]1、在本专利技术中,对两个角度的画面进行融合检测,提高了商品的识别精度。
[0016]2、在本专利技术中,使用混合的数据对特征提取主干网络进行训练,得到的特征提取主干网络可以同时提取两个角度的画面的特征,降低了使用传统目标检测算法时特征提取主干网络的训练成本。
附图说明
[0017]图1是本专利技术的基于双路摄像头的商品识别方法的一个实施例的流程图;
具体实施方式
[0018]本专利技术涉及售货柜
,具体涉及到智能售货柜方面的商品识别。
[0019]步骤1:数据集构建
[0020]构建模型训练所需数据集。
[0021]步骤1.1视频录制
[0022]通过网线连接智能售货柜的工程控制及和电脑,使用Opencv并以并行的方式对主、副摄像头同时观察到的购物过程画面进行视频录制。
[0023]步骤1.2视频采帧
[0024]以录制的同一个购物过程的两路视频的最小帧数为上限,帧差为5的方式对视频进行采帧,从而保证帧与帧之间的商品位置有足够的变化。
[0025]步骤1.3去噪
[0026]使用大小为3*3的中值滤波去噪算子对所采图像进行处理得到去噪后的购物过程图像。
[0027]步骤1.4图像标注
[0028]使用标注软件LabelImg对所采图像进行标注,标注目标为购买者抓取的物品,标注包含该物品的位置信息和种类信息。标注框应当包含图像中的商品轮廓。
[0029]步骤2:模型构建
[0030]构建特征提取主干网络,主、副摄像头对应的单路检测头以及融合检测头。具体实现采用mmdetection深度学习框架。
[0031]步骤2.1特征提取主干网络构建
[0032]特征提取主干网络采用Swin Transformer的架构,选用的架构共分4层,每层分别由2、2、6、2个串联的基础模块构成,每层的通道维度分别为96、192、384、768,注意力头的个数分别为3、6、12、24,基础模块涉及的窗口注意力的窗口大小为7,其他参数均由mmdetection

2.23.0中的默认参数确定。
[0033]步骤2.2主、副摄像头对应的单路检测头构建
[0034]主、副摄像头对应的单路检测头采用DETRHead架构,该检测头为基于多头注意力的无锚框检测头,由6层编码层和6层解码层以及一个多层感知机模块构成,各编码层均由
一个多头注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力的注意力头个数为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048。各解码层均由一个多头注意力模块,一个神经层正则化模块,一个交叉注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力模块和交叉注意力模块的注意力头个数均为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048。待检测目标的Boundingbox坐标由检测头的多层感知机模块预测。其他参数均由mmdetection

2.23.0中的默认参数确定。
[0035]步骤2.3融合检测头构建
[0036]融合检测头为DETRHead架构,该检测头为基于多头注意力的无锚框检测头,由8层编码层和8层解码层以及一个线性层模块构成,8层编码层除第一层由一个融合多头注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成外其余各编码层均由一个多头注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力的注意力头个数为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048。各解码层均由一个多头注意力模块,一个神经层正则化模块,一个交叉注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力模块和交叉注意力模块的注意力头个数均为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048。需要指明的,融合检测头还包括其他参数均本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双路摄像头的商品识别方法,其特征在于包括以下步骤:步骤1:数据集构建构建模型训练所需数据集;步骤1.1视频录制通过网线连接智能售货柜的工程控制及和电脑,使用Opencv并以并行的方式对主、副摄像头同时观察到的购物过程画面进行视频录制;步骤1.2视频采帧以录制的同一个购物过程的两路视频的最小帧数为上限,帧差为5的方式对视频进行采帧,从而保证帧与帧之间的商品位置有足够的变化;步骤1.3去噪使用大小为3*3的中值滤波去噪算子对所采图像进行处理得到去噪后的购物过程图像;步骤1.4图像标注使用标注软件LabelImg对所采图像进行标注,标注目标为购买者抓取的物品,标注包含该物品的位置信息和种类信息;标注框应当包含图像中的商品轮廓;步骤2:模型构建构建特征提取主干网络,主、副摄像头对应的单路检测头以及融合检测头;具体实现采用mmdetection深度学习框架;步骤2.1特征提取主干网络构建特征提取主干网络采用Swin Transformer的架构,选用的架构共分4层,每层分别由2、2、6、2个串联的基础模块构成,每层的通道维度分别为96、192、384、768,注意力头的个数分别为3、6、12、24,基础模块涉及的窗口注意力的窗口大小为7,其他参数均由mmdetection

2.23.0中的默认参数确定;步骤2.2主、副摄像头对应的单路检测头构建主、副摄像头对应的单路检测头采用DETRHead架构,该检测头为基于多头注意力的无锚框检测头,由6层编码层和6层解码层以及一个多层感知机模块构成,各编码层均由一个多头注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力的注意力头个数为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048;各解码层均由一个多头注意力模块,一个神经层正则化模块,一个交叉注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力模块和交叉注意力模块的注意力头个数均为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048;待检测目标的Boundingbox坐标由检测头的多层感知机模块预测;其他参数均由mmdetection

2.23.0中的默认参数确定;步骤2.3融合检测头构建融合检测头为DETRHead架构,该检测头为基于多头注意力的无锚框检测头,由8层编码层和8层解码层以及一个线性层模块构成,8层编码层除第一层由一个融合多头注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成外其余各编码层均由一个多头注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力的注意力头个数为8,query的维度为
256,前馈神经网络模块的隐藏层维度为2048;各解码层均由一个多头注意力模块,一个神经层正则化模块,一个交叉注意力模块,一个神经层正则化模块,一个前馈神经网络模块和一个神经层正则化模块串联构成,其中多头注意力模块和交叉注意力模块的注意力头个数均为8,query的维度为256,前馈神经网络模块的隐藏层维度为2048;融合检测头还包括其他参数均由mmdetection

2.23.0中的默认参数确定;待检测目标的类别信息由线性层模块预测;步骤3:模型训练模型训练使用构建好的数据集首先对特征提取主干网络进行训练,然后对单路检测头进行训练,最后增设融合检测头进行融合检测头的训练;具体实现采用mmdetection深度学习框架;步骤3.1特征提取主干网络训练将通过主、副摄像头采取的训练数据全部输入单分支的目标检测网络进行训练,然后将推理得到的目标的Bounding Box坐标输入平均绝对误差损失函数计算损失,将目标类别置信度输入交叉熵损失函数计算损失,将两个损失求和作为最终损失,用反向传播和梯度下降的方式对模型参数进行优化,最终求得特征提取主干网络对应的权重,完成特征提取主干网络的训练,此处单分支的目标检测网络指特征提取主干网络串联一个单路检测头;步骤3.2主、副摄像头对应的单路检测头训练首先将步骤3.1训练所得特征提取主干网络串联主摄像头对应的单路检测头,用mmdetection框架冻结训练好的特征提取主干网络的参数后,将主摄像头拍摄所得的图像数据输入模型,将推理得到的目标的Bounding Box坐标输入平均绝对误差损失函数计算损失,用反向传播和梯度下降的方式对单路检测头的参数进行优化,求得主摄像头对应的单路检测头的权重,完成对主摄像头分支检测头的训练;之后对副摄像头对应的数据和单路检测头进行同样的操作,得到副摄像头对应的单路检测头的权重,完成对副摄像头分支检测头的训练;步骤3.3融合检测头训练首先通过mmdetection框架冻结已经训练好的特征提取主干网络和单路检测头的参数,对融合检测头进行设置,如图1所示,将主、副摄像头对应的单路检测头编码部分输出的特征输入融合检测头,以两个分支的特征与对应的融合权重矩阵做哈达玛积并将结果相加的方式对两个分支的特征进行融合,融合后的特征图输入解码部分并由最后的线性层输出融合检测后的目标类别置信度;将融合检测头预测的目标类别置信度输入FocalLoss损失函数,用反向传播的方式对模型参数...

【专利技术属性】
技术研发人员:李建强陈柳乐王瑾高正凯宋秉谕李韫昱
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1