一种用于无人售货柜的多角度视频融合的商品识别算法制造技术

技术编号:19693568 阅读:23 留言:0更新日期:2018-12-08 11:37
本发明专利技术提供一种用于无人售货柜的多角度视频融合的商品识别算法,包括以下步骤:对采集到的视频数据进行预处理;对所述视频数据中视频帧进行关键帧采样;构建深度卷积神经网络模型;利用采样的关键帧对所述模型进行训练和精度测试,在商品识别的精度达到预期后,部署所述模型,进一步包括:特征提取、特征融合、特征识别;来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述模型,得到识别出的商品种类和对应的商品数量。本发明专利技术通过多角度视频融合技术,充分利用多源数据带来的丰富信息来降低商品被遮挡的影响,从而提高商品识别精度。

【技术实现步骤摘要】
一种用于无人售货柜的多角度视频融合的商品识别算法
本专利技术涉及无人售货柜
,具体涉及一种用于无人售货柜的多角度视频融合的商品识别算法。
技术介绍
随着人工智能技术的发展,各行各业都开始应用人工智能技术来降低行业运行成本并提高其效率,尤其在新零售领域,如何利用人工智能技术来降低运营成本并让商品触手可及,便成为了行业里的热点研究领域。随着近几年科研人员在计算机视觉领域取得的突破性进展,利用基于深度学习神经网络的图像识别技术,来对顾客购买的商品进行自动识别,已经变得完全可行。另一方面,由于计算机运算能力的提升,在真实场景中大规模应用这种技术,并结合完善的电子在线支付系统,通过分析安装在售货柜上的多个摄像头所采集到的数据来对顾客消费进行结算,实现智能无人售货的新零售产业模式的时代已经到来。基于深度学习神经网络的图像识别技术,利用大规模人工标注的图片数据集进行监督训练,具有强大的特征表达能力,通过对单张图片中所提取到的深度特征进行分类,即可识别图像中的所出现的物品。除此之外,相对于针对单张图片的静态识别技术,基于视频的多帧动态识别技术具有更广泛的应用场景,因为多帧图片中包含的信息更为丰富,且具有时间上的连续性,可以融合多帧信息来提高识别准确率。同时利用在多个角度所采集到视频流信息,可以对同一次用户操作和同一商品的多视角形态进行反复确认,从而缓解单一视角中的物体遮挡所带来的不利影响。因此,利用深度学习强大的特征表达能力以及丰富冗余的多视角数据,对用户购买的商品进行动态识别是完全可行且有价值的。申请号2017102606931公开了一种基于视频的物体识别追踪方法,该方法由两部分组成,第一部分是用神经网络进行物体检测,接着第二部分是对检测到的物体进行追踪。该方法同样采用了深度卷积神经网络来对视频中的物体进行检测并识别。但是,在该专利中,视频流数据只来源于某一单一角度,因此包含的信息有限,尤其容易受到遮挡的影响,从而导致识别精确率不高。
技术实现思路
为克服上述现有技术的不足,本专利技术提供一种用于无人售货柜的多角度视频融合的商品识别算法,通过多角度视频融合技术,充分利用多源数据带来的丰富信息来降低商品被遮挡的影响,从而提高商品识别精度。本专利技术是通过以下技术方案予以实现的:一种用于无人售货柜的多角度视频融合的商品识别算法,包括以下步骤:步骤一、对采集到的视频数据进行预处理,进一步包括:采集视频数据和对采集到的视频数据进行动态区域检测,得到所述视频数据中视频帧的动态区域;步骤二、对所述视频数据中视频帧进行关键帧采样;步骤三、构建深度卷积神经网络模型,所述模型具有多输入多输出结构;步骤四、利用采样的关键帧对所述模型进行训练和精度测试,在商品识别的精度达到预期后,部署所述模型,该步骤进一步包括:特征提取、特征融合、特征识别;步骤五、来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述模型,得到识别出的商品种类和对应的商品数量。优选地,步骤一进一步包括:采用时序动态图算法对视频数据中连续的多帧图像进行计算,得到所述视频数据的时序动态图,然后利用所述时序动态图得到所述视频数据对应的动态区域掩码,对所述动态区域掩码进行平滑处理,将处理后的动态区域掩码应用到所述视频数据对应的每一个视频帧上,获得所述视频数据中的动态区域,并将非动态区域内的像素全部设为零。具体地,在采集的视频数据中会包含大量的无关信息,比如摆放在货柜内的其他静止商品等,为了减小其他商品对目标商品的干扰,本专利技术只对视频数据中处于动态区域内的目标商品进行识别,从而减少冗余数据量、提高商品识别效率和识别精度。具体地,由于所述时序动态图对视频数据中的噪音比较敏感,因此由所述时序动态图计算而来的动态区域掩码也存在大量噪音,需要通过简单的平滑过程来消除所述动态区域掩码中存在的大量噪音。优选地,所述采集到的视频数据来自以不同角度布置于无人售货柜上的多个摄像头。优选地,步骤二进一步包括:以固定步长或自适应步长进行关键帧采样。具体地,由于对用户的每次购买操作所采集到的视频数据一般具有不同的长度,即,每次采集到的视频数据由不同数量的视频帧组成,因此,为了使输入到本专利技术所述模型的数据具有相同的维度,需要对不同长度的视频数据进行固定数量的关键帧采样,以使得对于不同长度的视频数据,均能获得固定数量的关键帧图像来代表所对应的整个视频数据。进行关键帧采样可以去掉那些包含冗余信息的视频帧,从而节约计算资源,提高算法的运行速度,提高商品识别的效率。优选地,步骤三中,所述模型为基于TensorFlow的Keras框架下的Inception_v3模型。所述模型为平行的多流深度学习神经网络架构。优选地,步骤四进一步包括:对采样的关键帧进行深度特征提取,将提取到的多角度深度特征图进行特征融合,对融合后的特征图进行特征识别和统计回归,得到两个向量输出,一个输出向量为商品种类,另一个输出向量为所述商品种类所对应的商品数量。具体地,基于所述Inception_v3模型的迁移学习技术分别对来自不同角度的视频数据关键帧组进行深度特征提取,采用的是平形的多流网络结构,然后将提取到的多角度深度特征图进行特征融合。具体地,进行深度特征提取与特征融合的好处是:一方面,由于来自不同视角的视频数据记录的均是同一时刻同一次用户操作,因此含有共同的目标物体,即用户所购买的商品,这些多视角视频数据可以相互辅助并补全彼此缺失的信息,能有效减少单一视角造成的目标商品信息缺失的影响;另一方面,基于多角度的视频数据关键帧的深度特征进行融合而非直接融合关键帧,可以让平行的各网络分支分别对某一固定视角的视频数据关键帧进行特征提取,使其对不同的视角更具有针对性。具体地,对融合后的特征图进行特征识别和统计回归进一步包括:所述模型首先对视频中所出现的商品进行识别并正确分类,同时结合分类结果对识别的商品进行统计计数,计算对应的商品数量。更具体来讲,一旦所述模型识别出在视频中出现的商品,其对应的索引位置则会在输出的类别向量中被激活,再结合被激活的索引位置,通过回归计算得到其对应商品的数目。因此,该算法不仅能够处理单次购买多个同种商品的情况,还可以处理单次购买多个不同种类的商品。从特征提取到特征融合,再到特征识别,可被整合为一个统一的过程,从而实现一个端到端的模型结构。优选地,步骤四进一步包括:所述模型在训练过程中,分别采用二分类交叉熵损失和最小平方差损失对商品种类和商品数量进行优化。优选地,所述模型的多输入多输出结构中,多输入用于对来自多个角度的视频数据同时进行处理,多输出用于分别计算商品种类和对应的商品数量。与现有技术相比,本专利技术的有益效果在于,1)通过以不同角度装设在无人售货柜内的多个摄像头获取用户的商品购买操作,得到用户所购买的目标商品在不同的角度所呈现出来的不同形态,目标商品的多视角视频数据可以相互辅助并补全彼此缺失的信息,能有效减少单一视角造成的目标商品信息缺失的影响,丰富目标商品的有效信息,目标商品的多视角视频信息经预处理和关键帧采样后,同时输入到本专利技术的算法模型中进行特征提取和特征融合,从而识别出用户所购买的商品,大大提高了商品识别的准确度;2)在利用本专利技术的商品识别算法对用户所购买的商品进行识别之前,先对采集到的所本文档来自技高网
...

【技术保护点】
1.一种用于无人售货柜的多角度视频融合的商品识别算法,其特征在于,包括以下步骤:步骤一、对采集到的视频数据进行预处理,进一步包括:采集视频数据和对采集到的视频数据进行动态区域检测,得到所述视频数据中视频帧的动态区域;步骤二、对所述视频数据中视频帧进行关键帧采样;步骤三、构建深度卷积神经网络模型;步骤四、利用采样的关键帧对所述模型进行训练和精度测试,在商品识别的精度达到预期后,部署所述模型,该步骤进一步包括:特征提取、特征融合、特征识别;步骤五、来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述模型,得到识别出的商品种类和对应的商品数量。

【技术特征摘要】
1.一种用于无人售货柜的多角度视频融合的商品识别算法,其特征在于,包括以下步骤:步骤一、对采集到的视频数据进行预处理,进一步包括:采集视频数据和对采集到的视频数据进行动态区域检测,得到所述视频数据中视频帧的动态区域;步骤二、对所述视频数据中视频帧进行关键帧采样;步骤三、构建深度卷积神经网络模型;步骤四、利用采样的关键帧对所述模型进行训练和精度测试,在商品识别的精度达到预期后,部署所述模型,该步骤进一步包括:特征提取、特征融合、特征识别;步骤五、来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述模型,得到识别出的商品种类和对应的商品数量。2.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法,其特征在于,步骤一进一步包括:采用时序动态图算法对视频数据中连续的多帧图像进行计算,得到所述视频数据的时序动态图,然后利用所述时序动态图得到所述视频数据对应的动态区域掩码,对所述动态区域掩码进行平滑处理,将处理后的动态区域掩码应用到所述视频数据对应的每一个视频帧上,获得所述视频数据中的动态区域,并将非动态区域内的像素全部设为零。3.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法,其特征在于,所述采集到的视频数...

【专利技术属性】
技术研发人员:蔡丁丁方无迪唐开刘钰涛张运辉
申请(专利权)人:武汉市哈哈便利科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1