一种实时视频的目标检测与识别方法和系统技术方案

技术编号:21914518 阅读:18 留言:0更新日期:2019-08-21 12:35
本发明专利技术提出了一种用于实时视频的目标检测与识别的方法和系统。方法包括:获取当前视频帧图像中目标物体的位置范围CX,其中,获取所述位置范围CX包括:判断当前视频帧的前一帧图像的目标物体识别结果RX‑1和两帧之前的图像的目标物体识别结果RX‑2是否相同;不相同时,通过第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX;相同时,根据上一帧图像中的目标物体位置范围CX‑1确定当前帧图像中的目标物体位置范围CX;以及通过第二级神经网络,根据位置范围CX,对当前帧图像进行目标物体识别。从而,能够降低用于位置检测的第一级神经网络的运行频率,加快识别速度并降低CPU和内存资源的占用。

A Method and System for Target Detection and Recognition in Real-time Video

【技术实现步骤摘要】
一种实时视频的目标检测与识别方法和系统
本专利技术涉及人工智能和图像识别
,尤其涉及一种用于实时视频的目标检测与识别的方法和系统。
技术介绍
随着识别精度地不断提高,用卷积神经网络(CNN)来进行图像识别和分类的方法已逐渐被业界接受。在评价模型或者算法的性能时,则多采用ImageNet(图像网络)数据集作为测试数据集。近年来,各种新的CNN网络结构被不断提出,从2012年的AlexNet(Alex网络)模型,到2014年的VGG(VisualGeometryGroup,视觉几何组)和随后的GoogLeNet(谷歌的LeCun网络)和ResNet(ResidualNetwork,残差网络)模型,CNN在最初的LeNet(LeCun网络)基础上取得了长足进展,ImageNet数据集的最佳定位和分类成绩也在不断刷新。ImageNet大规模视觉识别挑战赛(ILSVRC)的历年成绩中,top-5的错误率从2012年AlexNet的16.4%逐年下降到2015年ResNet的3.57%,在2016年更进一步下降到3%以下。与模型精度的提高向对应的,是网络结构的深度也在不断增加,ILSVRC2012时,AlexNet只有8层,到ILSVRC2015,ResNet网络深度已经达到152层,当前ResNet的层数更是已经可以达到10^3的数量级。虽然比起AlexNet和VGG,GoogLeNet和ResNet的全连接层数和全连接层的节点数量都有所减少,但由于层数的大量增加,总的模型运算量还是远增。在目标定位和分类联合应用的场景(例如,手势识别这样的典型场景),上述介绍的各种网络结构目前基本都只能在图像目标区域占图像比例大于50%的情况下才能取得较好的分类效果。以手势识别为例,对于手势区域占比较小的情况,就很难聚焦到手势区域学习到手势相关特征,无法识别出相应的手势。为了解决这一问题,一种处理方式是使用级联的CNN网络,在两级CNN网络中依次进行物体定位和分类识别。为了取得更好的识别效果,随着神经网络的深度增加,运算量也逐步加大,两级神经网络的运算将占用大量CPU资源,对于实时视频播放过程中的同步目标分类和识别这样的应用场景,将会给CPU带来巨大负担,对CPU的运算能力提出了更高的要求。此外,在移动终端的应用中,CPU高负荷运行产生的巨大热量也几乎是现有移动终端设备的硬件无法解决和承受的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决上述相关技术中的技术问题之一。提供一种用于实时视频的目标检测与识别方法和系统。为了达到上述目的,根据本专利技术第一方面的实施例提出了一种用于实时视频的目标检测与识别的方法,其包括:获取当前视频帧图像中目标物体的位置范围CX,其中,所述获取当前视频帧图像中目标物体的位置范围CX包括:判断当前视频帧的前一帧图像的目标物体识别结果RX-1和两帧之前的图像的目标物体识别结果RX-2是否相同;当两个识别结果RX-1和RX-2不相同时,通过第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX;当两个识别结果RX-1和RX-2相同时,不经过第一级神经网络,根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX;以及通过第二级神经网络,根据当前帧图像中目标物体的位置范围CX,对当前帧图像进行目标物体识别,得到当前帧图像的目标物体识别结果Rx。在一些实施例中,第一级神经网络对当前视频帧的图像进行目标物体位置检测,包括:判断当前帧图像中是否包含目标物体;若当前帧图像包含目标物体,则进一步获取当前帧图像中的目标物体位置范围CX;若当前帧图像不含目标物体,则将判断当前帧图像中是否包含目标物体的间隔设置为每隔预定帧数执行一次,并持续进行判断直至帧图像中包含目标物体。在一些实施例中,第二级神经网络根据目标物体在当前帧图像中的位置范围CX,对当前帧图像进行目标物体识别,得到识别结果Rx,包括:将目标物体在当前帧图像中的位置范围CX扩展,得到面积增大预定义倍数的扩展位置范围;并在所述扩展位置范围内进行目标物体识别,得到识别结果Rx。在一些实施例中,根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX,包括:将上一帧图像中的目标物体位置范围CX-1作为当前帧图像中的目标物体位置范围CX;或者根据上一帧图像中的目标物体位置范围,以及之前预定义帧数的图像中的目标物体位置范围,预测当前帧图像中的目标物体位置范围CX。在一些实施例中,所述目标物体为人手;所述通过第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX包括:识别人手在当前视频帧图像中的位置范围;所述通过第二级神经网络,根据当前帧图像中目标物体的位置范围CX,对当前帧图像进行目标物体识别,得到当前帧图像的目标物体识别结果Rx,包括:对人手进行手势识别,识别结果为手势的姿态。使用本专利技术的实时视频的目标检测与识别方法,能够利用前帧图像的目标物体位置检测结果,降低用于位置检测的第一级神经网络的运行频率,加快整个目标物体检测和识别的速度并同时降低CPU和内存资源的占用,从整体上改善识别算法的性能。在两级神经网络分别采用相同结构的前提下,使用本专利技术的方法与每帧图像的识别均运行第一级神经网络的方案相比,可节约CPU资源50%以上。根据本专利技术第二方面的实施例提供了一种实时视频的目标检测与识别系统,其包括:第一级神经网络,用于对视频帧图像进行目标物体的位置检测,获取目标物体位置范围;第二级神经网络,用于根据目标物体位置范围,在视频帧图像中进行目标物体的识别,得到识别结果;以及神经网络运行控制模块,用于根据过往视频帧图像的目标物体识别结果控制第一神经网络和第二神经网络工作,其中:确定当前视频帧的前一帧图像的目标物体识别结果RX-1和两帧之前的图像的目标物体识别结果RX-2是否相同;当两个识别结果RX-1和RX-2不相同时,控制第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX;当两个识别结果RX-1和RX-2相同时,不经过第一级神经网络,根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX;以及控制第二级神经网络,根据当前帧图像中目标物体的位置范围CX,对当前帧图像进行目标物体识别,得到当前帧图像的目标物体识别结果Rx。在一些实施例中,神经网络运行控制模块控制第一级神经网络对当前视频帧的图像进行目标物体位置检测,包括:判断当前帧图像中是否包含目标物体;若当前帧图像包含目标物体,则控制第一神经网络进一步获取当前帧图像中的目标物体位置范围CX;若当前帧图像不含目标物体,则将判断当前帧图像中是否包含目标物体的间隔设置为每隔预定帧数执行一次,并持续进行判断直至帧图像中包含目标物体。在一些实施例中,第二级神经网络根据目标物体在当前帧图像中的位置范围CX,对当前帧图像进行目标物体识别,得到识别结果Rx,包括:将目标物体在当前帧图像中的位置范围CX扩展,得到面积增大预定义倍数的扩展位置范围;并在所述扩展位置范围内进行目标物体识别,得到识别结果Rx。在一些实施例中,神经网络运行控制模块根据上一帧图本文档来自技高网
...

【技术保护点】
1.一种用于实时视频的目标检测与识别的方法,其特征在于,包括:获取当前视频帧图像中目标物体的位置范围CX,其中,所述获取当前视频帧图像中目标物体的位置范围CX包括:确定当前视频帧的前一帧图像的目标物体识别结果RX‑1和两帧之前的图像的目标物体识别结果RX‑2是否相同;当两个识别结果RX‑1和RX‑2不相同时,通过第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX;当两个识别结果RX‑1和RX‑2相同时,不经过第一级神经网络,根据上一帧图像中的目标物体位置范围CX‑1确定当前帧图像中的目标物体位置范围CX;以及通过第二级神经网络,根据当前帧图像中目标物体的位置范围CX,对当前帧图像进行目标物体识别,得到当前帧图像的目标物体识别结果Rx。

【技术特征摘要】
1.一种用于实时视频的目标检测与识别的方法,其特征在于,包括:获取当前视频帧图像中目标物体的位置范围CX,其中,所述获取当前视频帧图像中目标物体的位置范围CX包括:确定当前视频帧的前一帧图像的目标物体识别结果RX-1和两帧之前的图像的目标物体识别结果RX-2是否相同;当两个识别结果RX-1和RX-2不相同时,通过第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX;当两个识别结果RX-1和RX-2相同时,不经过第一级神经网络,根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX;以及通过第二级神经网络,根据当前帧图像中目标物体的位置范围CX,对当前帧图像进行目标物体识别,得到当前帧图像的目标物体识别结果Rx。2.根据权利要求1所述的实时视频的目标检测与识别方法,其特征在于,第一级神经网络对当前视频帧的图像进行目标物体位置检测,包括:判断当前帧图像中是否包含目标物体;若当前帧图像包含目标物体,则进一步获取当前帧图像中的目标物体位置范围CX;若当前帧图像不含目标物体,则将判断当前帧图像中是否包含目标物体的间隔设置为每隔预定帧数执行一次,并持续进行判断直至帧图像中包含目标物体。3.根据权利要求1所述的实时视频的目标检测与识别方法,其特征在于,第二级神经网络根据目标物体在当前帧图像中的位置范围CX,对当前帧图像进行目标物体识别,得到识别结果Rx,包括:将目标物体在当前帧图像中的位置范围CX扩展,得到面积增大预定义倍数的扩展位置范围;并在所述扩展位置范围内进行目标物体识别,得到识别结果Rx。4.根据权利要求1所述的实时视频的目标检测与识别方法,其特征在于,根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX,包括:将上一帧图像中的目标物体位置范围CX-1作为当前帧图像中的目标物体位置范围CX;或者根据上一帧图像中的目标物体位置范围,以及之前预定义帧数的图像中的目标物体位置范围,预测当前帧图像中的目标物体位置范围CX。5.根据权利要求1-4中任一项所述的实时视频的目标检测与识别方法,其特征在于,所述目标物体为人手;所述通过第一级神经网络对当前视频帧的图像进行目标物体位置检测,获取当前帧图像中的目标物体位置范围CX包括:识别人手在当前视频帧图像中的位置范围;所述通过第二级神经网络,根据当前帧图像中目标物体的位置范围CX,对当前帧图像进行目标物体识别,得到当前帧图像的目标物体识别结果Rx,包括:对人手进行手势识别,识别结果为手势的姿态。6.一种实时视频的目标检测与识别系统,其特征在于,包括:第一级神经网络,用于对视频帧图像进行目标物体的位置检测,获取目标物体位置范围;第二级神经网络,用于根据目标物体位置范围,在视频帧图像中进行目标物体的识别,得到识别结果;以及神经网络运行控制模块,用于根据过往视频帧图像的目标物体识别结果控制第一神经网络和第二神经网络工作,其中:确定当前视频帧的前...

【专利技术属性】
技术研发人员:程君尚海豹李峰李昊沅左小祥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1