一种实时视频的目标检测与识别方法和系统技术方案

技术编号：21914518 阅读：18 留言：0更新日期：2019-08-21 12:35

本发明专利技术提出了一种用于实时视频的目标检测与识别的方法和系统。方法包括：获取当前视频帧图像中目标物体的位置范围CX，其中，获取所述位置范围CX包括：判断当前视频帧的前一帧图像的目标物体识别结果RX‑1和两帧之前的图像的目标物体识别结果RX‑2是否相同；不相同时，通过第一级神经网络对当前视频帧的图像进行目标物体位置检测，获取当前帧图像中的目标物体位置范围CX；相同时，根据上一帧图像中的目标物体位置范围CX‑1确定当前帧图像中的目标物体位置范围CX；以及通过第二级神经网络，根据位置范围CX，对当前帧图像进行目标物体识别。从而，能够降低用于位置检测的第一级神经网络的运行频率，加快识别速度并降低CPU和内存资源的占用。

A Method and System for Target Detection and Recognition in Real-time Video

全部详细技术资料下载

【技术实现步骤摘要】
一种实时视频的目标检测与识别方法和系统
本专利技术涉及人工智能和图像识别
，尤其涉及一种用于实时视频的目标检测与识别的方法和系统。
技术介绍
随着识别精度地不断提高，用卷积神经网络(CNN)来进行图像识别和分类的方法已逐渐被业界接受。在评价模型或者算法的性能时，则多采用ImageNet(图像网络)数据集作为测试数据集。近年来，各种新的CNN网络结构被不断提出，从2012年的AlexNet(Alex网络)模型，到2014年的VGG(VisualGeometryGroup，视觉几何组)和随后的GoogLeNet(谷歌的LeCun网络)和ResNet(ResidualNetwork，残差网络)模型，CNN在最初的LeNet(LeCun网络)基础上取得了长足进展，ImageNet数据集的最佳定位和分类成绩也在不断刷新。ImageNet大规模视觉识别挑战赛(ILSVRC)的历年成绩中，top-5的错误率从2012年AlexNet的16.4％逐年下降到2015年ResNet的3.57％，在2016年更进一步下降到3％以下。与模型精度的提高向对应的，是网络结构的深度也在不断增加，ILSVRC2012时，AlexNet只有8层，到ILSVRC2015，ResNet网络深度已经达到152层，当前ResNet的层数更是已经可以达到10^3的数量级。虽然比起AlexNet和VGG，GoogLeNet和ResNet的全连接层数和全连接层的节点数量都有所减少，但由于层数的大量增加，总的模型运算量还是远增。在目标定位和分类联合应用的场景(例如，手势识别这样的典型场景)，上述介绍...

【技术保护点】
1.一种用于实时视频的目标检测与识别的方法，其特征在于，包括：获取当前视频帧图像中目标物体的位置范围CX，其中，所述获取当前视频帧图像中目标物体的位置范围CX包括：确定当前视频帧的前一帧图像的目标物体识别结果RX‑1和两帧之前的图像的目标物体识别结果RX‑2是否相同；当两个识别结果RX‑1和RX‑2不相同时，通过第一级神经网络对当前视频帧的图像进行目标物体位置检测，获取当前帧图像中的目标物体位置范围CX；当两个识别结果RX‑1和RX‑2相同时，不经过第一级神经网络，根据上一帧图像中的目标物体位置范围CX‑1确定当前帧图像中的目标物体位置范围CX；以及通过第二级神经网络，根据当前帧图像中目标物体的位置范围CX，对当前帧图像进行目标物体识别，得到当前帧图像的目标物体识别结果Rx。

【技术特征摘要】
1.一种用于实时视频的目标检测与识别的方法，其特征在于，包括：获取当前视频帧图像中目标物体的位置范围CX，其中，所述获取当前视频帧图像中目标物体的位置范围CX包括：确定当前视频帧的前一帧图像的目标物体识别结果RX-1和两帧之前的图像的目标物体识别结果RX-2是否相同；当两个识别结果RX-1和RX-2不相同时，通过第一级神经网络对当前视频帧的图像进行目标物体位置检测，获取当前帧图像中的目标物体位置范围CX；当两个识别结果RX-1和RX-2相同时，不经过第一级神经网络，根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX；以及通过第二级神经网络，根据当前帧图像中目标物体的位置范围CX，对当前帧图像进行目标物体识别，得到当前帧图像的目标物体识别结果Rx。2.根据权利要求1所述的实时视频的目标检测与识别方法，其特征在于，第一级神经网络对当前视频帧的图像进行目标物体位置检测，包括：判断当前帧图像中是否包含目标物体；若当前帧图像包含目标物体，则进一步获取当前帧图像中的目标物体位置范围CX；若当前帧图像不含目标物体，则将判断当前帧图像中是否包含目标物体的间隔设置为每隔预定帧数执行一次，并持续进行判断直至帧图像中包含目标物体。3.根据权利要求1所述的实时视频的目标检测与识别方法，其特征在于，第二级神经网络根据目标物体在当前帧图像中的位置范围CX，对当前帧图像进行目标物体识别，得到识别结果Rx，包括：将目标物体在当前帧图像中的位置范围CX扩展，得到面积增大预定义倍数的扩展位置范围；并在所述扩展位置范围内进行目标物体识别，得到识别结果Rx。4.根据权利要求1所述的实时视频的目标检测与识别方法，其特征在于，根据上一帧图像中的目标物体位置范围CX-1确定当前帧图像中的目标物体位置范围CX，包括：将上一帧图像中的目标物体位置范围CX-1作为当前帧图像中的目标物体位置范围CX；或者根据上一帧图像中的目标物体位置范围，以及之前预定义帧数的图像中的目标物体位置范围，预测当前帧图像中的目标物体位置范围CX。5.根据权利要求1-4中任一项所述的实时视频的目标检测与识别方法，其特征在于，所述目标物体为人手；所述通过第一级神经网络对当前视频帧的图像进行目标物体位置检测，获取当前帧图像中的目标物体位置范围CX包括：识别人手在当前视频帧图像中的位置范围；所述通过第二级神经网络，根据当前帧图像中目标物体的位置范围CX，对当前帧图像进行目标物体识别，得到当前帧图像的目标物体识别结果Rx，包括：对人手进行手势识别，识别结果为手势的姿态。6.一种实时视频的目标检测与识别系统，其特征在于，包括：第一级神经网络，用于对视频帧图像进行目标物体的位置检测，获取目标物体位置范围；第二级神经网络，用于根据目标物体位置范围，在视频帧图像中进行目标物体的识别，得到识别结果；以及神经网络运行控制模块，用于根据过往视频帧图像的目标物体识别结果控制第一神经网络和第二神经网络工作，其中：确定当前视频帧的前...

【专利技术属性】
技术研发人员：程君，尚海豹，李峰，李昊沅，左小祥，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人