一种行为识别方法、装置及终端设备制造方法及图纸

技术编号:22974966 阅读:14 留言:0更新日期:2019-12-31 23:31
本发明专利技术适用于行为识别领域,提供了一种行为识别方法、装置及终端设备,通过获取待检测行为的RGB视频流和深度视频流,再基于视频帧的排序关系对两者进行双向压缩排序,再将进行双向压缩排序的得到RGB视频流对应的图像和深度视频对应的图像分别输入至第一卷积神经网络和第二卷积神经网络中得到对应的行为预测结果,再根据该行为预测结果确定所述待检测行为的最终行为预测结果,通过根据双向压缩排序得到的行为预测结果确定最终行为预测结果,克服了对RGB视频流和深度视频流序列学习过程中的局部性和片面性,通过两者的互补性很好地避免了单一模态因受到外在因素而导致的行为识别不准确的问题,极大地提高了行为识别的准确率。

A behavior recognition method, device and terminal equipment

【技术实现步骤摘要】
一种行为识别方法、装置及终端设备
本专利技术属于行为识别
,尤其涉及一种行为识别方法、装置及终端设备。
技术介绍
人体行为识别作为计算机视觉的一个重要研究分支,已经广泛应用于视频监控、视频分析、人机交互等方面。目前,人体行为识别的实际应用场景越来越复杂,且对人体行为识别的精度和准确率要求越来越高,传统的手工特征设计方法已经不能满足实际应用中对识别准确度的需求。虽然深度学习方法的出现提高了行为识别的准确度,但对于单一模态(RGB模态或者深度模态),则会因背景杂乱、遮挡摄像头移动和光线变化等外在因素而降低行为识别的准确率,因而,有必要提高单一模态中的行为识别准确率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种行为识别方法、装置及终端设备,以解决现有RGB模态或深度态等单一模态中的行为识别准确率不高的问题。本专利技术实施例的第一方面提供了一种行为识别方法,包括:一种行为识别方法,其特征在于,所述行为识别方法包括:获取待检测行为的视频流,所述待检测行为的视频流包括RGB视频流和深度视频流;基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像;将所述RGB视频流对应的图像输入至第一卷积神经网络进行特征学习,得到所述RGB视频流对应的行为预测结果;将所述深度视频流对应的图像输入至第二卷积神经网络进行特征学习,得到所述深度视频流对应的行为预测结果;基于将所述RGB视频流对应的行为预测结果和所述深度视频流对应的行为预测结果,确定所述待检测行为的最终行为预测结果。本专利技术实施例的第二方面提供了一种行为识别装置,包括:视频流获取单元,用于获取待检测行为的视频流,所述待检测行为的视频流包括RGB视频流和深度视频流;双向压缩排序单元,用于基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像;第一图像输入单元,用于将所述RGB视频流对应的图像输入至第一卷积神经网络进行特征学习,得到所述RGB视频流对应的行为预测结果;第二图像输入单元,用于将所述深度视频流对应的图像输入至第二卷积神经网络进行特征学习,得到所述深度视频流对应的行为预测结果;行为确定单元,用于基于将所述RGB视频流对应的行为预测结果和所述深度视频流对应的行为预测结果,确定所述待检测行为的最终行为预测结果。本专利技术实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本专利技术实施例的第一方面提供的行为识别方法的步骤。其中,所述计算机程序包括:视频流获取单元,用于获取待检测行为的视频流,所述待检测行为的视频流包括RGB视频流和深度视频流;双向压缩排序单元,用于基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像;第一图像输入单元,用于将所述RGB视频流对应的图像输入至第一卷积神经网络进行特征学习,得到所述RGB视频流对应的行为预测结果;第二图像输入单元,用于将所述深度视频流对应的图像输入至第二卷积神经网络进行特征学习,得到所述深度视频流对应的行为预测结果;行为确定单元,用于基于将所述RGB视频流对应的行为预测结果和所述深度视频流对应的行为预测结果,确定所述待检测行为的最终行为预测结果。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现本专利技术实施例的第一方面提供的行为识别方法的步骤。其中,所述计算机程序包括:视频流获取单元,用于获取待检测行为的视频流,所述待检测行为的视频流包括RGB视频流和深度视频流;双向压缩排序单元,用于基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像;第一图像输入单元,用于将所述RGB视频流对应的图像输入至第一卷积神经网络进行特征学习,得到所述RGB视频流对应的行为预测结果;第二图像输入单元,用于将所述深度视频流对应的图像输入至第二卷积神经网络进行特征学习,得到所述深度视频流对应的行为预测结果;行为确定单元,用于基于将所述RGB视频流对应的行为预测结果和所述深度视频流对应的行为预测结果,确定所述待检测行为的最终行为预测结果。本专利技术实施例与现有技术相比存在的有益效果是:通过获取待检测行为的RGB视频流和深度视频流,再基于视频帧的排序关系对两者进行双向压缩排序,再将进行双向压缩排序的得到RGB视频流对应的图像和深度视频对应的图像分别输入至第一卷积神经网络和第二卷积神经网络中得到对应的行为预测结果,再根据该行为预测结果确定所述待检测行为的最终行为预测结果,通过根据双向压缩排序得到的行为预测结果确定最终行为预测结果,克服了对RGB视频流和深度视频流序列学习过程中的局部性和片面性,通过两者的互补性很好地避免了单一模态因受到外在因素而导致的行为识别不准确的问题,极大地提高了行为识别的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种行为识别方法的实现流程图;图2是本专利技术实施例提供的一种进行双向压缩排序后得到的四帧图像的示意图,其中,图2(a)表示第一前向压缩图像,图2(b)表示第一反向压缩图像,图2(c)表示第二前向压缩图像,图2(d)表示第二反向压缩图像;图3是本专利技术实施例提供的一种对RGB视频进行前向压缩排序的方法的具体实现流程图;图4是本专利技术实施例提供的一种对RGB视频进行反向压缩排序的方法的具体实现流程图;图5是本专利技术实施例提供的一种行为识别装置的示意图;图6是本专利技术实施例提供的一种终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本文档来自技高网...

【技术保护点】
1.一种行为识别方法,其特征在于,所述行为识别方法包括:/n获取待检测行为的视频流,所述待检测行为的视频流包括RGB视频流和深度视频流;/n基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像;/n将所述RGB视频流对应的图像输入至第一卷积神经网络进行特征学习,得到所述RGB视频流对应的行为预测结果;/n将所述深度视频流对应的图像输入至第二卷积神经网络进行特征学习,得到所述深度视频流对应的行为预测结果;/n基于将所述RGB视频流对应的行为预测结果和所述深度视频流对应的行为预测结果,确定所述待检测行为的最终行为预测结果。/n

【技术特征摘要】
1.一种行为识别方法,其特征在于,所述行为识别方法包括:
获取待检测行为的视频流,所述待检测行为的视频流包括RGB视频流和深度视频流;
基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像;
将所述RGB视频流对应的图像输入至第一卷积神经网络进行特征学习,得到所述RGB视频流对应的行为预测结果;
将所述深度视频流对应的图像输入至第二卷积神经网络进行特征学习,得到所述深度视频流对应的行为预测结果;
基于将所述RGB视频流对应的行为预测结果和所述深度视频流对应的行为预测结果,确定所述待检测行为的最终行为预测结果。


2.如权利要求1所述的行为识别方法,其特征在于,所述双向压缩排序包括前向压缩排序和反向压缩排序,所述前向压缩排序为按照视频流的正向时间顺序对视频流中的所有视频帧进行压缩排序,所述反向压缩排序为按照视频流的反向时间顺序对视频流中的所有视频帧进行压缩排序。


3.如权利要求2所述的行为识别方法,其特征在于,所述基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像的步骤,包括:
对所述RGB视频流进行前向压缩排序,得到所述RGB视频流对应的一张图像,即第一前向压缩图像;
对所述RGB视频流进行反向压缩排序,得到所述RGB视频流对应的另一张图像,即第一反向压缩图像;
对所述深度视频流进行前向压缩排序,得到所述深度视频流对应的一张图像,即第二前向压缩图像;
对所述深度视频流进行反向压缩排序,得到所述深度视频流对应的另一张图像,即第二反向压缩图像。


4.如权利要求3所述的行为识别方法,其特征在于,所述第一前向压缩图像、所述第一反向压缩图像、所述第二前向压缩图像和所述第二反向压缩图像中均包含有所述待检测行为的视频流中的每一帧视频帧的时间维度信息和空间维度信息。


5.如权利要求1所述的行为识别方法,其特征在于,在所述基于视频帧的排序关系,分别对所述RGB视频流和所述深度视频流进行双向压缩排序,得到所述RGB视频流对应的图像和所述深度视频对应的图像的步骤中,包括:
提取视频流中的视频帧的第一特征向量;
按照预设的特征向量计算公式,根据所述第一特征向量计算每个时间节点的第二特征向量;
基于视频帧的排序关系,根据所述第二特征向量和优化求解函数,计算得到若干个第一参数特征向量;
通过预设的映射函数,对若干个所述第一...

【专利技术属性】
技术研发人员:任子良程俊张锲石高向阳
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1