当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度强化学习的行为预测方法及装置制造方法及图纸

技术编号:18399514 阅读:45 留言:0更新日期:2018-07-08 19:49
本发明专利技术公开了一种基于深度强化学习的行为预测方法及装置,其中,方法包括:通过视频图像的帧提取人体骨架信息的动作特征;将动作特征根据人体机构化信息进行特征编码;通过深度强化学习对人体行为过程中有效的部位进行筛选,以预测人的行为。该方法通过在人体的重要位置提取局部图像块,利用图像块的特征的有序排列,从而在预测过程用有效地利用人体的结构化信息,有效地提升了行为预测的精度和性能。

【技术实现步骤摘要】
基于深度强化学习的行为预测方法及装置
本专利技术涉及模式识别
,特别涉及一种基于深度强化学习的行为预测方法及装置。
技术介绍
对于人的行为分析已经在计算机视觉领域种得到了广泛的引用。作为行为分析的一个重要的分支,预测人的行为在实际中表现出了非常重要的应用,例如视频检测,异常行为检测和机器人交互。尽管在该领域中已经有很多工作,但是行为预测这个任务仍然是非常具有挑战性的任务。由于每个人的行为存在巨大的差异并且每个动作在时间和空间上存在明显的不同,因此行为预测的仍然存在巨大的困难。从一个完整的视频中识别动作通常是一件非常困难的事。例如,预测一个正要倒下的人能够尽早地救援他。于行为识别不同,行为预测的目的是充分利用观测到的部分视频,尽早地预测行为。行为预测的定义为在行为尚未完成的时候,通过部分观测的视频或序列推断正在进行的行为。基于部分观测的视频从空域和时域两个部分对正在实施的行为进行预测,关键是对实施的过程进行建模。相关技术中的大部分针对行为预测的工作可以分为主要的两大类:一类是通过模板匹配利用可靠的特征;另一类是开发分类模型。其中,第一类方法目标是设计一种基于模板的模型进行预测。然而,这种模板很容易被离群的样本影响,并且当实施的行为存在较大的姿态差异时,这类方法的性能通常会不理想。第二类方法致力于开发行为的时域特性,同时预测的准确性会随着观测的帧数增加而增加。然而,大多数现有的方法提取的是每一帧的全局特性从而利用时域信息。这类方法忽略了人体的必要的结构化信息。此外,全局特征的鉴别能力会被来自背景的噪声严重影响,如图1所示,从整帧提取传统特征的过程中会同时捕获噪声,有待解决。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于深度强化学习的行为预测方法,该方法可以有效地提升了行为预测的精度和性能。本专利技术的另一个目的在于提出一种基于深度强化学习的行为预测装置。为达到上述目的,本专利技术一方面实施例提出了一种基于深度强化学习的行为预测方法,包括以下步骤:通过视频图像的帧提取人体骨架信息的动作特征;将所述动作特征根据人体机构化信息进行特征编码;通过深度强化学习对人体行为过程中有效的部位进行筛选,以预测人的行为。本专利技术实施例的基于深度强化学习的行为预测方法,在特征提取阶段,通过人体的骨架对人体关键部位的局部特征进行提取,从而有效地抑制背景噪声,提高特征提取的效率和效果;然后,在特征编码阶段,通过按照人体骨架的顺序进行有效地排列,从而对人体不同部位的特征进行有序地编码,从而使编码后的特征包含人体的结构化信息;最后,在行为的表达阶段,通过深度强化学习的方法,针对不同的行为筛选不同的部位的特征作为动作的有效表达,有效提升行为预测的性能。另外,根据本专利技术上述实施例的基于深度强化学习的行为预测方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述通过视频图像的帧提取人体骨架信息的局部特征,进一步包括:通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取;在每一个关节点上选取备选框,以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。进一步地,在本专利技术的一个实施例中,所述根据人体机构化信息进行特征编码,进一步包括:将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示;针对每一个部位进行时域的池化,以得到动作表示;将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。进一步地,在本专利技术的一个实施例中,所述通过深度强化学习进行人体行为表达,进一步包括:将所述动作特征作为出示状态,并根据当前额状态确定当前所要采取的动作,以通过状态转移方程得到新的状态,直至状态稳定,停止循环。进一步地,在本专利技术的一个实施例中,所述状态转移方程为:其中,为t时刻当前状态,λ为一个常系数用来调整两项之间的关系,为初始状态,为t-1时刻采取的动作,为t-1时刻的状态,ω为视频样本的序号,t为时间刻度。为达到上述目的,本专利技术另一方面实施例提出了一种基于深度强化学习的行为预测装置,包括:提取模块,用于通过视频图像的帧提取人体骨架信息的动作特征;编码模块,用于将所述动作特征根据人体机构化信息进行特征编码;预测模块,用于通过深度强化学习对人体行为过程中有效的部位进行筛选,以预测人的行为。本专利技术实施例的基于深度强化学习的行为预测装置,在特征提取阶段,通过人体的骨架对人体关键部位的局部特征进行提取,从而有效地抑制背景噪声,提高特征提取的效率和效果;然后,在特征编码阶段,通过按照人体骨架的顺序进行有效地排列,从而对人体不同部位的特征进行有序地编码,从而使编码后的特征包含人体的结构化信息;最后,在行为的表达阶段,通过深度强化学习的方法,针对不同的行为筛选不同的部位的特征作为动作的有效表达,有效提升行为预测的性能。另外,根据本专利技术上述实施例的基于深度强化学习的行为预测装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述提取模块,进一步包括:第一提取单元,用于通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取;第二提取单元,用于在每一个关节点上选取备选框,以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。进一步地,在本专利技术的一个实施例中,所述编码模块,进一步包括:第一编码单元,用于将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示;获取单元,用于针对每一个部位进行时域的池化,以得到动作表示;第二编码单元,用于将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。进一步地,在本专利技术的一个实施例中,所述通过深度强化学习进行人体行为表达,进一步包括:将所述动作特征作为出示状态,并根据当前额状态确定当前所要采取的动作,以通过状态转移方程得到新的状态,直至状态稳定,停止循环。进一步地,在本专利技术的一个实施例中,所述状态转移方程为:其中,为t时刻当前状态,λ为一个常系数用来调整两项之间的关系,为初始状态,为t-1时刻采取的动作,为t-1时刻的状态,ω为视频样本的序号,t为时间刻度。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为相关技术中整帧提取传统特征的过程中同时捕获噪声的示意图;图2为根据本专利技术实施例的基于深度强化学习的行为预测方法的流程图;图3为根据本专利技术一个实施例的基于深度强化学习的行为预测方法的流程图;图4为根据本专利技术一个实施例的基于深度强化学习的行为预测方法的原理示意图;图5为根据本专利技术一个实施例的状态转移的过程示意图;图6为根据本专利技术实施例的基于深度强化学习的行为预测装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在介绍本专利技术实施例的基于深度强化学习的行为预测方法及装置之前,先简单介绍下本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的行为预测方法,其特征在于,包括以下步骤:通过视频图像的帧提取人体骨架信息的动作特征;将所述动作特征根据人体机构化信息进行特征编码;以及通过深度强化学习对人体行为过程中有效的部位进行筛选,以预测人的行为。

【技术特征摘要】
1.一种基于深度强化学习的行为预测方法,其特征在于,包括以下步骤:通过视频图像的帧提取人体骨架信息的动作特征;将所述动作特征根据人体机构化信息进行特征编码;以及通过深度强化学习对人体行为过程中有效的部位进行筛选,以预测人的行为。2.根据权利要求1所述的基于深度强化学习的行为预测方法,其特征在于,所述通过视频图像的帧提取人体骨架信息的局部特征,进一步包括:通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取;在每一个关节点上选取备选框,以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。3.根据权利要求1所述的基于深度强化学习的行为预测方法,其特征在于,所述根据人体机构化信息进行特征编码,进一步包括:将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示;针对每一个部位进行时域的池化,以得到动作表示;将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。4.根据权利要求1所述的基于深度强化学习的行为预测方法,其特征在于,所述通过深度强化学习进行人体行为表达,进一步包括:将所述动作特征作为出示状态,并根据当前额状态确定当前所要采取的动作,以通过状态转移方程得到新的状态,直至状态稳定,停止循环。5.根据权利要求4所述的基于深度强化学习的行为预测方法,其特征在于,所述状态转移方程为:其中,为t时刻当前状态,λ为一个常系数用来调整两项之间的关系,为初始状态,为t-1时刻采取的动作,为t-1时刻的状态,ω为视频样本的序号,t为时间刻度。6.一种基于深度强化学习的行为预...

【专利技术属性】
技术研发人员:鲁继文周杰陈磊段岳圻
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1