一种行为识别方法、装置和存储介质制造方法及图纸

技术编号:21004477 阅读:55 留言:0更新日期:2019-04-30 21:37
本发明专利技术公开了一种行为识别方法、装置和存储介质。该方案获取待检测视频,为待检测视频添加多个候选窗;基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图;确定与候选窗内的视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图,根据获取的三维特征图获取视频片段对应的局部特征图;进而根据局部特征图和预设的行为识别网络进行行为识别,确定视频片段中行为特征对应的行为类别。该方案可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,使得分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别的精确度。

A Behavior Recognition Method, Device and Storage Media

【技术实现步骤摘要】
一种行为识别方法、装置和存储介质
本专利技术涉及数据处理
,具体涉及一种行为识别方法、装置和存储介质。
技术介绍
随着计算机智能化需求的不断增长以及模式识别技术、图像处理技术和人工智能技术的快速发展,使用计算机视觉技术对视频内容进行分析有着巨大的实际需求,例如对视频中的人类行为进行检测。现有技术中多是借助神经网络层次化的结构,从训练数据中学习复杂多样的特征模式,从而有效地提取输入视频的特征,进行特定行为的识别。在实际应用中,绝大多数的监控视频和网络视频均为未分割的长视频,而长视频中可能包含多个行为实例,且每个行为实例的时长可能不同,但是,现有的行为识别方案中,一般需要将视频压缩或者扩充为特定帧数的视频片段,采用神经网络从视频片段中提取单一时域尺度的特征对视频行为进行识别,这样会使得神经网络的分类器的感受野只能和特定时长的行为匹配,导致对于时长过长或者过短的行为,识别精确度比较差。
技术实现思路
本专利技术实施例提供一种行为识别方法、装置和存储介质,旨在提高对多种时间跨度的行为识别的精确度。本专利技术实施例提供一种行为识别方法,包括:获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。本专利技术实施例还提供一种行为识别检测装置,包括:视频获取单元,用于获取待检测视频;视频加窗单元,用于为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;特征获取单元,用于基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;尺度匹配单元,用于确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;特征选择单元,用于根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;行为识别单元,用于根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。本专利技术实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本专利技术实施例所提供的任一行为识别方法中的步骤。本专利技术实施例获取待检测视频,为待检测视频添加多个候选窗,每一个候选窗对应待检测视频的一个视频片段,然后,基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图,其中,时域尺度越大,三维特征图中的特征对应的时长也越长,确定与候选窗内的视频片段匹配的时域尺度以及获取确定的时域尺度对应的三维特征图,根据获取的三维特征图获取视频片段对应的局部特征图,若候选窗内视频片段的长度较小,则可以选择时域尺度小的三维特征图提取局部特征图,反之,则选择时域尺度大的三维特征图提取局部特征图,提取到每一候选窗内的视频片段的局部特征图后,根据局部特征图和预设的行为识别网络对候选窗内的视频片段进行行为识别,确定视频片段中行为特征对应的行为类别。该方案能够对待检测视频中多种时长的行为进行识别,即使一段视频中包含有多个时长不同的行为,也可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,使得分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别的精确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的信息交互系统的场景示意图;图1b是本专利技术实施例提供的行为识别方法的第一流程示意图;图1c是本专利技术实施例提供的特征提取网络结构示意图;图1d是本专利技术实施例提供的空间域和时域分离的特征提取网络的卷积核示意图;图1e是本专利技术实施例提供的行为识别方法的第一种网络结构示意图;图1f是本专利技术实施例提供的行为识别方法的第二种网络结构示意图;图1g是本专利技术实施例提供的插值操作示意图;图1h是本专利技术实施例提供的行为识别方法的第三种网络结构示意图;图1i是本专利技术实施例提供的行为识别方法的第四种网络结构示意图;图1j是本专利技术实施例提供的网络训练流程示意图;图1k是本专利技术实施例提供的网络另一训练流程示意图;图2a是本专利技术实施例提供的行为识别应用场景流程图;图2b是本专利技术实施例提供的行为识别应用场景示意图;图3a是本专利技术实施例提供的行为识别装置的第一种结构示意图;图3b是本专利技术实施例提供的行为识别装置的第二种结构示意图;图3c是本专利技术实施例提供的行为识别装置的第三种结构示意图;图3d是本专利技术实施例提供的行为识别装置的第四种结构示意图;图4是本专利技术实施例提供的服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种行为识别方法、装置和存储介质。本专利技术实施例还提供一种信息交互系统,该系统包括本专利技术实施例提供的任一行为识别装置,该行为识别装置具体可以集成在网络设备中,如终端或服务器等设备中;此外,该系统还可以包括其他设备,例如,视频采集设备或终端等,终端可以是手机、平板电脑或者个人计算机等,用于上传待检测视频至网络设备。参考图1a,本专利技术实施例提供一种信息交互系统,该系统包括视频采集设备和行为识别装置;行为识别装置和视频采集设备通过无线网络或者有线网络连接,行为识别装置接收视频采集设备发送的待检测视频,行为识别装置获取待检测视频,为待检测视频添加多个候选窗,每一候选窗对应待检测视频的一个视频片段;基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图;然后,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图,从确定的三维特征图上截取视频片段对应的局部特征图;接下来,根据局部特征图和预设的行为识别网络对候选窗内的视频片段进行行为识别,确定视频片段中行为特征对应的行为类别。由此,通过特征提取网络可以提取一段长视频中的多个时域尺度上的三维特征图,为候选窗内的视频片段选择匹配的时域尺度及对应的三维特征图,进而在该三维特征图中提取局部特征图,根据局部特征图和行为识别网络进行行为识别,确定视频片段中行为特征对应的行为类别。本方案可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,对于时长较短的视频片段,可以获取时域尺度小的局部特征图,对于时长较长的视频片段,可以选择时域尺度大的局部特征图,使得行为识别网络中分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别本文档来自技高网...

【技术保护点】
1.一种行为识别方法,其特征在于,包括:获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

【技术特征摘要】
1.一种行为识别方法,其特征在于,包括:获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。2.如权利要求1所述的行为识别方法,其特征在于,所述特征提取网络为包含多个卷积层的三维卷积神经网络,基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图,包括:将包含所述多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个卷积层进行卷积运算;获取最后连续多个卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图,其中,卷积层的层数越深,时域尺度越大。3.如权利要求2所述的行为识别方法,其特征在于,所述特征提取网络中的卷积层包括二维空间卷积核和一维时域卷积核;所述方法还包括:在所述特征提取网络的卷积层进行卷积运算时,对输入的三维特征图依次使用所述二维空间卷积核和所述一维时域卷积核进行卷积运算。4.如权利要求1所述的行为识别方法,其特征在于,所述特征提取网络为包含多个膨胀卷积层的三维卷积神经网络;基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图,包括:将包含所述多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个膨胀卷积层中按照对应的膨胀系数进行卷积运算;获取最后连续多个膨胀卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图。5.如权利要求1所述的行为识别方法,其特征在于,确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图,包括:确定所述候选窗内的视频片段包含的视频帧图像的数量;按照所述数量,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图。6.如权利要求1至5任一项所述的行为识别方法,其特征在于,根据所述局部特征图和预设的行为识别网络对所述候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别,包括:根据所述局部特征图和预设的时域提名网络,从所述多个候选窗内的视频片段中选择包含行为特征的视频片段,作为提名片段;根据所述提名片段的局部特征图和所述行为识别网络,确定所述提名片段对应的行为类别。7.如权利要求6所述的行为识别方法,其特征在于,所述时域提名网络包括第一全连接层和第二全连接层;根据所述局部特征图和预设的时域提名网络,从所述多个候选窗内的视频片段中选择包含行为特征的视频片段,作为提名片段,包括:根据所述局部特征图和所述第一全连接层,检测所述多个候选窗内的视频片段中是否包含行为特征;将包含行为特征的视频片段作为所述提名片段;从所述多个候选窗内的视频片段中选择包含有行为特征的视频片段,作为提名片段之后,所述方法还包括:在所...

【专利技术属性】
技术研发人员:王吉陈志博
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1