行为识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28037615 阅读:20 留言:0更新日期:2021-04-09 23:20
本申请实施例涉及计算机视觉技术领域,提供了一种行为识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别视频的图像序列;将图像序列输入至行为识别模型,得到行为识别模型输出的行为识别结果;行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的;其中,行为识别模型用于构建图像序列中各帧图像的场景图,对各帧图像的场景图转换所得的文本进行行为识别,并将文本识别结果与图像识别结果和光流识别结果相结合,图像识别结果和光流识别结果是对图像序列进行行为识别得到的。本申请提供的方法、装置、电子设备和存储介质,增强了行为识别模型的可读性和可解释性,有助于提高行为识别的鲁棒性。

【技术实现步骤摘要】
行为识别方法、装置、电子设备和存储介质
本申请涉及计算机视觉
,尤其涉及一种行为识别方法、装置、电子设备和存储介质。
技术介绍
随着计算机处理能力的增强,基于视频的行为识别技术应运而生,并且在视频监控、机器人等领域具有广阔的应用前景。当前,基于视频的行为识别方法大多基于深度神经网络实现。虽然深度神经网络的应用能够在某些场景下提升行为识别的准确性,但是深度神经网络的黑盒子属性导致了信息被抽象处理的原理无法明确,基于深度神经网络训练所得的行为识别模型本身不具备可解释性,行为识别的可靠性差。
技术实现思路
本申请提供一种行为识别方法、装置、电子设备和存储介质,以实现可解释的、高可靠性的行为识别。本申请提供一种行为识别方法,包括:确定待识别视频的图像序列;将所述图像序列输入至行为识别模型,得到所述行为识别模型输出的行为识别结果;所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的;其中,所述行为识别模型用于构建所述图像序列中各帧图像的场景图,对各帧图像的场景图转换所得本文档来自技高网...

【技术保护点】
1.一种行为识别方法,其特征在于,包括:/n确定待识别视频的图像序列;/n将所述图像序列输入至行为识别模型,得到所述行为识别模型输出的行为识别结果;所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的;/n其中,所述行为识别模型用于构建所述图像序列中各帧图像的场景图,对各帧图像的场景图转换所得的文本进行行为识别,并将文本识别结果与图像识别结果和光流识别结果相结合,所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的。/n

【技术特征摘要】
1.一种行为识别方法,其特征在于,包括:
确定待识别视频的图像序列;
将所述图像序列输入至行为识别模型,得到所述行为识别模型输出的行为识别结果;所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的;
其中,所述行为识别模型用于构建所述图像序列中各帧图像的场景图,对各帧图像的场景图转换所得的文本进行行为识别,并将文本识别结果与图像识别结果和光流识别结果相结合,所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的。


2.根据权利要求1所述的行为识别方法,其特征在于,所述将所述图像序列输入至行为识别模型,得到所述行为识别模型输出的行为识别结果,包括:
将所述图像序列输入至所述行为识别模型的场景图构建层,得到所述场景图构建层输出的各帧图像的场景图;
将所述各帧图像的场景图输入至所述行为识别模型的文本识别层,得到所述文本识别层输出的所述文本识别结果;
将所述图像序列输入至所述行为识别模型的图像识别层,得到所述图像识别层输出的图像识别结果;
将所述图像序列输入至所述行为识别模型的光流识别层,得到所述光流识别层输出的光流识别结果;
将所述文本识别结果、所述图像识别结果和所述光流识别结果输入至所述行为识别模型的融合层,得到所述融合层输出的所述行为识别结果。


3.根据权利要求2所述的行为识别方法,其特征在于,所述将所述图像序列输入至所述行为识别模型的场景图构建层,得到所述场景图构建层输出的各帧图像的场景图,包括:
将所述图像序列中的各帧图像分别输入至所述场景图构建层的实体检测层,得到所述实体检测层输出的各帧图像包含实体的区域图像和类型;
将各帧图像包含实体的区域图像分别输入至所述场景图构建层的关系预测层,得到所述关系预测层输出的各帧图像包含实体之间的关系;
将各帧图像包含实体的类型,以及各帧图像包含实体之间的关系输入至所述场景图构建层的场景图输出层,得到所述场景图输出层输出的各帧图像的场景图。


4.根据权利要求2所述的行为识别方法,其特征在于,所述将所述各帧图像的场景图输入至所述行为识别模型的文本识别层,得到所述文本识别层输出的所述文本识别结果,包括:
将各帧图像的场景图输入至所述文本识别层的转换层,得到所述转换层输出的各场景图的场景文本;
将各场景图的场景文本拼接所得的文本序列输入至所述文本识别层的分类层,得到所述分类层输出的所述文本识别结果。


5.根据权利要求4所述的行为识别方法,其特征在于,所述文本序列是根据各场景图对应图像在图像序列中的时序,对各场景图的场景文本进行拼接得到的。


6.根据权利要求2所述的行为识别方法,其特征在于,所述行为识别模型的训练方法包括:
基于所述样本图像序列,以及所述样本图像序列中各帧样本图像的样本场景图,训练得到场景图构建模型;
基于所述样本图像序列中各帧样本图像的样本场景图,以及所述样本图像序列的样本行为识别结果,训练得到文本识别模型;
基于所述场景图构建模型和所述文本识别模型的参数,对行为识别模型进行参数初始化,基于所述样本图像序列和样本行为识别结果对参数初始化后的行为识别模型进行训练。

...

【专利技术属性】
技术研发人员:陈海波曹东
申请(专利权)人:深兰科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1