一种视频行为识别方法、装置、存储介质和服务器制造方法及图纸

技术编号:22076656 阅读:27 留言:0更新日期:2019-09-12 14:27
本发明专利技术涉及计算机技术领域,提出一种视频行为识别方法、装置、存储介质和服务器。首先获取待识别视频,从所述待识别视频中提取出多帧视频图像;然后将所述多帧视频图像输入预先训练完成的神经网络模型,以获得该神经网络模型输出的行为识别结果。本发明专利技术在该神经网络模型的结构中添加了以下数据处理逻辑:获取所述多帧视频图像的图像处理数据,该图像处理数据为包含图像全局特征信息的四维矩阵,通过对该四维矩阵进行卷积处理,能够得到包含图像局部特征信息的四维矩阵,然后将该包含图像全局特征信息的四维矩阵和该包含图像局部特征信息的四维矩阵分别平铺后再相乘,从而将视频图像的局部特征与全局特征相结合,能够提高视频行为识别的准确率。

A Video Behavior Recognition Method, Device, Storage Media and Server

【技术实现步骤摘要】
一种视频行为识别方法、装置、存储介质和服务器
本专利技术涉及计算机
,尤其涉及一种视频行为识别方法、装置、存储介质和服务器。
技术介绍
目前,市面上的图片分类技术和基于图片的定位技术较为成熟,但是视频的行为识别无法通过一张图片来完成,而是需要通过连续的多帧视频图像来判断行为种类。例如:判断某个视频中的舞蹈类型是伦巴、恰恰还是广场舞。在对视频行为进行识别时,一般是将视频文件输入预先训练好的神经网络模型中,直接得到该视频文件的行为识别结果。然而,现有的神经网络模型的训练过程仅考虑了视频样本的全局特征,没有考虑相应的局部特征,这导致视频行为识别的准确率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种视频行为识别方法、装置、存储介质和服务器,能够提高视频行为识别的准确率。本专利技术实施例的第一方面,提供了一种视频行为识别方法,包括:获取待识别视频;从所述待识别视频中提取出多帧视频图像;将所述多帧视频图像输入预先训练完成的目标神经网络模型,获得所述目标神经网络模型输出的行为识别结果;其中,所述目标神经网络模型包括第一处理层和第二处理层,所述第一处理层和所述第二处理层为所述目标神经网本文档来自技高网...

【技术保护点】
1.一种视频行为识别方法,其特征在于,包括:获取待识别视频;从所述待识别视频中提取出多帧视频图像;将所述多帧视频图像输入预先训练完成的目标神经网络模型,获得所述目标神经网络模型输出的行为识别结果;其中,所述目标神经网络模型包括第一处理层和第二处理层,所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层,所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理,所述第一处理层和第二处理层之间的处理逻辑如下:获取所述第一处理层输出的四维矩阵格式的第一图像处理数据,所述第一处理层用于接收上一个处理层输出的图像处理数据,对接收到的图像处理数据执行卷积处理,得到所述...

【技术特征摘要】
1.一种视频行为识别方法,其特征在于,包括:获取待识别视频;从所述待识别视频中提取出多帧视频图像;将所述多帧视频图像输入预先训练完成的目标神经网络模型,获得所述目标神经网络模型输出的行为识别结果;其中,所述目标神经网络模型包括第一处理层和第二处理层,所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层,所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理,所述第一处理层和第二处理层之间的处理逻辑如下:获取所述第一处理层输出的四维矩阵格式的第一图像处理数据,所述第一处理层用于接收上一个处理层输出的图像处理数据,对接收到的图像处理数据执行卷积处理,得到所述第一图像处理数据;对所述第一图像处理数据进行矩阵的平铺处理,获得二维矩阵格式的第二图像处理数据;对所述第一图像数据进行卷积处理后,执行矩阵的平铺处理,获得二维矩阵格式的第三图像处理数据;将所述第三图像处理数据和所述第二图像处理数据相乘,获得二维矩阵格式的第四图像处理数据;对所述第四图像处理数据进行矩阵的逆平铺处理,得到四维矩阵格式的第五图像处理数据;将所述第五图像处理数据输入所述第二处理层,所述第二处理层用于对所述第五图像处理数据执行卷积处理,然后将处理后的数据输入下一个处理层。2.根据权利要求1所述的视频行为识别方法,其特征在于,所述对所述第一图像数据进行卷积处理后,执行矩阵的平铺处理,获得二维矩阵格式的第三图像处理数据包括:将所述第一图像处理数据和预先构建的第一卷积矩阵相乘后,执行矩阵的平铺处理,得到二维矩阵格式的第六图像处理数据;将所述第一图像处理数据和预先构建的第二卷积矩阵相乘后,执行矩阵的平铺处理并转置,得到二维矩阵格式的第七图像处理数据,所述第一卷积矩阵和所述第二卷积矩阵均为1*1*1的卷积核,且具有不同的元素值;将所述第六图像处理数据和所述第七图像处理数据相乘,获得二维矩阵格式的所述第三图像处理数据。3.根据权利要求1所述的视频行为识别方法,其特征在于,所述目标神经网络模型为RsesNet101模型,所述第一处理层为RsesNet101模型网络结构第四部分的最后一层处理层,所述第二处理层为RsesNet101模型网络结构第五部分的第一层处理层。4.根据权利要求1所述的视频行为识别方法,其特征在于,所述从所述待识别视频中提取出多帧视频图像包括:将所述待识别视频的分辨率转换为预设的分辨率;根据所述待识别视频的视频长度选取第一数量的时间点;以每个所述时间点为起始点,分别从所述待识别视频中提取连续的多帧视频图像,得到所述第一数量的视频图像组,每个所述视频图像组包括第二数量的视频图像;对所述视频图像组包含的每帧视频图像进行剪切,截取预设区域内的图像;从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像,作为提取到的视频图像。5.根据权利要求4所述的视频行为识别方法,其特征在于,所述获得所述目标神经网络模型输出的行为识别结果包括:通过所述目标神经网络模型分别获得每个所述视频图像组的行为识别结果,获取到的行为识别结果包括各个预设行为的匹配度;计算各个所述视频图像组的行为识别结果的加权平均值,加权的权重根据各个所述视频图像组所对应的所述时间点确定;将所述加权平均值中匹配度最高的行为确定为所述待识别视频的行为识别结果。6.根据权利要求1至5中任一项所述的视频行为识别方法,其特征在于,所述目标神经网络模型通过以下步骤训练得到:采用kinetics数据集训练得到初始神经网络模型;从预先选取的样本视频中提取样本视频图像,所述样本视频的行为识别结果是已知的;将所述样本视频图像输入所述初始神经网络模型,得到样本行为识别结果;将所述样本行为识别结果和所述样本视频的行为识别结果进行比较,并根据比较的结果修正所述初始神经网络模型的参数,重复迭代直至所述样本...

【专利技术属性】
技术研发人员:周俊琨罗郑楠官民许扬
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1