一种行为识别方法、装置和存储介质制造方法及图纸

技术编号：21004477 阅读：55 留言：0更新日期：2019-04-30 21:37

本发明专利技术公开了一种行为识别方法、装置和存储介质。该方案获取待检测视频，为待检测视频添加多个候选窗；基于特征提取网络，生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图；确定与候选窗内的视频片段匹配的时域尺度，并获取与确定的时域尺度对应的三维特征图，根据获取的三维特征图获取视频片段对应的局部特征图；进而根据局部特征图和预设的行为识别网络进行行为识别，确定视频片段中行为特征对应的行为类别。该方案可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图，使得分类器的感受野能够适应不同时间长度的行为特征，提高了对多种时间跨度的行为识别的精确度。

A Behavior Recognition Method, Device and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
一种行为识别方法、装置和存储介质
本专利技术涉及数据处理
，具体涉及一种行为识别方法、装置和存储介质。
技术介绍
随着计算机智能化需求的不断增长以及模式识别技术、图像处理技术和人工智能技术的快速发展，使用计算机视觉技术对视频内容进行分析有着巨大的实际需求，例如对视频中的人类行为进行检测。现有技术中多是借助神经网络层次化的结构，从训练数据中学习复杂多样的特征模式，从而有效地提取输入视频的特征，进行特定行为的识别。在实际应用中，绝大多数的监控视频和网络视频均为未分割的长视频，而长视频中可能包含多个行为实例，且每个行为实例的时长可能不同，但是，现有的行为识别方案中，一般需要将视频压缩或者扩充为特定帧数的视频片段，采用神经网络从视频片段中提取单一时域尺度的特征对视频行为进行识别，这样会使得神经网络的分类器的感受野只能和特定时长的行为匹配，导致对于时长过长或者过短的行为，识别精确度比较差。
技术实现思路
本专利技术实施例提供一种行为识别方法、装置和存储介质，旨在提高对多种时间跨度的行为识别的精确度。本专利技术实施例提供一种行为识别方法，包括：获取待检测视频，为所述待检测视频添加多个候选窗，其中，每一候选窗对应所述待检测视频的一个视频片段；基于特征提取网络，生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图；确定与所述候选窗内的视频片段匹配的时域尺度，并获取与确定的所述时域尺度对应的所述三维特征图；根据获取的所述三维特征图，获取所述视频片段对应的局部特征图；根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别，确定所述视频片...

【技术保护点】
1.一种行为识别方法，其特征在于，包括：获取待检测视频，为所述待检测视频添加多个候选窗，其中，每一候选窗对应所述待检测视频的一个视频片段；基于特征提取网络，生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图；确定与所述候选窗内的视频片段匹配的时域尺度，并获取与确定的所述时域尺度对应的所述三维特征图；根据获取的所述三维特征图，获取所述视频片段对应的局部特征图；根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别，确定所述视频片段中行为特征对应的行为类别。

【技术特征摘要】
1.一种行为识别方法，其特征在于，包括：获取待检测视频，为所述待检测视频添加多个候选窗，其中，每一候选窗对应所述待检测视频的一个视频片段；基于特征提取网络，生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图；确定与所述候选窗内的视频片段匹配的时域尺度，并获取与确定的所述时域尺度对应的所述三维特征图；根据获取的所述三维特征图，获取所述视频片段对应的局部特征图；根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别，确定所述视频片段中行为特征对应的行为类别。2.如权利要求1所述的行为识别方法，其特征在于，所述特征提取网络为包含多个卷积层的三维卷积神经网络，基于特征提取网络，生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图，包括：将包含所述多个候选窗的所述待检测视频输入所述特征提取网络，依次在所述多个卷积层进行卷积运算；获取最后连续多个卷积层输出的三维特征图，作为所述待检测视频在多个时域尺度上的三维特征图，其中，卷积层的层数越深，时域尺度越大。3.如权利要求2所述的行为识别方法，其特征在于，所述特征提取网络中的卷积层包括二维空间卷积核和一维时域卷积核；所述方法还包括：在所述特征提取网络的卷积层进行卷积运算时，对输入的三维特征图依次使用所述二维空间卷积核和所述一维时域卷积核进行卷积运算。4.如权利要求1所述的行为识别方法，其特征在于，所述特征提取网络为包含多个膨胀卷积层的三维卷积神经网络；基于特征提取网络，生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图，包括：将包含所述多个候选窗的所述待检测视频输入所述特征提取网络，依次在所述多个膨胀卷积层中按照对应的膨胀系数进行卷积运算；获取最后连续多个膨胀卷积层输出的三维特征图，作为所述待检测视频在多个时域尺度上的三维特征图。5.如权利要求1所述的行为识别方法，其特征在于，确定与所述候选窗内的视频片段匹配的时域尺度，并获取与确定的所述时域尺度对应的所述三维特征图，包括：确定所述候选窗内的视频片段包含的视频帧图像的数量；按照所述数量，确定与所述视频片段匹配的时域尺度，并获取与确定的时域尺度对应的三维特征图。6.如权利要求1至5任一项所述的行为识别方法，其特征在于，根据所述局部特征图和预设的行为识别网络对所述候选窗内的视频片段进行行为识别，确定所述视频片段中行为特征对应的行为类别，包括：根据所述局部特征图和预设的时域提名网络，从所述多个候选窗内的视频片段中选择包含行为特征的视频片段，作为提名片段；根据所述提名片段的局部特征图和所述行为识别网络，确定所述提名片段对应的行为类别。7.如权利要求6所述的行为识别方法，其特征在于，所述时域提名网络包括第一全连接层和第二全连接层；根据所述局部特征图和预设的时域提名网络，从所述多个候选窗内的视频片段中选择包含行为特征的视频片段，作为提名片段，包括：根据所述局部特征图和所述第一全连接层，检测所述多个候选窗内的视频片段中是否包含行为特征；将包含行为特征的视频片段作为所述提名片段；从所述多个候选窗内的视频片段中选择包含有行为特征的视频片段，作为提名片段之后，所述方法还包括：在所...

【专利技术属性】
技术研发人员：王吉，陈志博，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人