当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于弱监督学习的视频行为定位方法技术

技术编号:26304820 阅读:60 留言:0更新日期:2020-11-10 20:01
本发明专利技术涉及一种基于弱监督学习的视频行为定位方法,建立深度特征增强和选择网络模型并进行训练,将一段待测试视频输入训练后的深度特征增强和选择网络模型,通过训练后的深度特征增强和选择网络模型预测分类分数和得到平均CAS;只检测预测得分大于预先设置好的阈值的CAS;通过线性插值使经过深度特征增强和选择网络模型后的待测视频长度还原为原始长度,然后,对平均CAS进行阈值运算,之后再进行膨胀操作,最后再获取行为实例的开始时间b

【技术实现步骤摘要】
一种基于弱监督学习的视频行为定位方法
本专利技术涉及视频行为定位方法,特别涉及一种基于弱监督学习的视频行为定位
技术介绍
视频行为定位技术,就是对于一个未裁剪视频,通过计算机检测是否和何时发生了特定的行为。具体来说,需要回答三个问题:视频里有行为吗,行为什么时候开始,什么时候结束。在硬设备的快速发展,以及视频数据量爆炸式增长的时代下,传统的方法采用人力去查看视频并分析视频对数据量迅速增长的现在无疑是一件费时费力且效率低下的做法。因此,使用计算机取代传统的人工视频监控、视频分析等工作是当今社会的一个必然趋势。无论是在学术研究还是工业应用,都对视频行为分析的需求越来越高,因为视频中人的行为分析能够在很多场合给社会带来很多便利,减少人力资源的消耗,如:监控摄像头。随着社会经济的发展,监控摄像头普遍存在于各行各业,如商场安防、交通管理以及学校等各个地方,也相对应的生成了难以计数的视频数据。而使用视频行为定位技术,通过对实时数据进行快速地分析,可以有效快捷地监测异常行为并定位异常时间,以避免人力和财力的浪费。如,人为查看摄像头记录容易遗漏异常行为或发现异常行为已经太晚了的情况,而使用带有人工智能的摄像头的商场可以避免上述问题。除此以外,行为定位技术也应用于基于内容的视频检索。由于通讯设备的快速发展,3G、4G和5G相继诞生,使得视频信息传输更加快捷,因此在互联网上视频数据量也在快速增长。因此利用人工智能对小视频和直播视频进行审查或者检索以减少人力资源是社会所需技术。早期,科研人员大多在已裁剪的视频数据上进行行为识别的研究,即通过训练网络将一个未知的已裁剪视频进行分类。目前,对于已裁剪视频的行为识别技术已有了很好地研究成果。然而,在现实场景中所取得的视频数据多为未裁剪视频,且视频内可能包含多个行为实例及背景,使用人力对视频进行裁剪也是一种人力资源的浪费,因此对视频中每个行为进行分类和定位变得尤为重要,视频行为定位问题也随之被提出并研究。视频行为定位技术由于标签的不同,可大致分为全监督行为定位、半监督行为定位与弱监督行为定位等。全监督行为定位需要每个行为实例的分类标签和精确的时间边界注释。半监督行为定位则对部分视频帧标签缺失的情况下进行研究。它们都需要人类对视频帧进行手动标注,这是一项复杂且耗费时间与金钱的工作。而基于弱监督的行为定位技术则大不相同,其在训练过程中仅使用弱监督标签,能进一步地减少人力资源和时间的浪费。弱监督标签种类繁多,有行为列表,单一时间戳,视频级别注释等。不同的帧判别性不同,对于行为分类任务网络倾向于寻找最具有判别性的视频帧,而对于定位任务网络则倾向于找到所有视频帧。在基于弱监督学习的视频行为定位任务中,通常只使用视频级别注释标签进行训练,使得学者们常常会把任务公式化为多实例分类任务,从而面临一个重大的挑战,即网络倾向于学习最具有判别性的视频帧而忽略了其余相关的帧。
技术实现思路
针对现有技术存在的上述问题,本专利技术要解决的技术问题是一种定位准确性高的视频行为定位方法。为解决上述技术问题,本专利技术采用如下技术方案:一种基于弱监督学习的视频行为定位方法,包括如下步骤:S100:建立深度特征增强和选择网络模型并训练:S110:特征提取模块,采集视频片段的特征信息,使用UntrimmedNet采集视频片段的外观和运动特征信息,并储存;令UntrimmedNet是相应的提取到的特征其中D是特征的维数,T表示特征片段数;S120:特征增强和选择模块S121:将S110得到的特征信息作为输入,对输入的特征信息先调整维度大小,使其适合于特征增强和选择模块的嵌入特征;S122:特征增强,对于得到的嵌入特征,通过在它的特征维度上执行融合函数来获得特征分数;S123:基于特征增强生成的特征分数生成三个掩码以增强不同视频片段;S124:选择部分,在三个掩码选择一个掩码与嵌入特征进行元素乘积生成输出特征,其中,称为输出特征,表示被选中的掩码;S130:分类模块,构建两个独立的两个分支,将S124得到输出特征输入到每个时域卷积层中,然后紧跟着softmax层以输出每个分支的分支分数Ai和每个分支的类激活序列CASi;计算两个分支的CAS平均,再沿类别维度应用softmax层,所述CAS平均是指分支分数的平均和类激活序列的平均S140:计算深度特征增强和选择网络模型的总体损失,并采用梯度下降法进行反向传播,更新S110-S130步骤中各个模块的参数,得到训练后的深度特征增强和选择网络模型;S200:时序行为定位,将一段待测试视频输入训练后的深度特征增强和选择网络模型,对于待测试视频产生一组值{bi,ei,c,si},通过训练后的深度特征增强和选择网络模型预测分类分数和得到平均CAS;只检测分类分数大于预先设置好的阈值的CAS;通过线性插值使经过深度特征增强和选择网络模型后的待测视频长度还原为原始长度,然后,对平均CAS进行阈值运算之后再进行膨胀操作,最后再获取行为实例的开始时间bi和结束时间ei,完成定位。作为改进,所述S121中对输入的特征信息调整维度大小的方法为:Femb=max(Wemb*X+bemb,0)(1)其中,表示嵌入特征,d是卷积核的数量,Wemb和bemb分别是卷积核的权重和偏置,X是输入的已提取的特征。作为改进,所述S122中特征增强中,嵌入特征获得特征分数的方法为:其中,表示嵌入第j个片段特征的特征分数。作为改进,所述S123中特征增强中,基于特征增强生产的特征分数生成三个掩码以增强不同视频帧的方法为:1)第一个掩码是擦除掩码:设置阈值tera,然后对于每个像素,通过将大于阈值的像素设置为0,小于阈值的像素设置为1来产生擦除掩码Mera∈RT×1,对于每一个视频,阈值tera值不同,公式如(4):其中,μ是擦除比例因子,表示第i个片段的特征分数,表示第i个片段对应的擦除掩码值;2)第二个掩码是增强掩码:增强掩码是通过对融合分数应用sigmoid激活函数以计算而的,参见公式(5):其中,是增强掩码,包含所有片段的特征分数;3)第三个掩码:将原始掩码设置为第三个掩码,其值均为1。作为改进,所述S124在三个掩码选择一个掩码的方法为:设置选择每个掩码的概率,其中擦除掩码和增强掩码的概率分别为γera和γimp,以及原始掩码的概率是1-γera-γimp,根据每个掩码的概率进行选择。作为改进,所述S130中计算每个分支的分支分数Ai和每个分支的类激活序列CASi的方法为:CASi=softmax(Ai)(7);其中,Ai为每个分支的分支分数,CASi为每个分支的类激活序列,和分别是第i个分支上的改成卷积核权重和改成卷积核偏置,在训练过程中为Fdrop,在预测过程中是Femb,C是行为类别的数量,而C+1表示增加了背景类。<本文档来自技高网
...

【技术保护点】
1.一种基于弱监督学习的视频行为定位方法,其特征在于,包括如下步骤:/nS100:建立深度特征增强和选择网络模型并训练:/nS110:特征提取模块,采集视频片段的特征信息,使用UntrimmedNet采集视频片段的外观和运动特征信息,并储存;/n令UntrimmedNet是相应的提取到的特征

【技术特征摘要】
1.一种基于弱监督学习的视频行为定位方法,其特征在于,包括如下步骤:
S100:建立深度特征增强和选择网络模型并训练:
S110:特征提取模块,采集视频片段的特征信息,使用UntrimmedNet采集视频片段的外观和运动特征信息,并储存;
令UntrimmedNet是相应的提取到的特征其中D是特征的维数,T表示特征片段数;
S120:特征增强和选择模块
S121:将S110得到的特征信息作为输入,对输入的特征信息先调整维度大小,使其适合于特征增强和选择模块的嵌入特征;
S122:特征增强,对于得到的嵌入特征,通过在它的特征维度上执行融合函数来获得特征分数;
S123:基于特征增强生成的特征分数生成三个掩码以增强不同视频片段;
S124:选择部分,在三个掩码选择一个掩码与嵌入特征进行元素乘积生成输出特征,
其中,称为输出特征,表示被选中的掩码;
S130:分类模块,构建两个独立的两个分支,将S124得到输出特征输入到每个时域卷积层中,然后紧跟着softmax层以输出每个分支的分支分数Ai和每个分支的类激活序列CASi;
计算两个分支的CAS平均,再沿类别维度应用softmax层,所述CAS平均是指分支分数的平均和类激活序列的平均
S140:计算深度特征增强和选择网络模型的总体损失,并采用梯度下降法进行反向传播,更新S110-S130步骤中各个模块的参数,得到训练后的深度特征增强和选择网络模型;
S200:时序行为定位,将一段待测试视频输入训练后的深度特征增强和选择网络模型,对于待测试视频产生一组值{bi,ei,c,si},通过训练后的深度特征增强和选择网络模型预测分类分数和得到平均CAS;
只检测分类分数大于预先设置好的阈值的CAS;
通过线性插值使经过深度特征增强和选择网络模型后的待测视频长度还原为原始长度,然后,对平均CAS进行阈值运算之后再进行膨胀操作,最后再获取行为实例的开始时间bi和结束时间ei,完成定位。


2.如权利要求1所述的基于弱监督学习的视频行为定位方法,其特征在于:所述S121中对输入的特征信息调整维度大小的方法为:
Femb=max(Wemb*X+bemb,0)(1)
其中,表示嵌入特征,d是卷积核的数量,Wemb和bemb分别是卷积核的权重和偏置,X是输入的已提取的特征。


3.如权利要求1所述的基于弱监督学习的视频行为定位方法,其特征在于:所述S122中特征增强中,嵌入特征获得特征分数的方法为:



其中,表示嵌入第j个片段特征的特征分数。


4.如权利要求1所述的基于弱...

【专利技术属性】
技术研发人员:葛永新俞佳若陈忠明黄晟张小洪杨丹温浩周翔朱云飞鲁宇董莉娜
申请(专利权)人:重庆大学重庆中科云从科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1