【技术实现步骤摘要】
基于网络结构搜索和背景
‑
动作增强的弱监督行为检测方法和装置
[0001]本专利技术属于视频理解领域,涉及视频行为识别和检测技术,具体涉及一种基于网络结构搜索和背景
‑
动作增强的弱监督行为检测方法和装置。
技术介绍
[0002]视频理解指利用计算机视觉分析等视频建模方法,理解视频中发生的事件或行为。随着信息、存储技术的发展,视频逐渐成为目前社会中最大的信息载体之一,现实生活中产生了多种多样的视频理解需求。行为识别是视频理解领域的一项基础技术,通常致力于对经过人工裁剪好的视频片段进行动作分类。然而,现实世界的视频大多以未经裁剪的形式存在,语义信息丰富且数据量巨大,手工裁剪视频进行视频理解任务已经越来越难以满足实际需求,这对网络和信息安全构成了极大威胁。因此,学术界和工业领域开始将注意力放在时序行为检测的任务上,也就是在定位长视频中动作实例边界的同时确定各段动作的动作类别。这一研究能够帮助人们快速定位视频中的关键内容,并可以应用到异常行为检测、智能视频监控、视频检索等领域。
[0003 ...
【技术保护点】
【技术特征摘要】
1.一种基于网络结构搜索和背景
‑
动作增强的弱监督行为检测方法,其步骤包括:1)提取目标视频的视频特征;2)对预定义的自注意力模块进行网络结构搜索,构建优化自注意力模块,并将视频特征输入优化自注意力模块,计算基于局部
‑
全局信息的自注意力权重向量;3)利用自注意力权重向量对视频特征进行加权融合,得到视频特征向量,并基于视频特征向量进行分类,获取视频分类结果;4)根据自注意力权重向量与视频分类结果,进行时序类别激活映射计算,以获取行为检测结果。2.如权利要求1所述的方法,其特征在于,视频特征包括:RGB特征与光流特征。3.如权利要求1所述的方法,其特征在于,提取视频特征之前,对视频进行预处理,其中预处理包括:对视频的图片进行统一裁剪操作;所述统一剪裁操作包括:center cropped操作。4.如权利要求1所述的方法,其特征在于,提取RGB特征与光流特征的方法包括:使用I3D网络、使用C3D网络、使用TSN网络或使用TSP网络。5.如权利要求1所述的方法,其特征在于,通过以下步骤构建优化自注意力模块:1)预定义搜索空间,其中预定义搜索空间的时序操作包括:标...
【专利技术属性】
技术研发人员:张晓宇,张亚如,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。