【技术实现步骤摘要】
一种基于图神经网络的密集事件描述方法
本专利技术涉及视频描述
,具体为一种基于图神经网络的密集事件描述方法。
技术介绍
视频描述是将视频中的信息内容用语言进行描述,主要针对视频中发生的一件事进行文字表述,而密集事件描述是在此基础上对视频中发生的多个事件进行划分并分别进行描述,该研究领域是将计算机视觉与自然语言处理相结合的一个研究方向,是具有现实意义和研究价值的研究方向,现有技术能够将视频用文字描述但无法确定其具体发生时间,也并未考虑视频时序上的问题,本专利技术则希望获取较为精确的事件发生时间以及准确的语言描述,可得到视频中不同事件发生的起始、终止时间及事件描述。针对视频特征提取问题,与图像不同,视频具有时序意义,虽然已经出现3D卷积等提取带有时序信息的特征,但提取效果仍然不够好。针对密集事件描述的时间划分问题最常见的方法是动作概率分布曲线,将事件提案划分拆分为两个阶段,首先通过单帧图像分析得到当前时间点是否为动作的概率估计,应用在整个视频帧序列上则可得到横坐标对应视频时长方向的动作概率分布曲线,然后从高概率的区 ...
【技术保护点】
1.一种基于图神经网络的密集事件描述方法,其特征在于,具体包括以下步骤:/n(1)将待分析的视频分组,利用光流法、3D卷积网络和2D卷积网络分别对每组视频数据提取特征,其中,光流法提取视频动作特征,3D卷积网络提取视频视觉特征,2D卷积网络提取密集事件描述关注对象的特征及对象类别;/n(2)为获取视频中对象间的关系,对每组视频数据中提取的视频对象建立空间图,空间图是用图的形式表示目标对象之间的关系,一组视频数据对应一个空间图,一个空间图由一个邻接矩阵和一个特征矩阵表示,邻接矩阵用于表示空间图中的任意两个对象之间是否存在关系,特征矩阵由空间图中所有节点的特征组成,节点即对象; ...
【技术特征摘要】
1.一种基于图神经网络的密集事件描述方法,其特征在于,具体包括以下步骤:
(1)将待分析的视频分组,利用光流法、3D卷积网络和2D卷积网络分别对每组视频数据提取特征,其中,光流法提取视频动作特征,3D卷积网络提取视频视觉特征,2D卷积网络提取密集事件描述关注对象的特征及对象类别;
(2)为获取视频中对象间的关系,对每组视频数据中提取的视频对象建立空间图,空间图是用图的形式表示目标对象之间的关系,一组视频数据对应一个空间图,一个空间图由一个邻接矩阵和一个特征矩阵表示,邻接矩阵用于表示空间图中的任意两个对象之间是否存在关系,特征矩阵由空间图中所有节点的特征组成,节点即对象;利用图卷积网络对空间图上的所有节点更新,即将特征矩阵更新为包含相邻节点信息的新的特征矩阵;
其中,两个对象之间是否存在关系的判别方法是计算两个对象之间的余弦相似度,大于阈值时认为存在关系,否则不存在关系;
将更新后的对象特征与光流法、3D卷积得到的视频特征拼接为该组的视频数据的长特征;
(3)为使各组长特征带有前后组的信息以便更好地划分事件区域,将步骤(2)得到的各组的长特征按时间顺序输入至LSTM网络,得到各组带有上下文信息的特征,并将所有组的特征按时间顺序拼接为视频特征;
(4)采用锚边框对视频特征进行检测,划分为不同事件的候选时间区域,其中,锚边框是事先固定好的不同大小的窗口,将锚边框按不同起始时间滑动获取多个候选时间区域;
(5)提取每个候选时间区域视频特征,通过两层卷积层预测每个候选时间区域包含密集事件的分数,采用非极大值抑制筛选时间区域,将所有的候选时间区域按照分数从大到小的顺序进行排列,计算分数最高的候选时间区域与其余候选时间区域的交并比(IoU),删除IoU大于第一阈值,且概率分数小于第二阈值的时间区域,剩余的时间区域即为该视频中发生事件的时间区域,每...
【专利技术属性】
技术研发人员:任柯燕,钱欣艳,岳天一,张淳,张文济,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。