基于时序-空间图的跨模态视频时序动作定位方法及系统技术方案

技术编号:32026818 阅读:33 留言:0更新日期:2022-01-22 18:57
本发明专利技术属于数据表示技术领域,提供了基于时序

【技术实现步骤摘要】
基于时序

空间图的跨模态视频时序动作定位方法及系统


[0001]本专利技术属于数据表示
,具体涉及一种基于时序

空间图的跨模态视频时序动作定位方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]互联网技术的飞速发展和影像采集设备的日益普及,致使视频数量呈指数级增长,并且成为当今社会的一种主流媒体形式。面对如此大规模的视频数据,视频时序动作定位已成为视频分析领域的一个热点研究问题,其旨在从给定视频中定位出所有动作的起始和终止时刻,同时对这些动作的类别进行预测。但是,目前的视频时序动作定位方法只能检测和识别预定义集合内的简单动作,如:跑步、跳高和打篮球。随着真实世界中视频所包含的场景越来越复杂,以及其所涉及的对象、属性和行为交互信息越来越多,固定的动作集合无法覆盖真实世界中全部的动作行为。而利用自然语言可以更加灵活地描述视频中的动作行为,且清晰地表达人们定位包含复杂动作行为视频片段的需求。例如:通过“穿红色衣服戴黑色帽子的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于时序

空间图的跨模态视频时序动作定位方法,其特征在于,包括:接收视频数据和自然语言查询信息;基于自然语言查询信息确定自然语言查询特征表示;基于视频数据确定候选视频时序动作片段特征表示;基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。2.如权利要求1所述的基于时序

空间图的跨模态视频时序动作定位方法,其特征在于,所述基于自然语言查询信息确定自然语言查询特征表示,包括:依据自然语言查询信息,获取初始自然语言查询特征表示;利用语义角色标注工具,对自然查询语言描述信息中语义关系进行标注,构成语义角色树;根据语义角色树叶子节点的名词表示,得到中间节点的动词表示;根据语义角色树中间节点的动词表示,得到根节点的自然语言查询信息表示;将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合,得到最终的自然语言查询特征表示。3.如权利要求2所述的基于时序

空间图的跨模态视频时序动作定位方法,其特征在于,所述语义角色树的根节点为自然语言查询信息,叶子节点为自然语言查询信息中的名词信息,中间节点为自然语言查询信息中的动词信息。4.如权利要求2所述的基于时序

空间图的跨模态视频时序动作定位方法,其特征在于,所述将根据语义角色树编码得到的自然语言查询特征表示,包括:对每一个所述中间节点下面连接的叶子节点的名词表示执行平均池化操作,得到新的中间节点的动词表示;将由聚合叶子节点得到的新的中间节点的动词表示与所述中间节点的动词表示进行融合得到增强后的中间节点的动词表示;将所有的增强后的中间节点的动词表示执行平均池化操作,得到增强后的根节点的自然语言查询特征表示。5.如权利要求1所述的基于时序

空间图的跨模态视频时序动作定位方法,其特征在于,所述基于视频数据确定候选视频时序动作片段特征表示,包括:基于所述视频数据,利用时序和空间图网络提取视频单元的表示;根据二维时序矩阵构建视频时序动作片段候选集,并基于视频单元表示得到候选视频时序动作片段的特征表示。6.如权利要求5所述的基于时序

空间图的跨模态视频时序动作定位方法,其特征在于,基于所述视频数据,利用时序和空间图网络提取视频单元的表示,包括:基于所述视频数据提取视频帧序列,对所述视频帧...

【专利技术属性】
技术研发人员:刘萌齐孟津田传发周迪郭杰马玉玲刘新锋
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1