当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于注意力机制的视频关注时刻检索方法及装置制造方法及图纸

技术编号:21629304 阅读:90 留言:0更新日期:2019-07-17 11:12
本发明专利技术公开了一种基于注意力机制的视频关注时刻检索方法及装置,包接收视频数据和查询信息,将接收的视频数据预分割为时刻片段;根据查询信息提取的查询特征,自适应地为上下文时刻片段提取的时刻特征分配权重,得到每个时刻片段增强的时刻表示特征;分别进行模态内和模态间的特征交互,生成增强的时刻表示特征与查询特征对应的时刻‑查询表示;根据时刻‑查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量,得到与查询信息描述一致的视频片段。

A Video Attention Time Retrieval Method and Device Based on Attention Mechanism

【技术实现步骤摘要】
一种基于注意力机制的视频关注时刻检索方法及装置
本专利技术属于多媒体信息检索的
,尤其是涉及一种基于注意力机制的视频关注时刻检索方法及装置,从视频中检索出用户关注的时刻片段。
技术介绍
目前,从大型视频数据库中搜索感兴趣的视频一直是一个悬而未决的问题。由于该任务只需要通过返回相关视频来回答查询,所以大多数之前的工作将其作为匹配问题,通过估计视频和给定查询之间的相关性得分来判断哪一个候选集中的视频与查询匹配度最高。这种直接的视频查询匹配适用于判断描述查询是否出现在整个视频中,通常这个视频仅描述简单场景。然而,在一些真实场景中,例如机器人导航、自动驾驶和监视场景,未修剪的视频通常包含复杂的场景并涉及大量的对象、属性、动作和交互,而这些复杂场景中只有某些部分场景能传达所需的线索或与给定的查询匹配。比如,对于准备好的长度为几分钟的监控视频,人们可能只对“一位橙色女孩先走过摄像机”这个视频片段感兴趣,其起点和终点分别为24s和30s。因此,与简单地检索整个视频相比,从视频内部检索出感兴趣的时间片段更有用也更具有挑战性。一般来说,视频中的对感兴趣的时间片段进行自动检索需要两个部分,即细粒度的时刻候选片段的定位以及相关性估计。目前存在的主要问题包括以下几个方面:第一,视频中的不同时刻具有不同的持续时间和不同的时空特征;从而揭示潜在的时刻片段已经非常具有挑战性,更不用说时刻片段与查询相关性的估计了。为了生成候选时刻片段,直接的方法是采用不同尺度的滑动窗口进行密集采样。然而,这样的时刻生成方法是受限制的,不仅是昂贵的计算成本,而且还有指数级别的搜索空间。第二,相关性估计是一个典型的跨模式检索问题。直观的可行解决方案是首先将候选时刻的视觉特征和查询的文本特征投影到共同的潜在空间中,然后基于它们的相似性来计算相关性。但是,这样的工作流程忽略了时刻片段和查询内的时空信息。以“橙色女孩第一次走过镜头”为例,“第一次”这个词是相对的,需要时间上下文才能正确理解。综上所述,针对现有技术在进行视频的兴趣时刻片段定位检索中如何提高准确性的问题,以及同时如何解决不同时刻关注的上下文视觉特征整合以及估计时刻片段与查询相关性的问题,尚缺乏有效的解决方案。
技术实现思路
针对现有技术中存在的不足,本专利技术提供了一种基于注意力机制的视频关注时刻检索方法及装置,利用时间记忆注意力网络获得了增强的时刻片段表示特征,并引入一个跨模态融合网络来增强视频片段-查询表示,将时刻-查询特征提供给边界回归模型以预测相关性分数和对应时刻片段的时间偏移量,大幅度提高视频关注时刻检索的准确度。本专利技术的第一目的是提供一种基于注意力机制的视频关注时刻检索方法。为了实现上述目的,本专利技术采用如下一种技术方案:一种基于注意力机制的视频关注时刻检索方法,包括:接收视频数据和查询信息,将接收的视频数据预分割为时刻片段;根据查询信息提取的查询特征,自适应地为上下文时刻片段提取的时刻特征分配权重,得到每个时刻片段增强的时刻表示特征;分别进行模态内和模态间的特征交互,生成增强的时刻表示特征与查询特征对应的时刻-查询表示;根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量,得到与查询信息描述一致的视频片段。作为进一步的优选方案,在本方法中,将查询信息输入记忆注意力网络得到每个时刻片段增强的时刻表示特征的具体步骤包括:提取查询信息的查询特征,提取每个时刻片段的时刻特征;根据查询特征和每个时刻片段的时刻特征,自适应地利用加权得到每一个上下文时刻片段的权值;将上下文时刻片段的权值进行线性加权得到每个时刻片段增强的时刻表示特征。作为进一步的优选方案,在本方法中,输入记忆注意力网络的查询信息为自然语言的文本信息。作为进一步的优选方案,在本方法中,自适应地利用加权得到每一个上下文时刻片段的权值的具体步骤包括:将查询特征、当前时刻片段以及其上下文时刻片段映射到共空间中;在共空间中,将每个时刻片段的时刻特征与其前面所有时刻片段的时刻特征相加,得到拥有记忆信息的时刻特征,并将其与共空间中的查询特征计算相似性;采用归一化得到每一个上下文时刻片段的权值。作为进一步的优选方案,在本方法中,利用跨模态融合网络进行模态内和模态间特征交互以生成时刻-查询表示,具体步骤包括:采用滤波器对每个时刻片段增强的时刻表示特征和查询特征进行均值池化操作;计算均值池化操作后的时刻表示特征和查询特征的张亮积,得到增强的时刻表示特征与查询特征对应的时刻-查询表示。作为进一步的优选方案,在本方法中,所述根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量的具体步骤包括:将时刻-查询表示输入多层感知机模型,得到匹配分数值;根据正样本对数据集和负样本对数据集的损失函数之和,计算匹配损失函数;根据与查询特征对应的时刻片段与待查询时刻片段的真实时间偏置量计算时刻时间偏置量损失函数,将其与匹配损失函数相加得到注意跨模态检索网络模型的训练损失函数。作为进一步的优选方案,在本方法中,利用优化函数求解注意跨模态检索网络模型中的参数。作为进一步的优选方案,在本方法中,所述优化函数为Tensorflow中的AdamOptimizer函数。本专利技术的第二目的是提供一种计算机可读存储介质。为了实现上述目的,本专利技术采用如下一种技术方案:一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于注意力机制的视频关注时刻检索方法。本专利技术的第三目的是提供一种终端设备。为了实现上述目的,本专利技术采用如下一种技术方案:一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于注意力机制的视频关注时刻检索方法。本专利技术的有益效果:1、本专利技术所述的一种基于注意力机制的视频关注时刻检索方法及装置,将记忆注意力网络模型和跨模态融合网络模型整合为基于注意力机制的跨模态检索网络模型,基于注意力机制的跨模态检索网络模型来提取每一个时刻片段,并同时刻画了值得注意的上下文视觉特征以及跨模态特征。2、本专利技术所述的一种基于注意力机制的视频关注时刻检索方法及装置,引入时间记忆关注网络来记忆每个时刻的上下文信息,并将自然语言查询作为关注网络的输入自适应地为不同时刻片段表示分配权重,精确的使用自然语言定位视频中的时刻。3、本专利技术所述的一种基于注意力机制的视频关注时刻检索方法及装置,利用时间记忆注意力网络获得了增强的时刻片段表示特征,并引入一个跨模态融合网络来增强视频片段-查询表示,将时刻-查询特征提供给边界回归模型以预测相关性分数和对应时刻片段的时间偏移量,大幅度提高视频关注时刻检索的准确度。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1是本专利技术的方法流程图;图2是本专利技术实施例1的视频片段示意图;图3是本专利技术实施例1的方法流程图;图4是本专利技术实施例1的记忆注意力网络模型示意图;图5是本专利技术实施例1的跨模态融合网络模型示意图。具体实施方式:下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的视频关注时刻检索方法,其特征在于,包括:接收视频数据和查询信息,将接收的视频数据预分割为时刻片段;根据查询信息提取的查询特征,自适应地为上下文时刻片段提取的时刻特征分配权重,得到每个时刻片段增强的时刻表示特征;分别进行模态内和模态间的特征交互,生成增强的时刻表示特征与查询特征对应的时刻‑查询表示;根据时刻‑查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量,得到与查询信息描述一致的视频片段。

【技术特征摘要】
1.一种基于注意力机制的视频关注时刻检索方法,其特征在于,包括:接收视频数据和查询信息,将接收的视频数据预分割为时刻片段;根据查询信息提取的查询特征,自适应地为上下文时刻片段提取的时刻特征分配权重,得到每个时刻片段增强的时刻表示特征;分别进行模态内和模态间的特征交互,生成增强的时刻表示特征与查询特征对应的时刻-查询表示;根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量,得到与查询信息描述一致的视频片段。2.如权利要求1所述的方法,其特征在于,在本方法中,将查询信息输入记忆注意力网络得到每个时刻片段增强的时刻表示特征的具体步骤包括:提取查询信息的查询特征,提取每个时刻片段的时刻特征;根据查询特征和每个时刻片段的时刻特征,自适应地利用加权得到每一个上下文时刻片段的权值;将上下文时刻片段的权值进行线性加权得到每个时刻片段增强的时刻表示特征。3.如权利要求2所述的方法,其特征在于,在本方法中,输入记忆注意力网络的查询信息为自然语言的文本信息。4.如权利要求1所述的方法,其特征在于,在本方法中,自适应地利用加权得到每一个上下文时刻片段的权值的具体步骤包括:将查询特征、当前时刻片段以及其上下文时刻片段映射到共空间中;在共空间中,将每个时刻片段的时刻特征与其前面所有时刻片段的时刻特征相加,得到拥有记忆信息的时刻特征,并将其与共空间中的查询特征计算相似性;采用归一化得到每一个上下文时刻片段的权值。5.如权利要求1所...

【专利技术属性】
技术研发人员:刘萌聂礼强王翔宋雪萌甘甜陈宝权
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1