一种基于注意力机制的视频关注时刻检索方法及装置制造方法及图纸

技术编号：21629304 阅读：90 留言：0更新日期：2019-07-17 11:12

本发明专利技术公开了一种基于注意力机制的视频关注时刻检索方法及装置，包接收视频数据和查询信息，将接收的视频数据预分割为时刻片段；根据查询信息提取的查询特征，自适应地为上下文时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；分别进行模态内和模态间的特征交互，生成增强的时刻表示特征与查询特征对应的时刻‑查询表示；根据时刻‑查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量，得到与查询信息描述一致的视频片段。

A Video Attention Time Retrieval Method and Device Based on Attention Mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的视频关注时刻检索方法及装置
本专利技术属于多媒体信息检索的
，尤其是涉及一种基于注意力机制的视频关注时刻检索方法及装置，从视频中检索出用户关注的时刻片段。
技术介绍
目前，从大型视频数据库中搜索感兴趣的视频一直是一个悬而未决的问题。由于该任务只需要通过返回相关视频来回答查询，所以大多数之前的工作将其作为匹配问题，通过估计视频和给定查询之间的相关性得分来判断哪一个候选集中的视频与查询匹配度最高。这种直接的视频查询匹配适用于判断描述查询是否出现在整个视频中，通常这个视频仅描述简单场景。然而，在一些真实场景中，例如机器人导航、自动驾驶和监视场景，未修剪的视频通常包含复杂的场景并涉及大量的对象、属性、动作和交互，而这些复杂场景中只有某些部分场景能传达所需的线索或与给定的查询匹配。比如，对于准备好的长度为几分钟的监控视频，人们可能只对“一位橙色女孩先走过摄像机”这个视频片段感兴趣，其起点和终点分别为24s和30s。因此，与简单地检索整个视频相比，从视频内部检索出感兴趣的时间片段更有用也更具有挑战性。一般来说，视频中的对感兴趣的时间片段进行自动检索需要两个部分，即细粒度的时刻候选片段的定位以及相关性估计。目前存在的主要问题包括以下几个方面：第一，视频中的不同时刻具有不同的持续时间和不同的时空特征；从而揭示潜在的时刻片段已经非常具有挑战性，更不用说时刻片段与查询相关性的估计了。为了生成候选时刻片段，直接的方法是采用不同尺度的滑动窗口进行密集采样。然而，这样的时刻生成方法是受限制的，不仅是昂贵的计算成本，而且还有指数级别的搜索空间。第二，相关性估...

【技术保护点】
1.一种基于注意力机制的视频关注时刻检索方法，其特征在于，包括：接收视频数据和查询信息，将接收的视频数据预分割为时刻片段；根据查询信息提取的查询特征，自适应地为上下文时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；分别进行模态内和模态间的特征交互，生成增强的时刻表示特征与查询特征对应的时刻‑查询表示；根据时刻‑查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量，得到与查询信息描述一致的视频片段。

【技术特征摘要】
1.一种基于注意力机制的视频关注时刻检索方法，其特征在于，包括：接收视频数据和查询信息，将接收的视频数据预分割为时刻片段；根据查询信息提取的查询特征，自适应地为上下文时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；分别进行模态内和模态间的特征交互，生成增强的时刻表示特征与查询特征对应的时刻-查询表示；根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量，得到与查询信息描述一致的视频片段。2.如权利要求1所述的方法，其特征在于，在本方法中，将查询信息输入记忆注意力网络得到每个时刻片段增强的时刻表示特征的具体步骤包括：提取查询信息的查询特征，提取每个时刻片段的时刻特征；根据查询特征和每个时刻片段的时刻特征，自适应地利用加权得到每一个上下文时刻片段的权值；将上下文时刻片段的权值进行线性加权得到每个时刻片段增强的时刻表示特征。3.如权利要求2所述的方法，其特征在于，在本方法中，输入记忆注意力网络的查询信息为自然语言的文本信息。4.如权利要求1所述的方法，其特征在于，在本方法中，自适应地利用加权得到每一个上下文时刻片段的权值的具体步骤包括：将查询特征、当前时刻片段以及其上下文时刻片段映射到共空间中；在共空间中，将每个时刻片段的时刻特征与其前面所有时刻片段的时刻特征相加，得到拥有记忆信息的时刻特征，并将其与共空间中的查询特征计算相似性；采用归一化得到每一个上下文时刻片段的权值。5.如权利要求1所...

【专利技术属性】
技术研发人员：刘萌，聂礼强，王翔，宋雪萌，甘甜，陈宝权，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人