基于大规模视频语料库的弱监督视频片段定位方法及系统技术方案

技术编号:37799890 阅读:12 留言:0更新日期:2023-06-09 09:30
本发明专利技术涉及视频数据识别技术领域,提出了一种基于大规模视频语料库的弱监督视频片段定位方法及系统,方法包括如下步骤:针对获取的训练数据集,采用自监督学习提取文本与视频间共同的语义信息,基于语义信息得到融合语义视频特征;针对融合语义视频特征以及对应的文本特征,采用弱监督方法的进行多尺度对比学习,确定视频特征与文本特征的空间映射关系并映射至度量空间中,得到训练后的度量空间;获取查询语句,在训练后的度量空间中搜索与查询语句相似的文本特征,将相似度最高的文本特征所对应的视频片段作为视频定位结果。本发明专利技术的定位方法能够实现从大规模视频数据库中直接准确快速的定位视频片段。准确快速的定位视频片段。准确快速的定位视频片段。

【技术实现步骤摘要】
基于大规模视频语料库的弱监督视频片段定位方法及系统


[0001]本专利技术涉及视频数据识别相关
,具体的说,是涉及一种基于大规模视频语料库的弱监督视频片段定位方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,并不必然构成在先技术。
[0003]基于大规模视频语料库的视频片段定位是指在拥有大量视频的数据中,可以依据一条查询语言定位相关的视频片段的技术。如今,很多情况下会使用到视频片段定位技术,例如安防领域,需要对长视频其中的一个视频片段进行定位,以快速搜索到目标片段。这项技术需要人为找到需要定位的长视频,然后使用查询语句进行定位。当视频数据库中含有大量的长视频时,人为的找到这段长视频是非常费力的。
[0004]专利技术人在研究中发现,现有的视频片段定位方法,大多数为监督方法的视频语料库的视频片段定位。少数采用弱监督方法是利用度量学习来实现的,通过训练模型学习一个视频与查询的联合特征空间,在联合特征空间中度量视频与查询之间的距离;现有的视频片段定位方法存在以下问题:一方面,用于训练视频片段定位任务的数据集需要对定位的真实时刻进行标注,工作量非常大。另一方面,在大规模视频语料库的视频片段定位问题上,现有方法定位精度不高、并且存在定位效率低的问题。

技术实现思路

[0005]本专利技术为了解决上述问题,提出了一种基于大规模视频语料库的弱监督视频片段定位方法及系统,能够实现从大规模视频数据库中直接准确快速的定位视频片段。
[0006]为了实现上述目的,本专利技术采用如下技术方案:一个或多个实施例提供了一种基于大规模视频语料库的弱监督视频片段定位方法,包括如下步骤:针对获取的训练数据集,采用自监督学习提取文本与视频间共同的语义信息,基于语义信息得到融合语义视频特征;针对融合语义视频特征以及对应的文本特征,采用弱监督方法的进行多尺度对比学习,确定视频特征与文本特征的空间映射关系并映射至度量空间中,得到训练后的度量空间;获取查询语句,在训练后的度量空间中搜索与查询语句相似的文本特征,将相似度最高的文本特征所对应的视频片段作为视频定位结果。
[0007]一个或多个实施例提供了一种基于大规模视频语料库的弱监督视频片段定位系统,包括:共同语义感知模块:被配置为用于针对获取的训练数据集,采用自监督学习提取文本与视频间共同的语义信息,基于语义信息得到融合语义视频特征;
视频特征与文本特征的空间映射模块:被配置为用于针对融合语义视频特征以及对应的文本特征,采用弱监督方法的进行多尺度对比学习,确定视频特征与文本特征的空间映射关系并映射至度量空间中,得到训练后的度量空间;匹配模块:被配置为用于获取查询语句,在度量空间中搜索与查询语句相似的文本特征,基于文本特征在训练后的度量空间中查询与文本特征相似度最高的视频片段,为视频定位结果。
[0008]一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
[0009]一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
[0010]与现有技术相比,本专利技术的有益效果为:(1)本专利技术采用弱监督的方法,并不依赖数据集的标签,任何含有标题的视频数据都可以作为本方法的训练数据,大大减少了数据集的标注成本。
[0011](2)对训练数据采用自监督学习的方式,提取文本与视频间共同的语义信息,获得了更良好的表征信息,将文本模态与视频模态对同一种事物的特征表达更相似,从而能够提高视频定位的准确性。
[0012](3)定位过程中,优先搜索与新查询语句相似的文本特征,而不是直接用新的查询语句特征计算与视频特征在度量空间中的距离,可以减少计算量,大大提高了视频定位效率。
[0013]本专利技术的视频定位方法可以嵌入到任何视觉平台中,如视频娱乐、视频监控、无人驾驶等,可以大大提高用户体验。
[0014]本专利技术的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
[0015]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的限定。
[0016]图1是本专利技术实施例1的模态间共同语义感知信息识别方法流程图;图2是本专利技术实施例1的视频特征与文本特征的空间映射方法流程示意图;图3是本专利技术实施例1的多尺度对比学习中片段级学习方法流程示意图;图4是本专利技术实施例1的多尺度对比学习中视频级学习方法流程示意图;图5是本专利技术实施例1的视频片段定位方法整体流程图。
具体实施方式
[0017]下面结合附图与实施例对本专利技术作进一步说明。
[0018]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0019]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本专利技术中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
[0020]实施例1在一个或多个实施方式公开的技术方案中,如图1至图5所示,一种基于大规模视频语料库的弱监督视频片段定位方法,包括如下步骤:步骤1、针对获取的训练数据集,采用自监督学习提取文本与视频间共同的语义信息,基于语义信息得到融合语义视频特征;步骤2、针对融合语义视频特征以及对应的文本特征,采用弱监督方法的进行多尺度对比学习,确定视频特征与文本特征的空间映射关系并映射至度量空间中,得到训练后的度量空间;步骤3、获取查询语句,在训练后的度量空间中搜索与查询语句相似的文本特征,将相似度最高的文本特征所对应的视频片段作为视频定位结果。
[0021]本实施例采用弱监督的方法,并不依赖数据集的标签,任何含有标题的视频数据都可以作为本方法的训练数据,大大减少了数据集的标注成本。对训练数据采用自监督学习的方式,提取文本与视频间共同的语义信息,获得了更良好的表征信息,将文本模态与视频模态对同一种事物的特征表达更相似,从而能够提高视频定位的准确性;定位过程中,优先搜索与新查询语句相似的文本特征,而不是直接用新的查询语句特征计算与视频特征在度量空间中的距离,可以减少计算量,大大提高了视频定位效率。
[0022]步骤1中,训练数据集包括历史查询语句与对应的视频数据;查询语句进行特征提取后得到文本特征。
[0023]步骤1用于感知查询与视频两个模态间的共同语义信息,举例说明:查询中桌子与视频中的桌子具有相同的语义信息,那么查询中桌子的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大规模视频语料库的弱监督视频片段定位方法,其特征在于,包括如下步骤:针对获取的训练数据集,采用自监督学习提取文本与视频间共同的语义信息,基于语义信息得到融合语义视频特征;针对融合语义视频特征以及对应的文本特征,采用弱监督方法的进行多尺度对比学习,确定视频特征与文本特征的空间映射关系并映射至度量空间中,得到训练后的度量空间;获取查询语句,在训练后的度量空间中搜索与查询语句相似的文本特征,将相似度最高的文本特征所对应的视频片段作为视频定位结果。2.如权利要求1所述的一种基于大规模视频语料库的弱监督视频片段定位方法,其特征在于:采用自监督学习提取文本与视频间共同的语义信息,基于语义信息得到融合语义视频特征的方法,包括如下步骤:对视频数据与查询语句进行特征提取,分别得到视频特征和文本特征;将得到的视频特征和文本特征进行融合;将融合后的特征进行卷积操作;利用卷积之后得到的视频特征,对文本特征进行预测,将原本的文本特征作为监督信息进行自监督训练;根据预测的文本特征与监督信息,计算重构损失,对于重构损失低于设定值的视频片段赋予更大的权重值,该权重值为重构奖励;将重构奖励加权到卷积操作之后得到的视频特征上,得到融合语义视频特征。3.如权利要求2所述的一种基于大规模视频语料库的弱监督视频片段定位方法,其特征在于:将得到的视频特征和文本特征进行融合,融合方法为将视频特征和文本特征进行加和与点乘之后,再进行拼接。4.如权利要求1所述的一种基于大规模视频语料库的弱监督视频片段定位方法,其特征在于:多尺度对比学习包括:片段级的学习以及视频级的学习;片段级的学习是将查询文本与相似的视频片段的距离拉近,将与查询文本不相似的视频片段推远;视频级的学习是将查询语句对应的视频与其他的视频距离推远。5.如权利要求4所述的一种基于大规模视频语料库的弱监督视频片段定位方法,其特征在于:片段级学习的方法包括如下步骤:将融合语义视频特征馈入长短期记忆网络中,获取视频的时序信息,将获取的时序信息添加至融合语义视频特征中,得到高级视频特征;将文本特征与每个高级视频片段特征计算的匹配度得分放入定位器中,将得分高于设定值的开始和结束时间对应的视频片段进行标记并作为正样本,未标记的视频作为负样本;采用对抗生成网络,生成与进行片段级学习的原视频类似的视频片段特征,将生成的
视频片段特征作为负样本;基于识别的片段级正样本和...

【专利技术属性】
技术研发人员:聂秀山谭智方刘新锋张立伟
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1