当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于样本权重调整的跨场景视频语义定位方法和装置制造方法及图纸

技术编号:36764446 阅读:25 留言:0更新日期:2023-03-08 21:15
本发明专利技术涉及一种基于样本权重调整的跨场景视频语义定位方法和装置。本发明专利技术同时使用两个具有相同主干网络结构的孪生模型,第一个模型仅读取视频输入而不读取句子,第二个模型同时读取完整的视频输入和句子;第一个模型用来学习偏好信息,仅根据视频单个模态就预测定位结果,并根据其学习得到的偏好信息去调整训练样本的权重,使得第二个模型收到的训练样本不具备数据偏好信息,迫使第二个模型同时理解视频和语言两个模态中共同的语义信息。本发明专利技术的提供了一种训练框架以防止模型过拟合于视频片段中的偏好信息,使之能够真正同时理解视频和句子两个模态并根据两者的语义信息在视频中做语义定位。本发明专利技术在跨场景条件下的泛化能力具有明显优势。力具有明显优势。力具有明显优势。

【技术实现步骤摘要】
一种基于样本权重调整的跨场景视频语义定位方法和装置


[0001]本专利技术涉及一种跨场景视频语义定位的方法,尤其涉及一种使用样本权重调整方法提高跨场景视频语义定位模型定位精度和泛化能力的方法和装置,属于计算机视觉领域。
技术背景
[0002]视频语义定位是计算机视觉领域中最重要的问题之一,近年来受到了人们越来越多的关注。视觉语义定位模型在视频监控、机器人和多媒体检索等诸多领域具有巨大的应用潜力。对于给定的一段未经剪辑的长视频和一个由自然语言组成的句子,视频语义定位的目标是在视频中定位句子所描述事件的起始和终止时刻。在视觉语义定位中,自然语言的使用不仅使得要定位的动作内容不受预先定义的动作标签列表限制,而且还能够允许进一步对物体属性和关系进行灵活的说明。例如人们可以使用自然语言来定位“穿红衣服的男性把杯子从冰箱中取出并饮用杯子中的水”这样具有复杂语义信息的视频片段。
[0003]视觉语义定位是典型的多模态理解任务,模型需要同时理解视频和语言两个模态的语义信息才能够给出正确的定位结果。然而现有的视频语义定位模型具有显著的单模态偏好现象:模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于样本权重调整的跨场景视频语义定位方法,其特征在于,包括以下步骤:利用视频编码器从输入视频提取视频候选窗口的视觉特征表示;利用语言编码器对句子进行编码,获取句子的特征表示;将视频候选窗口的视觉特征表示和句子的特征表示进行融合,得到视频候选窗口的视觉

语义特征表示;利用视觉定位器,仅依据视频候选窗口的视觉特征表示预测定位结果,并从训练样本中学习视频片段的偏好信息,根据学习得到的偏好信息调整训练样本的权重;利用视觉

语义定位器,依据视频候选窗口的视觉

语义特征表示预测定位结果,并利用调整权重后的训练样本对视觉

语义定位器进行训练,得到去偏好化处理的视觉

语义定位器;对于待定位的视频和句子,利用训练完成的视觉

语义定位器进行视频语义定位。2.根据权利要求1所述的方法,其特征在于,所述利用视频编码器从输入视频提取视频候选窗口的视觉特征表示,包括:视频编码器将输入视频分割成多个视频小片段,对视频小片段固定间隔采样,获得N个视频基础片段,对于每个视频基础片段用预先训练好的I3D模型提取一系列的I3D基本特征;对包含在视频候选窗口内所有的I3D基本特征,应用边界匹配算子获得视频候选窗口的视觉特征表示。3.根据权利要求2所述的方法,其特征在于,所述应用边界匹配算子获得视频候选窗口的视觉特征表示,包括:对起始时刻为a、终止时刻为b的视频候选窗口(a,b)覆盖到的所有I3D基本特征进行双线性插值并采样,通过采样得到K个基本特征向量,其中K是预设的超参数;将K个基本特征向量通过卷积核大小为K的卷积层和非线性函数ReLU层,得到1个特征向量作为该视频候选窗口的视觉特征表示;对于所有1≤a≤b≤N均重复上述过程,获取所有视频候选窗口的特征向量4.根据权利要求1所述的方法,其特征在于,所述利用语言编码器对句子进行编码,获取句子的特征表示,包括:将由多个单词特征组成的句子序列作为输入送到长短时记忆网络LSTM,提取得到句子的特征表示。5.根据权利要求1所述的方法,其特征在于,所述视觉定位器和所述视觉

语义定位器的训练过程包括:在视觉定位器中,视频候选窗口的视觉特征表示被直接传递到一个全连接层和sigmoid层生成视觉得分图的预测值;在视觉

语义定位器中,视频候选窗口的视觉

语义特征表示被输入到一个全连接层和sigmoid层,生成候选窗口的视觉

语义得分图的预测值;从视觉得分图和视觉

语义得分图中分别得到视觉定位器、视觉

语义定位器的定位结果;分别计算视觉定位器和视觉

语义定位器的损失函数,并根据视觉定位器的定位结果调整训练样本的权重,对视觉定位器、视觉

语义定位器端对端地进行训练,得到去偏好化处理的视觉

语义定位器。
6.根据权利要求1所述的方法,其特征在于,所述分别计算视觉定位器和视觉

语义定位器的损失函数,并根据视觉定位器的定位结果调整训练样本的权重,对视觉定位器、视觉

语义定位器端对端地进行训练...

【专利技术属性】
技术研发人员:包培钧穆亚东
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1