视频文本的检索方法、装置及电子设备制造方法及图纸

技术编号:40596340 阅读:27 留言:0更新日期:2024-03-12 21:59
本申请公开了一种视频文本的检索方法、装置及电子设备。其中,该方法包括:通过视频文本检索模型中的文本编码器对输入的待检索文本信息进行特征提取处理,得到待检索文本特征,其中,视频文本检索模型用于依据文本信息查询视频特征,且视频文本检索模型忽略与文本信息无关的冗余信息;从视频特征库中确定与待检索文本特征的相似度大于预设阈值的目标视频特征,其中,视频特征库为使用视频文本检索模型中的图像编码器和视频编码器对视频数据进行特征提取后得到的;返回目标视频特征所对应的目标视频。本申请解决了相关技术中的视频文本检索模型包含于文本语义无关的冗余信息,存在检索准确率低的技术问题。

【技术实现步骤摘要】

本申请涉及计算机视觉领域,具体而言,涉及一种视频文本的检索方法、装置及电子设备


技术介绍

1、跨模态视频文本检索已经在广泛领域得到应用,包括搜索引擎、短视频内容分析等场景,但在城市治理场景,由于数量繁多,大小不统一的主体存在,检索技术无法检索出匹配的视频片段,技术仍存在较大的局限性。

2、目前已有的视频文本检索模型训练和部署方法,通常专注于先单独对视频进行时序信息建模,再与文本描述进行匹配。由于视频主体数量、大小等关系丰富,单独建模视频特征会导致特征包含与文本语义无关的冗余信息,进而造成跨模态语义匹配失败;此外,在城市治理场景中,视频文本检索中的文本描述往往仅与视频中的局部主体匹配,这给视频文本检索增加了检索难度。现有解决方案需要增加额外的局部检测标注和文本单词标注,增大了人工标注成本,且存在对场景以及检索主体泛化性方面不足的问题。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种视频文本的检索方法、装置及电子设备,以至少解决相关技术中的视频本文档来自技高网...

【技术保护点】

1.一种视频文本的检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述视频文本检索模型通过以下方式得到:

3.根据权利要求2所述的方法,其特征在于,将所述文本数据输入文本编码器,得到文本特征,包括:

4.根据权利要求2所述的方法,其特征在于,将所述视频数据输入图像编码器和视频编码器,得到视频特征,包括:

5.根据权利要求2所述的方法,其特征在于,依据所述目标视频和所述目标视频所对应的目标权重矩阵,确定第一视频和第二视频,包括:

6.根据权利要求2所述的方法,其特征在于,生成第一视频特征序列,包括:

...

【技术特征摘要】

1.一种视频文本的检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述视频文本检索模型通过以下方式得到:

3.根据权利要求2所述的方法,其特征在于,将所述文本数据输入文本编码器,得到文本特征,包括:

4.根据权利要求2所述的方法,其特征在于,将所述视频数据输入图像编码器和视频编码器,得到视频特征,包括:

5.根据权利要求2所述的方法,其特征在于,依据所述目标视频和所述目标视频所对应的目标权重矩阵,确定第一视频和第二视频,包括:

【专利技术属性】
技术研发人员:方瀚周蓝翔冯泽润班超臧祥浩孙皓
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1