【技术实现步骤摘要】
本申请涉及计算机视觉领域,具体而言,涉及一种视频文本的检索方法、装置及电子设备。
技术介绍
1、跨模态视频文本检索已经在广泛领域得到应用,包括搜索引擎、短视频内容分析等场景,但在城市治理场景,由于数量繁多,大小不统一的主体存在,检索技术无法检索出匹配的视频片段,技术仍存在较大的局限性。
2、目前已有的视频文本检索模型训练和部署方法,通常专注于先单独对视频进行时序信息建模,再与文本描述进行匹配。由于视频主体数量、大小等关系丰富,单独建模视频特征会导致特征包含与文本语义无关的冗余信息,进而造成跨模态语义匹配失败;此外,在城市治理场景中,视频文本检索中的文本描述往往仅与视频中的局部主体匹配,这给视频文本检索增加了检索难度。现有解决方案需要增加额外的局部检测标注和文本单词标注,增大了人工标注成本,且存在对场景以及检索主体泛化性方面不足的问题。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种视频文本的检索方法、装置及电子设备,以至少
...【技术保护点】
1.一种视频文本的检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述视频文本检索模型通过以下方式得到:
3.根据权利要求2所述的方法,其特征在于,将所述文本数据输入文本编码器,得到文本特征,包括:
4.根据权利要求2所述的方法,其特征在于,将所述视频数据输入图像编码器和视频编码器,得到视频特征,包括:
5.根据权利要求2所述的方法,其特征在于,依据所述目标视频和所述目标视频所对应的目标权重矩阵,确定第一视频和第二视频,包括:
6.根据权利要求2所述的方法,其特征在于,生成第一视频特征
...【技术特征摘要】
1.一种视频文本的检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述视频文本检索模型通过以下方式得到:
3.根据权利要求2所述的方法,其特征在于,将所述文本数据输入文本编码器,得到文本特征,包括:
4.根据权利要求2所述的方法,其特征在于,将所述视频数据输入图像编码器和视频编码器,得到视频特征,包括:
5.根据权利要求2所述的方法,其特征在于,依据所述目标视频和所述目标视频所对应的目标权重矩阵,确定第一视频和第二视频,包括:
【专利技术属性】
技术研发人员:方瀚,周蓝翔,冯泽润,班超,臧祥浩,孙皓,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。