一种文本视频对相似性评估模型构建方法技术

技术编号:43728114 阅读:48 留言:0更新日期:2024-12-20 12:54
本发明专利技术涉及信息检索领域,其公开了一种文本视频对相似性评估模型构建方法,首先,输入正样本对并构建其负样本对;然后,通过视觉编码器,获得样本对的视觉特征,通过文本编码器,获得样本对的文本特征;之后,分别计算样本对的粗、中、细粒度相似性;其中,粗粒度相似性,是对视频与文本,进行整体的相似性计算;中粒度相似性,是对视频所包含图像帧与文本,进行帧级的相似性计算;细粒度相似性,是对视频所包含视觉实体与文本所包含单词,进行因子级的相似性计算。在检索时,能引入更多的特征,从多个粒度对文本和视频的相似性进行比较,能够降低文本与视觉在语义上的不对等所导致的影响,并显著提升了检索性能。

【技术实现步骤摘要】

本专利技术涉及信息检索领域,具体涉及一种文本视频对相似性评估模型构建方法


技术介绍

1、近年来,随着抖音、youtube、netflix等多媒体平台的崛起,用户对基于文本查找视频内容准确性的要求不断提高。目前,文本-视频检索的方法大致有三类:

2、一、基于传统手工设计的模态检索

3、基于传统的文本-视频多模态检索方法,如关键词匹配,通过视频元数据标签进行检索;特征提取,从视频和文本中提取如颜色直方图和tf-idf等低层次特征,通过特征向量相似性进行匹配;多模态融合,使用典型相关分析等统计技术,将文本和视频特征映射到共同表示空间。

4、然而,基于传统的文本-视频多模态检索方法,依赖人工标注,导致标签不全或不准确会影响效果,且传统特征提取难以捕捉复杂语义信息,固定规则和特征缺乏灵活性和泛化能力。

5、因此,尽管在简单和资源受限的场景中有一定实用性,但在复杂语义匹配需求下,逐渐被深度学习和基于clip的方法取代。

6、二、基于深度学习的模态检索

7、基于深度学习的模态检索方法,显著提升了检本文档来自技高网...

【技术保护点】

1.一种文本视频对相似性评估模型构建方法,其特征在于:

2.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述视觉编码器和文本编码器,分别为预训练CLIP模型的视觉编码器和文本编码器;

3.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述对齐模型还包括特征压缩模块;针对输入对齐模型的文本特征和视觉特征,所述对齐模型,首先,利用特征压缩模块,对输入的视觉特征进行压缩,然后,再计算粗粒度相似性、中粒度相似性和细粒度相似性;所述对输入的视觉特征进行压缩,包括:

4.如权利要求3所述的一种文本视频对相似性评估模型构...

【技术特征摘要】

1.一种文本视频对相似性评估模型构建方法,其特征在于:

2.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述视觉编码器和文本编码器,分别为预训练clip模型的视觉编码器和文本编码器;

3.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述对齐模型还包括特征压缩模块;针对输入对齐模型的文本特征和视觉特征,所述对齐模型,首先,利用特征压缩模块,对输入的视觉特征进行压缩,然后,再计算粗粒度相似性、中粒度相似性和细粒度相似性;所述对输入的视觉特征进行压缩,包括:

4.如权利要求3所述的一种文本视频对相似性评估模型构建方法,其特征在于,定义相似度感知压缩因子c,并以vr=c或vr=c·ε,计算获得冗余视觉特征vr,其中,ε为随机因子;所述相似度感知压缩因子c的计算,采用如下任一方式:

5.如权利要求1~4任一项所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述粗粒度相似性,基于输入文本特...

【专利技术属性】
技术研发人员:尹诗白占求港刘鑫丁浩伦刘贵松蒋太翔蔡庆张丹
申请(专利权)人:西南财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1