【技术实现步骤摘要】
本专利技术涉及信息检索领域,具体涉及一种文本视频对相似性评估模型构建方法。
技术介绍
1、近年来,随着抖音、youtube、netflix等多媒体平台的崛起,用户对基于文本查找视频内容准确性的要求不断提高。目前,文本-视频检索的方法大致有三类:
2、一、基于传统手工设计的模态检索
3、基于传统的文本-视频多模态检索方法,如关键词匹配,通过视频元数据标签进行检索;特征提取,从视频和文本中提取如颜色直方图和tf-idf等低层次特征,通过特征向量相似性进行匹配;多模态融合,使用典型相关分析等统计技术,将文本和视频特征映射到共同表示空间。
4、然而,基于传统的文本-视频多模态检索方法,依赖人工标注,导致标签不全或不准确会影响效果,且传统特征提取难以捕捉复杂语义信息,固定规则和特征缺乏灵活性和泛化能力。
5、因此,尽管在简单和资源受限的场景中有一定实用性,但在复杂语义匹配需求下,逐渐被深度学习和基于clip的方法取代。
6、二、基于深度学习的模态检索
7、基于深度学习的模态检
...【技术保护点】
1.一种文本视频对相似性评估模型构建方法,其特征在于:
2.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述视觉编码器和文本编码器,分别为预训练CLIP模型的视觉编码器和文本编码器;
3.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述对齐模型还包括特征压缩模块;针对输入对齐模型的文本特征和视觉特征,所述对齐模型,首先,利用特征压缩模块,对输入的视觉特征进行压缩,然后,再计算粗粒度相似性、中粒度相似性和细粒度相似性;所述对输入的视觉特征进行压缩,包括:
4.如权利要求3所述的一种文本视
...【技术特征摘要】
1.一种文本视频对相似性评估模型构建方法,其特征在于:
2.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述视觉编码器和文本编码器,分别为预训练clip模型的视觉编码器和文本编码器;
3.如权利要求1所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述对齐模型还包括特征压缩模块;针对输入对齐模型的文本特征和视觉特征,所述对齐模型,首先,利用特征压缩模块,对输入的视觉特征进行压缩,然后,再计算粗粒度相似性、中粒度相似性和细粒度相似性;所述对输入的视觉特征进行压缩,包括:
4.如权利要求3所述的一种文本视频对相似性评估模型构建方法,其特征在于,定义相似度感知压缩因子c,并以vr=c或vr=c·ε,计算获得冗余视觉特征vr,其中,ε为随机因子;所述相似度感知压缩因子c的计算,采用如下任一方式:
5.如权利要求1~4任一项所述的一种文本视频对相似性评估模型构建方法,其特征在于,所述粗粒度相似性,基于输入文本特...
【专利技术属性】
技术研发人员:尹诗白,占求港,刘鑫,丁浩伦,刘贵松,蒋太翔,蔡庆,张丹,
申请(专利权)人:西南财经大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。