一种文本视频对相似性评估模型构建方法技术

技术编号：43728114 阅读：48 留言：0更新日期：2024-12-20 12:54

本发明专利技术涉及信息检索领域，其公开了一种文本视频对相似性评估模型构建方法，首先，输入正样本对并构建其负样本对；然后，通过视觉编码器，获得样本对的视觉特征，通过文本编码器，获得样本对的文本特征；之后，分别计算样本对的粗、中、细粒度相似性；其中，粗粒度相似性，是对视频与文本，进行整体的相似性计算；中粒度相似性，是对视频所包含图像帧与文本，进行帧级的相似性计算；细粒度相似性，是对视频所包含视觉实体与文本所包含单词，进行因子级的相似性计算。在检索时，能引入更多的特征，从多个粒度对文本和视频的相似性进行比较，能够降低文本与视觉在语义上的不对等所导致的影响，并显著提升了检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索领域，具体涉及一种文本视频对相似性评估模型构建方法。

技术介绍

1、近年来，随着抖音、youtube、netflix等多媒体平台的崛起，用户对基于文本查找视频内容准确性的要求不断提高。目前，文本-视频检索的方法大致有三类：

2、一、基于传统手工设计的模态检索

3、基于传统的文本-视频多模态检索方法，如关键词匹配，通过视频元数据标签进行检索；特征提取，从视频和文本中提取如颜色直方图和tf-idf等低层次特征，通过特征向量相似性进行匹配；多模态融合，使用典型相关分析等统计技术，将文本和视频特征映射到共同表示空间。

4、然而，基于传统的文本-视频多模态检索方法，依赖人工标注，导致标签不全或不准确会影响效果，且传统特征提取难以捕捉复杂语义信息，固定规则和特征缺乏灵活性和泛化能力。

5、因此，尽管在简单和资源受限的场景中有一定实用性，但在复杂语义匹配需求下，逐渐被深度学习和基于clip的方法取代。

6、二、基于深度学习的模态检索

7、基于深度学习的模态检...

【技术保护点】

1.一种文本视频对相似性评估模型构建方法，其特征在于：

2.如权利要求1所述的一种文本视频对相似性评估模型构建方法，其特征在于，所述视觉编码器和文本编码器，分别为预训练CLIP模型的视觉编码器和文本编码器；

3.如权利要求1所述的一种文本视频对相似性评估模型构建方法，其特征在于，所述对齐模型还包括特征压缩模块；针对输入对齐模型的文本特征和视觉特征，所述对齐模型，首先，利用特征压缩模块，对输入的视觉特征进行压缩，然后，再计算粗粒度相似性、中粒度相似性和细粒度相似性；所述对输入的视觉特征进行压缩，包括：

4.如权利要求3所述的一种文本视频对相似性评估模型构...

【技术特征摘要】

1.一种文本视频对相似性评估模型构建方法，其特征在于：

2.如权利要求1所述的一种文本视频对相似性评估模型构建方法，其特征在于，所述视觉编码器和文本编码器，分别为预训练clip模型的视觉编码器和文本编码器；

4.如权利要求3所述的一种文本视频对相似性评估模型构建方法，其特征在于，定义相似度感知压缩因子c，并以vr＝c或vr＝c·ε，计算获得冗余视觉特征vr，其中，ε为随机因子；所述相似度感知压缩因子c的计算，采用如下任一方式：

5.如权利要求1～4任一项所述的一种文本视频对相似性评估模型构建方法，其特征在于，所述粗粒度相似性，基于输入文本特...

【专利技术属性】
技术研发人员：尹诗白，占求港，刘鑫，丁浩伦，刘贵松，蒋太翔，蔡庆，张丹，
申请(专利权)人：西南财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人