基于文本质量感知的视频描述方法与系统技术方案

技术编号：42956680 阅读：25 留言：0更新日期：2024-10-11 16:14

本发明专利技术提出一种基于文本质量感知的视频描述方法与系统，该方法首先对同一视频标注的所有文本描述生成伪真值标签，通过设计文本‑标签一致性评估方法和文本‑视频相似性评估方法形成描述文本标注质量的向量表示；然后获取包含批量视频的描述质量矩阵，以确保存在准确的最全面的标签与最不相关的标签，并且通过归一化，将所有评估指标对应的质量值映射到相同尺度，加快模型的训练；最后以归一化后的质量向量作为辅助信号，与视频的特征编码拼接后形成标注质量感知的视频特征表达。通过描述质量感知描述解码，令模型能够生成与质量一致的描述。本发明专利技术通过全面地评估描述的质量以及文本质量感知描述解码，有效地从噪声数据中学习。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉与视频处理，特别涉及一种基于文本质量感知的视频描述方法与系统。

技术介绍

1、在过去的十年中，视频描述任务取得了长足的进步，这主要是由于深度学习技术的发展。与此同时，msr-vtt和 msvd等大规模数据集的收集，为模型训练提供大量视频-描述样本，促进了视频描述任务的发展。但是为了收集这些数据集，通过众包将视频发送给多个注释者，以收集描述视频的字幕。由于注释者的主观性，导致不可避免地存在噪声信息，而噪声数据会降低模型描述生成能力。

2、为了解决噪声问题，最新的研究采用了clipscore方法来评估图像与文本之间的相似度，然后作为训练过程中的关键控制信号，指导模型学习并达到不同层次的跨模态对齐。这种方法取得了显著的改进，然而依旧存在问题。首先由于缺少完美标签，文本标注的质量是无法直接评估的。并且标注质量应该是多维度的，不能仅从一个维度评价。此外clipscore仅评估文本和图像，不能评估文本与视频。

技术实现思路

1、鉴于上述状况，本专利技术的主要目的是为...

【技术保护点】

1.一种基于文本质量感知的视频描述方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于文本质量感知的视频描述方法，其特征在于，在所述步骤1中，选取同一视频标注的所有文本描述，共同构成评估描述质量的伪真值标签的方法具体包括如下步骤：

3.根据权利要求2所述的基于文本质量感知的视频描述方法，其特征在于，在所述步骤2中，基于文本-标签一致性，选取语言评估指标ROUGH、CIDEr和预训练的BERT作为质量评估指标，利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量，以生成第一描述文本标注质量的方法具体包括如下步骤：p>

4.根据权...

【技术特征摘要】

1.一种基于文本质量感知的视频描述方法，其特征在于，所述方法包括如下步骤：

3.根据权利要求2所述的基于文本质量感知的视频描述方法，其特征在于，在所述步骤2中，基于文本-标签一致性，选取语言评估指标rough、cider和预训练的bert作为质量评估指标，利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量，以生成第一描述文本标注质量的方法具体包括如下步骤：

4.根据权利要求2所述的基于文本质量感知的视频描述方法，其特征在于，在所述步骤3中，基于文本-视频相似性，选取预训练的clip作为质量评估指标，利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量，以生成第二描述文本标注质量的方法具体包括如下步骤：

5.根据权利要求2所述的基于文本质量感知的视频描述方法，其特征在于，在所述步骤4中，将每个文本描述对应的第一描述文本标注质量和第二描...

【专利技术属性】
技术研发人员：姜文晖，黎海军，方玉明，官文彬，蔡超，肖景富，鄢杰斌，
申请(专利权)人：江西财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人