【技术实现步骤摘要】
本专利技术属于计算机视觉与视频处理,特别涉及一种基于文本质量感知的视频描述方法与系统。
技术介绍
1、在过去的十年中,视频描述任务取得了长足的进步,这主要是由于深度学习技术的发展。与此同时,msr-vtt和 msvd等大规模数据集的收集,为模型训练提供大量视频-描述样本,促进了视频描述任务的发展。但是为了收集这些数据集,通过众包将视频发送给多个注释者,以收集描述视频的字幕。由于注释者的主观性,导致不可避免地存在噪声信息,而噪声数据会降低模型描述生成能力。
2、为了解决噪声问题,最新的研究采用了clipscore方法来评估图像与文本之间的相似度,然后作为训练过程中的关键控制信号,指导模型学习并达到不同层次的跨模态对齐。这种方法取得了显著的改进,然而依旧存在问题。首先由于缺少完美标签,文本标注的质量是无法直接评估的。并且标注质量应该是多维度的,不能仅从一个维度评价。此外clipscore仅评估文本和图像,不能评估文本与视频。
技术实现思路
1、鉴于上述状况,本专利技术的主要目的是为
...【技术保护点】
1.一种基于文本质量感知的视频描述方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤1中,选取同一视频标注的所有文本描述,共同构成评估描述质量的伪真值标签的方法具体包括如下步骤:
3.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤2中,基于文本-标签一致性,选取语言评估指标ROUGH、CIDEr和预训练的BERT作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量的方法具体包括如下步骤:
...【技术特征摘要】
1.一种基于文本质量感知的视频描述方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤1中,选取同一视频标注的所有文本描述,共同构成评估描述质量的伪真值标签的方法具体包括如下步骤:
3.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤2中,基于文本-标签一致性,选取语言评估指标rough、cider和预训练的bert作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量的方法具体包括如下步骤:
4.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤3中,基于文本-视频相似性,选取预训练的clip作为质量评估指标,利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量,以生成第二描述文本标注质量的方法具体包括如下步骤:
5.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤4中,将每个文本描述对应的第一描述文本标注质量和第二描...
【专利技术属性】
技术研发人员:姜文晖,黎海军,方玉明,官文彬,蔡超,肖景富,鄢杰斌,
申请(专利权)人:江西财经大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。