基于文本生成图像技术的文本视频检索优化方法技术

技术编号:42157347 阅读:25 留言:0更新日期:2024-07-27 00:08
本发明专利技术提供了基于文本生成图像技术的文本视频检索优化方法,本发明专利技术利用Stable Diffusion文本生成图像模型,通过对数据集中的文本信息进行图像生成,将生成的图像信息作为视频帧加入训练集,从而有效扩充数据规模。本发明专利技术还将考虑将关键帧信息反向生成文本信息,进一步丰富文本数据集。基于扩充的数据集,本发明专利技术将设计新的损失函数,综合考虑视频的细粒度与粗粒度特征,优化文本视频检索模型的训练过程,提升检索效果。本发明专利技术通过Stable Diffusion驱动的数据增强及优化的损失函数设计,能够有效解决现有文本视频检索研究中的数据缺乏和模型训练不充分等问题,为多媒体内容分析和检索应用提供新的技术支撑。

【技术实现步骤摘要】

本专利技术涉及多模态大模型的应用领域,涉及基于文本生成图像技术的文本视频检索优化方法


技术介绍

1、文本视频检索是视频语言学习的一项基本任务,能够有效实现多媒体内容的分析和检索,在教育、娱乐、医疗等领域具有广泛的应用前景。随着图像语言预训练模型如clip的快速发展,研究人员开始致力于将这些预训练模型的知识转移到文本视频检索任务中,取得了一定的进展。其中,clip4clip方法成功采用了端到端的方式,通过提取视频关键帧并利用clip模型的图像编码器进行特征提取,再与文本特征进行匹配计算相似度,实现了良好的文本视频检索效果。

2、然而,现有研究中仍然存在一些亟待解决的问题。首先,现有的文本视频数据集普遍规模较小,难以充分训练模型。同时,仅仅利用关键帧信息进行特征表示可能会丢失一些细粒度的视频内容信息,影响检索性能。因此,如何在有效的资源条件下扩充数据集,并设计更加全面的特征表示,成为亟需解决的关键问题。


技术实现思路

1、专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供基于文本生本文档来自技高网...

【技术保护点】

1.基于文本生成图像技术的文本视频检索优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤1包括:

3.根据权利要求2所述的方法,其特征在于,步骤1中,生成最终的图像的过程的公式为:

4.根据权利要求3所述的方法,其特征在于,步骤2中,使用Transformer模型作为图像编码器;

5.根据权利要求4所述的方法,其特征在于,步骤3包括:对于视频,首先进行自适应采样,选择16个视频关键帧,然后对每个关键帧进行切割,并将切割后的图像块输入到图像编码器中,得到16个关键帧的编码特征;为了得到粗粒度的特征,对16个关...

【技术特征摘要】

1.基于文本生成图像技术的文本视频检索优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤1包括:

3.根据权利要求2所述的方法,其特征在于,步骤1中,生成最终的图像的过程的公式为:

4.根据权利要求3所述的方法,其特征在于,步骤2中,使用transformer模型作为图像编码器;

5.根据权利要求4所述的方法,其特征在于,步骤3包括:对于视频,首先进行自适应采样,选择16个视频关键帧,然后对每个关键帧进行切割,并将切割后的图像块输入到图像编码器中,得到16个关键帧的编码特征;为了得到粗粒度的特征,对16个关键帧的编码特征进行平均池化,得到粗粒度的视频特征;同时,还保留了未平均池化前的每个视频帧的编码特征,作为细粒度的特征。

6.根据权利要求5所述的方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:薛羽陈京祥费兰特·内里田青王修来
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1