【技术实现步骤摘要】
本专利技术涉及多模态大模型的应用领域,涉及基于文本生成图像技术的文本视频检索优化方法。
技术介绍
1、文本视频检索是视频语言学习的一项基本任务,能够有效实现多媒体内容的分析和检索,在教育、娱乐、医疗等领域具有广泛的应用前景。随着图像语言预训练模型如clip的快速发展,研究人员开始致力于将这些预训练模型的知识转移到文本视频检索任务中,取得了一定的进展。其中,clip4clip方法成功采用了端到端的方式,通过提取视频关键帧并利用clip模型的图像编码器进行特征提取,再与文本特征进行匹配计算相似度,实现了良好的文本视频检索效果。
2、然而,现有研究中仍然存在一些亟待解决的问题。首先,现有的文本视频数据集普遍规模较小,难以充分训练模型。同时,仅仅利用关键帧信息进行特征表示可能会丢失一些细粒度的视频内容信息,影响检索性能。因此,如何在有效的资源条件下扩充数据集,并设计更加全面的特征表示,成为亟需解决的关键问题。
技术实现思路
1、专利技术目的:本专利技术所要解决的技术问题是针对现有技术的
...【技术保护点】
1.基于文本生成图像技术的文本视频检索优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
3.根据权利要求2所述的方法,其特征在于,步骤1中,生成最终的图像的过程的公式为:
4.根据权利要求3所述的方法,其特征在于,步骤2中,使用Transformer模型作为图像编码器;
5.根据权利要求4所述的方法,其特征在于,步骤3包括:对于视频,首先进行自适应采样,选择16个视频关键帧,然后对每个关键帧进行切割,并将切割后的图像块输入到图像编码器中,得到16个关键帧的编码特征;为了得到粗粒
...【技术特征摘要】
1.基于文本生成图像技术的文本视频检索优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
3.根据权利要求2所述的方法,其特征在于,步骤1中,生成最终的图像的过程的公式为:
4.根据权利要求3所述的方法,其特征在于,步骤2中,使用transformer模型作为图像编码器;
5.根据权利要求4所述的方法,其特征在于,步骤3包括:对于视频,首先进行自适应采样,选择16个视频关键帧,然后对每个关键帧进行切割,并将切割后的图像块输入到图像编码器中,得到16个关键帧的编码特征;为了得到粗粒度的特征,对16个关键帧的编码特征进行平均池化,得到粗粒度的视频特征;同时,还保留了未平均池化前的每个视频帧的编码特征,作为细粒度的特征。
6.根据权利要求5所述的方法,其特征在于,步骤...
【专利技术属性】
技术研发人员:薛羽,陈京祥,费兰特·内里,田青,王修来,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。