基于多模态技术的中文文本搜索图像或视频的方法技术

技术编号:38522959 阅读:10 留言:0更新日期:2023-08-19 17:01
基于多模态技术的中文文本搜索图像或视频的方法,包括如下步骤:将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量,并输入对Decoder网络模型进行初步训练,保存训练模型参数;根据图像向量和文字向量之间的相似度设置第一阈值及第二阈值,以对图像向量和文字向量进行两次筛选,并继续训练Decoder网络模型,保存训练模型参数;使用人工标注的数据集,对Decoder网络模型进行最后训练,完成模型精调,得到训练好的Decoder网络模型。本发明专利技术基于Transformer的Decoder构建Decoder网络并进行分步迭代训练,从而实现使用少量人工标定数据即可完成训练过程,最终实现图像到中文文本的标签生成功能。现图像到中文文本的标签生成功能。现图像到中文文本的标签生成功能。

【技术实现步骤摘要】
基于多模态技术的中文文本搜索图像或视频的方法


[0001]本专利技术涉及大数据
,具体涉及基于多模态技术的中文文本搜索图像或视频的方法。

技术介绍

[0002]在互联网领域,文本是最常见的数据呈现形式,其次是图像、视频。这几种不同模态的数据不是截然分开独立存在的,而是紧密融合在一起的。比如,在图文检索任务中,需要用文本去搜索图像;在视频搜索推荐任务中,视频中除了图像外,存在的标题、字幕和语音都可以映射为文本;在文章配图等场景中,需要建模文字和图片的关系。所以,图文跨模态表示从某种意义上来讲是互联网领域里应用最广,最有价值的技术之一。

技术实现思路

[0003]为了实现使用少量人工标注数据即可完成多模态神经网络的训练,本专利技术提供了基于多模态技术的中文文本搜索图像或视频的方法,包括如下步骤:步骤S1:爬取初始训练集;步骤S2:将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量,将图像向量和文字向量对Decoder网络模型进行初步训练,待损失不再降低时,停止训练,保存训练模型参数;步骤S3:基于CLIP技术计算图像向量和文字向量之间的相似度,通过对相似度设置第一阈值,过滤一部分图像向量和文字向量,使用过滤后的图像向量和文字向量继续对Decoder网络模型进行训练,保存训练模型参数;步骤S4:重复步骤S3,根据第二阈值再次过滤图像向量及文字向量,并再次进行Decoder网络模型训练,保存训练模型参数;步骤S5:使用人工标注的数据集,对步骤S4所训练好的Decoder网络模型进行最后训练,完成模型精调,得到训练好的Decoder网络模型。
[0004]其中,其特征在于,基于所训练好的Decoder网络模型,将需要对其进行搜索的图像或视频输入Decoder网络模型中,与搜索对象中所存在的搜索文本进行比对,返回搜索结果。
[0005]其中,所述步骤S2

步骤S5中,所训练的Decoder网络模型包括Self Attention及Cross Attention,Self Attention及Cross Attention的计算公式为:;其中,Self Attention的Q,K,V为文本向量输入编码与三个变换矩阵相乘得到的结果;其中,Cross Attention的K,V为图像向量输入编码与两个变换矩阵相乘得到的结果;Q为文本向量输入编码与一个变换矩阵相乘得到的结果;
为Q,K,V的列数,即向量维度。
[0006]其中,所述步骤S2

步骤S5中,在训练Decoder网络模型的过程中,针对Decoder网络模型所输出的文本,通过损失函数得到分类损失,并将分类损失回传给Decoder网络模型,以优化Decoder网络模型。
[0007]其中,通过如下公式得到分类损失:;其中,pi为真实分类标签值;qi为相应的标签分类的预测概率值;k为分类数,y为所对应的标签。
[0008]本专利技术提供的基于多模态技术的中文文本搜索图像或视频的方法,基于Transformer的Decoder构建Decoder网络并进行分步迭代训练,从而实现使用少量人工标定数据即可完成训练过程,最终实现图像到中文文本的标签生成功能。
附图说明
[0009]图1为本专利技术的基于多模态技术的中文文本搜索图像或视频的方法的实现流程图。
[0010]图2为Decoder网络模型经过初步训练后的识别中文文本的功能。
[0011]图3为Decoder网络模型经过完整训练后的识别中文文本的功能。
[0012]图4为CLIP技术的逻辑原理图。
[0013]图5为本专利技术的Decoder网络模型的逻辑原理图。
[0014]图6为Decoder网络模型中Self Attention及Cross Attention的逻辑原理图。
[0015]图7为Self Attention计算过程的Masked 操作实现机制。
[0016]图8为Decoder网络模型的最终输出示意图。
具体实施方式
[0017]为了对本专利技术的技术方案及有益效果有更进一步的了解,下面结合附图详细说明本专利技术的技术方案及其产生的有益效果。
[0018]一、图1为本专利技术的基于多模态技术的中文文本搜索图像或视频的方法的实现流程图,如图1所示,本专利技术的一个总体的技术构思如下:1、通过程序爬取网络中的新闻,获取新闻中的图像和标题作为初始训练数据,共爬取6300万条数据。基于CLIP技术从此数据中得到图像向量和文本向量,将图像向量和文
字向量输出Decoder网络对Decoder网络进行初步训练,待损失不再降低后,停止训练,保存训练模型参数。此时的模型已具有初步认识中文文本功能。
[0019]2、使用中文CLIP对数据集进行初步过滤,采用图像编码(即图像向量)和文本编码(即文本向量)相似度进行过滤,阈值设置为0.02。再次使用过滤后的数据集对上述步骤1中训练后的模型进行训练,保存训练模型参数。
[0020]3、同上述步骤2中一样,采用阈值0.04进行过滤,再次进行迭代训练,保存训练模型参数。如图2所示,经过三步训练后模型针对图2的图片输出“猫咪的高清图片桌面壁纸”,此时模型已具备识图能力,但其生成文本更具有新闻标题含义,究其原因,与其训练数据集相关。
[0021]4、最后,使用人工标注的数据集,对步骤3中模型进行最后训练,完成模型的精调,最终完成图像生成文本的模型训练。本文只用4500幅人工标定数据即完成了模型的精调,训练效果以图3为例,针对图3,模型输出“一只斑猫卧在桌子上看着镜头”。
[0022]5、基于所训练好的Decoder网络,在需要基于图像或视频搜索相关的图像或视频时,将图像与视频输入Decoder网络,产生文本描述,与所欲搜索的数据库中的搜索文本进行对比,返回搜索结果。
[0023]二、CLIP技术如上文所述,CLIP将图像经过图像编码器转变为向量表示,文本也经过文本编码器转变为向量表示,两个向量间可以计算相似度,最后通过对比学习来学习编码器。CLIP虽然算法简单,但效果非常惊艳,很重要的原因是使用了上亿的图文匹配数据进行训练。图4为CLIP技术的逻辑原理图,在图4中,最下方输出的图片是一只抱着小猫的女孩子(图中未示出)。
[0024]三、Decoder网络模型的训练1、模型训练受益于GPT的成功启发,我们同样以Transformer的Decoder为基础网络进行网络扩充,实现网络在多模态识别领域的量变到质变,图5为本专利技术的Decoder网络模型的逻辑原理图。图6为Decoder网络模型中Self Attention及Cross Attention的逻辑原理图,如图6所示,Decoder网络中的Self Attention及Cross Attention(自注意力及交叉注意力)均采用Multi

Head Attention结构。
[0025]针对Self Atte本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,包括如下步骤:步骤S1:爬取初始训练集;步骤S2:将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量,将图像向量和文字向量对Decoder网络模型进行初步训练,待损失不再降低时,停止训练,保存训练模型参数;步骤S3:基于CLIP技术计算图像向量和文字向量之间的相似度,通过对相似度设置第一阈值,过滤一部分图像向量和文字向量,使用过滤后的图像向量和文字向量继续对Decoder网络模型进行训练,保存训练模型参数;步骤S4:重复步骤S3,根据第二阈值再次过滤图像向量及文字向量,并再次进行Decoder网络模型训练,保存训练模型参数;步骤S5:使用人工标注的数据集,对步骤S4所训练好的Decoder网络模型进行最后训练,完成模型精调,得到训练好的Decoder网络模型。2.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,基于所训练好的Decoder网络模型,将需要对其进行搜索的图像或视频输入Decoder网络模型中,与搜索对象中所存在的搜索文本进行比对,返回搜索结果。3.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法...

【专利技术属性】
技术研发人员:韩福海韩乃平刘丽欣付龙
申请(专利权)人:先进操作系统创新中心天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1