图文对比模型训练方法、装置和图文互检方法制造方法及图纸

技术编号:38603056 阅读:9 留言:0更新日期:2023-08-26 23:36
本申请属于人工智能的机器学习技术领域,可用于金融、医疗等领域的图文互检业务,特别涉及一种图文对比模型训练方法、装置和图文互检方法。方法包括:获取训练数据对,包括文本训练数据和图像训练数据;将文本训练数据输入预训练的文本编码层,获得文本编码特征;将图像训练数据输入预训练的图像编码层,获得图像编码特征;基于文本编码特征和图像编码特征计算训练损失;判断训练损失是否满足预设条件;若否,则根据训练损失对图文对比模型进行参数调节,并继续训练图文对比模型,直至训练损失满足所述预设条件;若是,则停止训练,将当前的图文对比模型确定为训练好的图文对比模型。上述的方法和装置简化了模型训练过程及节省了算力资源。力资源。力资源。

【技术实现步骤摘要】
图文对比模型训练方法、装置和图文互检方法


[0001]本申请涉及人工智能的机器学习
,具体而言,本申请涉及一种图文对比模型训练方法、装置和图文互检方法。

技术介绍

[0002]图文对比学习的模型是图像描述、图文检索等任务(如金融领域的产品信息查询、医疗领域的医疗影像解读等)的基础。以往的图文对比学习的模型都是从头开始训练的,且用于训练的数据都是海量的,(例如,CLIP的预训练需要的训练数据是4亿对图文数据),这对于计算资源不充足的用户而言,图文对比学习的模型训练是非常困难的。而在文本和图像领域本来就有大量的预训练模型。因此如何基于预训练的文本编码器和图像编码器来训练对比学习模型,以降低训练难度和减少算力资源浪费是值得研究的话题。

技术实现思路

[0003]本申请的主要目的为提供一种图文对比模型训练方法、装置、计算机设备和图文互检方法,旨在解决图文对比模型训练过程较为困难、算力资源浪费的技术问题。
[0004]为了实现上述专利技术目的,本申请提供一种图文对比模型训练方法,所述图文对比模型包括预训练的文本编码层和预训练的图像编码层,包括:
[0005]获取训练数据对,所述训练数据对包括文本训练数据和图像训练数据;
[0006]将所述文本训练数据输入所述预训练的文本编码层,获得文本编码特征;
[0007]将所述图像训练数据输入所述预训练的图像编码层,获得图像编码特征;
[0008]基于所述文本编码特征和所述图像编码特征计算训练损失;
[0009]判断所述训练损失是否满足预设条件;
[0010]若否,则根据所述训练损失对所述图文对比模型进行参数调节,并继续训练所述图文对比模型,直至所述训练损失满足所述预设条件;
[0011]若是,则停止训练,将当前的所述图文对比模型确定为训练好的图文对比模型。
[0012]在一个实施例中,所述基于所述文本编码特征和所述图像编码特征计算训练损失的步骤,包括:
[0013]对所述文本编码特征的向量维度进行调整,获得优化文本编码特征;
[0014]对所述图像编码特征的向量维度进行调整,获得优化图像编码特征;
[0015]将所述优化文本编码特征和所述优化图像编码特征进行融合,获得融合编码特征;
[0016]基于所述融合编码特征计算训练损失。
[0017]在一个实施例中,在所述将所述文本训练数据输入所述预训练的文本编码层,获得文本编码特征的步骤之前,还包括;
[0018]对所述文本训练数据进行第一预设比例的特征掩盖。
[0019]在一个实施例中,在所述将所述图像训练数据输入所述预训练的图像编码层,获
得图像编码特征的步骤之前,还包括;
[0020]对所述图像训练数据进行第二预设比例的特征掩盖。
[0021]在一个实施例中,所述图文对比模型的所述训练损失由下式获得:
[0022][0023]其中,K为模型训练中输入的文本训练数据和图像训练数据的个数,i为K个文本训练数据中第i个文本训练数据,j为K个图像训练数据中第j个文本训练数据,ι
i,j
为输入第i个文本训练数据和输入第j个文本训练数据时图文对比模型的训练损失,x
i
为第i个文本训练数据的文本编码特征,x
j
为第j个图像训练数据的图像编码特征,x
k
为K个文本训练数据中的第k个文本训练数据的文本编码特征,sim为余弦相似度,τ是温度系数。
[0024]在一个实施例中,所述图文对比模型训练方法还包括:
[0025]在每次将所述文本训练数据和所述图像训练数据输入至所述图文对比模型,对所述图文对比模型进行训练之前,以第一概率随机去掉所述预训练的文本编码层中的部分神经元,以及以第二概率随机去掉所述预训练的图像编码层中的部分神经元。
[0026]本申请还提供一种图文互检方法,方法包括:
[0027]获取待检索数据,其中,所述待检索数据为图像数据或文本数据;
[0028]将所述待检索数据输入图文对比模型,得到检索结果,其中,当所述待检索数据为图像数据时,所述检索结果为所述图像数据对应的文本,当当所述待检索数据为文本数据时,所述检索结果为所述文本数据对应的图像;
[0029]所述图文对比模型基于上述任一实施例提供的图文对比模型训练方法训练获得。
[0030]本申请还提供一种图文对比模型训练装置,所述图文对比模型包括预训练的文本编码层和预训练的图像编码层,所述装置包括:
[0031]训练数据对获取模块,用于获取训练数据对,所述训练数据对包括文本训练数据和图像训练数据;
[0032]文本编码特征获取模块,用于将所述文本训练数据输入所述预训练的文本编码层,获得文本编码特征;
[0033]图像编码特征获取模块,用于将所述图像训练数据输入所述预训练的图像编码层,获得图像编码特征;
[0034]训练损失计算模块,用于基于所述文本编码特征和所述图像编码特征计算训练损失;
[0035]判断模块,判断所述训练损失是否满足预设条件;
[0036]第一执行模块,用于当所述训练损失不满足预设条件时,根据所述训练损失对所述图文对比模型进行参数调节,并继续训练所述图文对比模型,直至所述训练损失满足所述预设条件;
[0037]第二执行模块,用于当所述训练损失满足预设条件时,停止训练,将当前的所述图文对比模型确定为训练好的图文对比模型。
[0038]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的图文对比模型训练方
法的步骤。
[0039]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例提供的图文对比模型训练方法的步骤。
[0040]本申请所提供的一种图文对比模型训练方法、装置和图文互检方法,包括:获取训练数据对,所述训练数据对包括文本训练数据和图像训练数据;将所述文本训练数据输入所述图文对比模型中的预训练的文本编码层,获得文本编码特征;将所述图像训练数据输入所述图文对比模型中的预训练的图像编码层,获得图像编码特征;基于所述文本编码特征和所述图像编码特征计算训练损失;判断所述训练损失是否满足预设条件;若否,则根据所述训练损失对所述图文对比模型进行参数调节,并继续训练所述图文对比模型,直至所述训练损失满足所述预设条件;若是,则停止训练,将当前的所述图文对比模型确定为训练好的图文对比模型。通过在图文对比模型中引入预训练的文本编码层和图像编码层,可以节省图文对比模型整体的训练时间和简化图文对比模型的训练过程。
附图说明
[0041]图1为本申请一实施例的图文对比模型训练方法的流程示意图;
[0042]图2为本申请一实施例的图文对比模型的结构示意图;
[0043]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文对比模型训练方法,其特征在于,所述图文对比模型包括预训练的文本编码层和预训练的图像编码层,所述方法包括:获取训练数据对,所述训练数据对包括文本训练数据和图像训练数据;将所述文本训练数据输入所述预训练的文本编码层,获得文本编码特征;将所述图像训练数据输入所述预训练的图像编码层,获得图像编码特征;基于所述文本编码特征和所述图像编码特征计算训练损失;判断所述训练损失是否满足预设条件;若否,则根据所述训练损失对所述图文对比模型进行参数调节,并继续训练所述图文对比模型,直至所述训练损失满足所述预设条件;若是,则停止训练,将当前的所述图文对比模型确定为训练好的图文对比模型。2.根据权利要求1所述的图文对比模型训练方法,其特征在于,所述基于所述文本编码特征和所述图像编码特征计算训练损失的步骤,包括:对所述文本编码特征的向量维度进行调整,获得优化文本编码特征;对所述图像编码特征的向量维度进行调整,获得优化图像编码特征,其中,所述优化图像编码模型的向量维度与所述优化文本编码特征的向量维度相同;将所述优化文本编码特征和所述优化图像编码特征进行融合,获得融合编码特征;基于所述融合编码特征计算训练损失。3.根据权利要求1所述的图文对比模型训练方法,其特征在于,在所述将所述文本训练数据输入所述预训练的文本编码层,获得文本编码特征的步骤之前,还包括;对所述文本训练数据进行第一预设比例的特征掩盖。4.根据权利要求1所述的图文对比模型训练方法,其特征在于,在所述将所述图像训练数据输入所述预训练的图像编码层,获得图像编码特征的步骤之前,还包括;对所述图像训练数据进行第二预设比例的特征掩盖。5.根据权利要求1所述的图文对比模型训练方法,其特征在于,所述图文对比模型的所述训练损失由下式获得:其中,K为模型训练中输入的文本训练数据和图像训练数据的个数,i为K个文本训练数据中第i个文本训练数据,j为K个图像训练数据中第j个文本训练数据,
i,j
为输入第i个文本训练数据和输入第j个文本训练数据时图文对比模型的训练损失,x
i
为第i个文本训练数据的文本编码特征,x
j
为第j个图像训练数据的图像编码特征,x
k
为K个文本训练数...

【专利技术属性】
技术研发人员:唐小初舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1