多模态模型的图文处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38577990 阅读:10 留言:0更新日期:2023-08-26 23:24
本发明专利技术涉及图文处理领域,揭露一种多模态模型的图文处理方法,包括:利用多模态模型对第一图像文本对、第二图像文本对进行特征提取,得到第一图像特征、第一文本特征、第二图像特征、第二文本特征;利用第一图像特征、第一文本特征、第二图像特征、第二文本特征生成特征矩阵,计算特征矩阵中除了第一行和最后一行以外的行向量值,得到第一数值集;根据第一行的向量值、最后一行的向量值以及第一数值集,对多模态模型进行迭代训练,得到目标多模态模型。本发明专利技术还提供一种多模态模型的图文处理装置、电子设备及存储介质。本发明专利技术应用在数字医疗领域中,利用CLIP模型对复杂背景的图像和有修饰词的文本的处理时,提高图文匹配的准确率。率。率。

【技术实现步骤摘要】
多模态模型的图文处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及图文处理领域,尤其涉及一种多模态模型的图文处理方法、装置、电子设备及存储介质。

技术介绍

[0002]多模态模型(对比学习)模型是表示学习中非常重要的一种学习模型,多模态模型利用大规模没有标注的数据集进行监督学习,训练完成后能够得到很好的样本表示向量。
[0003]CLIP模型作为多模态的对比学习模型的开山之作,其将网络上收集的图像文本作为CLIP模型的输入,利用配对的图像和文本互为正样本即可对CLIP模型完成训练,并取得非常惊人的效果。
[0004]但是CLIP模型在数字医疗领域中,对复杂背景的图像和有修饰词的文本的输入进行处理时,存在图像与文本描述匹配不准确的技术问题。

技术实现思路

[0005]鉴于以上内容,有必要提供一种多模态模型的图文处理方法,其目的在于解决现有技术中CLIP模型对复杂背景的图像和有修饰词的文本的输入进行处理时,存在图像与文本描述匹配不准确的技术问题。
[0006]本专利技术提供的多模态模型的图文处理方法,包括:
[0007]利用初始的多模态模型对第一图像文本对进行特征提取,得到第一图像特征、第一文本特征;
[0008]利用所述初始的多模态模型对第二图像文本对进行特征提取,得到第二图像特征、第二文本特征;
[0009]利用所述第一图像特征、所述第一文本特征、所述第二图像特征、所述第二文本特征生成特征矩阵,计算所述特征矩阵中除了第一行和最后一行以外的行向量值,得到第一数值集;
[0010]根据所述第一行的向量值、所述最后一行的向量值以及所述第一数值集的各个向量值,对所述初始的多模态模型进行迭代训练,得到目标多模态模型。
[0011]可选的,所述利用初始的多模态模型对第一图像文本对进行特征提取,得到第一图像特征、第一文本特征,包括:
[0012]利用所述初始的多模态模型的图像编码器对所述第一图像文本对的第一图像进行编码,得到所述第一图像特征;
[0013]利用所述初始的多模态模型的文本编码器对所述第一图像文本对的第一文本进行编码,得到所述第一文本特征。
[0014]可选的,所述利用所述初始的多模态模型的图像编码器对所述第一图像文本对的第一图像进行编码,得到所述第一图像特征,包括:
[0015]将所述第一图像划分成至少一个的图像分块,对所述图像分块进行归一化处理;
[0016]利用所述图像编码器对归一化处理后的所述图像分块进行特征提取,得到所述第一图像特征。
[0017]可选的,所述利用所述初始的多模态模型的文本编码器对所述第一图像文本对的第一文本进行编码,得到所述第一文本特征,包括:
[0018]对所述第一文本进行预处理,得到第一文本向量;
[0019]利用所述文本编码器对所述第一文本向量进行特征提取,得到所述第一文本特征。
[0020]可选的,所述利用所述初始的多模态模型对第二图像文本对进行特征提取,得到第二图像特征、第二文本特征,包括:
[0021]利用所述初始的多模态模型的图像编码器对所述第二图像文本对的第二图像进行编码,得到所述第二图像特征;
[0022]利用所述初始的多模态模型的文本编码器对所述第二图像文本对的第二文本进行编码,得到所述第二文本特征。
[0023]可选的,所述利用所述第一图像特征、所述第一文本特征、所述第二图像特征、所述第二文本特征生成特征矩阵,包括:
[0024]根据所述第一图像特征、所述第二图像特征生成第一特征序列,及根据所述第一文本特征、所述第二文本特征生成第二特征序列;
[0025]根据所述第一特征序列、所述第二特征序列生成所述特征矩阵。
[0026]可选的,所述计算所述特征矩阵中除了第一行和最后一行以外的行向量值,得到第一数值集,包括:
[0027]计算所述以外的所有行的向量值,从计算结果中选取出最大向量值和最小向量值;
[0028]计算所述以外的所有行的向量值的和,对所述向量值的和进行求均值得到平均向量值;
[0029]将所述平均向量值、所述最大向量值、所述最小向量值作为所述第一数值集。
[0030]为了解决上述问题,本专利技术还提供一种多模态模型的图文处理装置,所述装置包括:
[0031]第一提取模块,用于利用初始的多模态模型对第一图像文本对进行特征提取,得到第一图像特征、第一文本特征;
[0032]第二提取模块,用于利用所述初始的多模态模型对第二图像文本对进行特征提取,得到第二图像特征、第二文本特征;
[0033]计算模块,用于利用所述第一图像特征、所述第一文本特征、所述第二图像特征、所述第二文本特征生成特征矩阵,计算所述特征矩阵中除了第一行和最后一行以外的行向量值,得到第一数值集;
[0034]输出模块,用于根据所述第一行的向量值、所述最后一行的向量值以及所述第一数值集的各个向量值,对所述初始的多模态模型进行迭代训练,得到目标多模态模型。
[0035]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0036]至少一个处理器;以及,
[0037]与所述至少一个处理器通信连接的存储器;其中,
[0038]所述存储器存储有可被所述至少一个处理器执行的多模态模型的图文处理程序,所述多模态模型的图文处理程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述多模态模型的图文处理方法。
[0039]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多模态模型的图文处理程序,所述多模态模型的图文处理程序可被一个或者多个处理器执行,以实现上述多模态模型的图文处理方法。
[0040]相较现有技术,本专利技术利用初始的多模态模型对第一图像文本对、第二图像文本对进行特征提取,得到第一图像特征、第一文本特征、第二图像特征、第二文本特征;利用第一图像特征、第一文本特征、第二图像特征、第二文本特征生成特征矩阵。利用两种的不同图像文本对集数据,能够准确获取到图像的全局特征和局部特征,该全局特征和局部特征对应的文本特征。
[0041]计算特征矩阵中除了第一行和最后一行以外的行向量值,得到第一数值集;根据第一行的向量值、最后一行的向量值、第一数值集的向量值,对初始的进行迭代训练,得到目标多模态模型。利用特征矩阵的第一行的向量值作为第一样本表示、还将特征矩阵的最后一行的向量值作为第二样本表示,及除去特征矩阵的第一行和最后一行(首尾位置)的第一数值集的向量值进行对比,实现多层次特征的对比学习,确保了CLIP模型对复杂背景的图像和有修饰词的文本的处理时,提高图文匹配的准确率。
附图说明
[0042]图1为本专利技术一实施例提供的多模态模型的图文处理方法的流程示意图;
[0043]图2为本专利技术一实施例提供的多模态模型的图文处理装置的模块示意图;
[0044]图3为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态模型的图文处理方法,其特征在于,所述方法包括:利用初始的多模态模型对第一图像文本对进行特征提取,得到第一图像特征、第一文本特征;利用所述初始的多模态模型对第二图像文本对进行特征提取,得到第二图像特征、第二文本特征;利用所述第一图像特征、所述第一文本特征、所述第二图像特征、所述第二文本特征生成特征矩阵,计算所述特征矩阵中除了第一行和最后一行以外的行向量值,得到第一数值集;根据所述第一行的向量值、所述最后一行的向量值以及所述第一数值集的各个向量值,对所述初始的多模态模型进行迭代训练,得到目标多模态模型。2.如权利要求1所述的多模态模型的图文处理方法,其特征在于,所述利用初始的多模态模型对第一图像文本对进行特征提取,得到第一图像特征、第一文本特征,包括:利用所述初始的多模态模型的图像编码器对所述第一图像文本对的第一图像进行编码,得到所述第一图像特征;利用所述初始的多模态模型的文本编码器对所述第一图像文本对的第一文本进行编码,得到所述第一文本特征。3.如权利要求2所述的多模态模型的图文处理方法,其特征在于,所述利用所述初始的多模态模型的图像编码器对所述第一图像文本对的第一图像进行编码,得到所述第一图像特征,包括:将所述第一图像划分成至少一个的图像分块,对所述图像分块进行归一化处理;利用所述图像编码器对归一化处理后的所述图像分块进行特征提取,得到所述第一图像特征。4.如权利要求2所述的多模态模型的图文处理方法,其特征在于,所述利用所述初始的多模态模型的文本编码器对所述第一图像文本对的第一文本进行编码,得到所述第一文本特征,包括:对所述第一文本进行预处理,得到第一文本向量;利用所述文本编码器对所述第一文本向量进行特征提取,得到所述第一文本特征。5.如权利要求1所述的多模态模型的图文处理方法,其特征在于,所述利用所述初始的多模态模型对第二图像文本对进行特征提取,得到第二图像特征、第二文本特征,包括:利用所述初始的多模态模型的图像编码器对所述第二图像文本对的第二图像进行编码,得到所述第二图像特征;利用所述初始的多模态模型的文本编码器对所述第二图像文本对的第二文本进行编码,得到所述第二文本特征。6....

【专利技术属性】
技术研发人员:唐小初舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1