图像与文本匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35037877 阅读:21 留言:0更新日期:2022-09-24 23:15
本发明专利技术涉及智能决策领域,揭露一种图像与文本匹配方法、装置、电子设备以及存储介质,所述方法包括:获取训练图像与训练文本;利用预构建的匹配模型的自注意力机制对训练图像与训练文本进行特征提取;利用预构建的匹配模型的融合注意力机制对图像特征与文本特征进行融合,得到融合注意力值;对融合图像特征与融合文本特征进行匹配,得到初始匹配结果;利用预构建的匹配模型的损失函数计算匹配结果的损失值;若损失值大于预设阈值调整预构建的匹配模的模型参数,返回对训练图像与训练文本进行特征提取;损失值不大于预设阈值得到训练好的模型,利用匹配模型对待匹配数据进行匹配,得到最终匹配结果。本发明专利技术可以提高图像与文本匹配的准确度。匹配的准确度。匹配的准确度。

【技术实现步骤摘要】
图像与文本匹配方法、装置、电子设备及存储介质


[0001]本专利技术涉及智能决策领域,尤其涉及一种图像与文本匹配方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]图像与文本匹配是指通过将文本与图像进行匹配,判断图像是否符合文本的描述,以及文本描述的内容是否为图像。
[0003]目前,图像与文本的匹配存在一些问题,比如,图像A与图像B为不同视觉下的相同的物体,图像A的文本描述同时也与图像B匹配,但实际情况是图像A的文本描述与图像B的视觉不同,导致图像B与图像A的文本描述不匹配。因此,图像与文本匹配的准确度较低。

技术实现思路

[0004]本专利技术提供一种图像与文本匹配方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高图像与文本匹配的准确度。
[0005]为实现上述目的,本专利技术提供的一种图像与文本匹配方法,包括:
[0006]获取训练图像与训练文本;
[0007]利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征;
[0008]利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值;
[0009]根据所述融合注意力值,对所述融合图像特征与所述融合文本特征进行匹配,得到所述训练图像与所述训练文本的初始匹配结果;
[0010]利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值;
[0011]若所述损失值大于预设阈值,调整所述预构建的匹配模型中的模型参数,返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤;
[0012]若所述损失值不大于所述预设阈值,得到训练好的匹配模型,利用所述匹配模型对待匹配数据进行匹配,得到最终匹配结果。
[0013]可选地,所述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征,包括:
[0014]利用所述自注意力机制中的直方图法对所述训练图像进行特征提取,得到所述图像特征;
[0015]对所述训练文本进行词块分割,得到文本词块;
[0016]利用所述自注意力机制中的TF

IDF算法计算所述文本词块的文本特征值;
[0017]在所述文本特征值大于预设特征值时,将所述文本特征值对应的文本词块作为所述文本特征。
[0018]可选地,所述TF

IDF算法包括:
[0019][0020]其中,TF

IDF表示文本词块的特征值,TF表示文本词块的词块频率,C表示某类文档中某个文本词块出现的次数,C

表示该类文档中所有文本词块的数目,IDF表示文件频率,W表示语料库中的文档总数,W

表示包含所述文本词块的文档数目。
[0021]可选地,所述利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值,包括
[0022]利用下述公式对所述图像特征与所述文本特征进行融合:
[0023][0024]其中,Attention表示融合注意力值,Source表示图像特征,Query文本特征,Key
i
表示图像特征的第i个图像特征点,Value
i
所述第i个图像特征点的权重系数,n表示图像特征点

文本特征点的总数,表示对权重系数进行加权求和,Similarity表示图像特征与文本特征的相似度。
[0025]可选地,所述根据所述融合注意力值,对所述融合图像特征与所述融合文本特征进行匹配,得到所述训练图像与所述训练文本的初始匹配结果,包括:
[0026]获取训练数据库,计算所述训练数据库中的图像数据与文本数据的图像注意力值与文本注意力值;
[0027]将所述融合注意力值分别与所述图像注意力值、所述文本注意力值进行相似程度计算,得到图像相似度与文本相似度;
[0028]在所述图像相似度与所述文本相似度均大于预设相似度时,将所述图像数据与所述文本数据作为所述初始匹配结果。
[0029]可选地,所述损失函数包括:
[0030][0031]其中,loss表示损失值,x表示样本数量,y表示实际结果,a表示初始匹配结果,n表示样本总数量。
[0032]可选地,所述调整所述预构建的匹配模型中的模型参数,包括:
[0033]获取验证数据,将所述验证数据输入至所述预构建的匹配模型中,得到所述验证数据的验证损失值;
[0034]构建所述验证数据与所述验证损失值的线性损失图,识别所述模型参数对应的调整原则;
[0035]根据所述线性损失图,利用所述调整原则对所述模型参数进行调整。
[0036]为了解决上述问题,本专利技术还提供一种图像与文本匹配装置,所述装置包括:
[0037]训练数据获取模块,用于获取训练图像与训练文本;
[0038]特征提取模块,用于利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征;
[0039]特征融合模块,用于利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值;
[0040]特征匹配模块,用于根据所述融合注意力值,对所述融合图像特征与所述融合文本特征进行匹配,得到所述训练图像与所述训练文本的初始匹配结果;
[0041]损失函数计算模块,用于利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值;
[0042]模型参数调整模块,用于若所述损失值大于预设阈值,调整所述预构建的匹配模型中的模型参数,返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤;
[0043]待匹配数据匹配模块,用于若所述损失值不大于所述预设阈值,得到训练好的匹配模型,利用所述匹配模型对待匹配数据进行匹配,得到最终匹配结果。
[0044]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0045]至少一个处理器;以及,
[0046]与所述至少一个处理器通信连接的存储器;其中,
[0047]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的图像与文本匹配方法。
[0048]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的图像与文本匹配方法。
[0049]可以看出,本专利技术实施例中首先通过获取训练图像与训练文本,以用于对图像与文本的匹配模型进行训练,进一步地,本专利技术实施例中通过利用预构建的匹配模型中的自注意力机制对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像与文本匹配方法,其特征在于,所述方法包括:获取训练图像与训练文本;利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征;利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值;根据所述融合注意力值,对所述融合图像特征与所述融合文本特征进行匹配,得到所述训练图像与所述训练文本的初始匹配结果;利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值;若所述损失值大于预设阈值,调整所述预构建的匹配模型中的模型参数,返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤;若所述损失值不大于所述预设阈值,得到训练好的匹配模型,利用所述匹配模型对待匹配数据进行匹配,得到最终匹配结果。2.如权利要求1所述的图像与文本匹配方法,其特征在于,所述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征,包括:利用所述自注意力机制中的直方图法对所述训练图像进行特征提取,得到所述图像特征;对所述训练文本进行词块分割,得到文本词块;利用所述自注意力机制中的TF

IDF算法计算所述文本词块的文本特征值;在所述文本特征值大于预设特征值时,将所述文本特征值对应的文本词块作为所述文本特征。3.如权利要求2所述的图像与文本匹配方法,其特征在于,所述TF

IDF算法包括:其中,TF

IDF表示文本词块的特征值,TF表示文本词块的词块频率,C表示某类文档中某个文本词块出现的次数,C

表示该类文档中所有文本词块的数目,IDF表示文件频率,W表示语料库中的文档总数,W

表示包含所述文本词块的文档数目。4.如权利要求1所述的图像与文本匹配方法,其特征在于,所述利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值,包括:利用下述公式对所述图像特征与所述文本特征进行融合:其中,Attention表示融合注意力值,Source表示图像特征,Query文本特征,Key
i
表示图像特征的第i个图像特征点,Value
i
所述第i个图像特征点的权重系数,n表示图像特征点

文本特征点的总数,表示对权重系数进行加权求和,Similarity表示图像特征与文本
特征的相似度。5.如权利要求1所述的图像与文本匹配方法,其特...

【专利技术属性】
技术研发人员:刘羲舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1