图像与文本匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35037877 阅读：21 留言：0更新日期：2022-09-24 23:15

本发明专利技术涉及智能决策领域，揭露一种图像与文本匹配方法、装置、电子设备以及存储介质，所述方法包括：获取训练图像与训练文本；利用预构建的匹配模型的自注意力机制对训练图像与训练文本进行特征提取；利用预构建的匹配模型的融合注意力机制对图像特征与文本特征进行融合，得到融合注意力值；对融合图像特征与融合文本特征进行匹配，得到初始匹配结果；利用预构建的匹配模型的损失函数计算匹配结果的损失值；若损失值大于预设阈值调整预构建的匹配模的模型参数，返回对训练图像与训练文本进行特征提取；损失值不大于预设阈值得到训练好的模型，利用匹配模型对待匹配数据进行匹配，得到最终匹配结果。本发明专利技术可以提高图像与文本匹配的准确度。匹配的准确度。匹配的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
图像与文本匹配方法、装置、电子设备及存储介质

[0001]本专利技术涉及智能决策领域，尤其涉及一种图像与文本匹配方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]图像与文本匹配是指通过将文本与图像进行匹配，判断图像是否符合文本的描述，以及文本描述的内容是否为图像。
[0003]目前，图像与文本的匹配存在一些问题，比如，图像A与图像B为不同视觉下的相同的物体，图像A的文本描述同时也与图像B匹配，但实际情况是图像A的文本描述与图像B的视觉不同，导致图像B与图像A的文本描述不匹配。因此，图像与文本匹配的准确度较低。

技术实现思路

[0004]本专利技术提供一种图像与文本匹配方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高图像与文本匹配的准确度。
[0005]为实现上述目的，本专利技术提供的一种图像与文本匹配方法，包括：
[0006]获取训练图像与训练文本；
[0007]利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取，得到图像特征与文本特征；
[0008]利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合，得到融合注意力值；
[0009]根据所述融合注意力值，对所述融合图像特征与所述融合文本特征进行匹配，得到所述训练图像与所述训练文本的初始匹配结果；
[0010]利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值；
[0011]若所述损失值大于预设...

【技术保护点】

【技术特征摘要】
1.一种图像与文本匹配方法，其特征在于，所述方法包括：获取训练图像与训练文本；利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取，得到图像特征与文本特征；利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合，得到融合注意力值；根据所述融合注意力值，对所述融合图像特征与所述融合文本特征进行匹配，得到所述训练图像与所述训练文本的初始匹配结果；利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值；若所述损失值大于预设阈值，调整所述预构建的匹配模型中的模型参数，返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤；若所述损失值不大于所述预设阈值，得到训练好的匹配模型，利用所述匹配模型对待匹配数据进行匹配，得到最终匹配结果。2.如权利要求1所述的图像与文本匹配方法，其特征在于，所述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取，得到图像特征与文本特征，包括：利用所述自注意力机制中的直方图法对所述训练图像进行特征提取，得到所述图像特征；对所述训练文本进行词块分割，得到文本词块；利用所述自注意力机制中的TF
‑
IDF算法计算所述文本词块的文本特征值；在所述文本特征值大于预设特征值时，将所述文本特征值对应的文本词块作为所述文本特征。3.如权利要求2所述的图像与文本匹配方法，其特征在于，所述TF
‑
IDF算法包括：其中，TF
‑
IDF表示文本词块的特征值，TF表示文本词块的词块频率，C表示某类文档中某个文本词块出现的次数，C
′
表示该类文档中所有文本词块的数目，IDF表示文件频率，W表示语料库中的文档总数，W
′
表示包含所述文本词块的文档数目。4.如权利要求1所述的图像与文本匹配方法，其特征在于，所述利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合，得到融合注意力值，包括：利用下述公式对所述图像特征与所述文本特征进行融合：其中，Attention表示融合注意力值，Source表示图像特征，Query文本特征，Key
i
表示图像特征的第i个图像特征点，Value
i
所述第i个图像特征点的权重系数，n表示图像特征点
‑
文本特征点的总数，表示对权重系数进行加权求和，Similarity表示图像特征与文本
特征的相似度。5.如权利要求1所述的图像与文本匹配方法，其特...

【专利技术属性】
技术研发人员：刘羲，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人