多模态模型的图文处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38577990 阅读：10 留言：0更新日期：2023-08-26 23:24

本发明专利技术涉及图文处理领域，揭露一种多模态模型的图文处理方法，包括：利用多模态模型对第一图像文本对、第二图像文本对进行特征提取，得到第一图像特征、第一文本特征、第二图像特征、第二文本特征；利用第一图像特征、第一文本特征、第二图像特征、第二文本特征生成特征矩阵，计算特征矩阵中除了第一行和最后一行以外的行向量值，得到第一数值集；根据第一行的向量值、最后一行的向量值以及第一数值集，对多模态模型进行迭代训练，得到目标多模态模型。本发明专利技术还提供一种多模态模型的图文处理装置、电子设备及存储介质。本发明专利技术应用在数字医疗领域中，利用CLIP模型对复杂背景的图像和有修饰词的文本的处理时，提高图文匹配的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
多模态模型的图文处理方法、装置、电子设备及存储介质

[0001]本专利技术涉及图文处理领域，尤其涉及一种多模态模型的图文处理方法、装置、电子设备及存储介质。

技术介绍

[0002]多模态模型(对比学习)模型是表示学习中非常重要的一种学习模型，多模态模型利用大规模没有标注的数据集进行监督学习，训练完成后能够得到很好的样本表示向量。
[0003]CLIP模型作为多模态的对比学习模型的开山之作，其将网络上收集的图像文本作为CLIP模型的输入，利用配对的图像和文本互为正样本即可对CLIP模型完成训练，并取得非常惊人的效果。
[0004]但是CLIP模型在数字医疗领域中，对复杂背景的图像和有修饰词的文本的输入进行处理时，存在图像与文本描述匹配不准确的技术问题。

技术实现思路

[0005]鉴于以上内容，有必要提供一种多模态模型的图文处理方法，其目的在于解决现有技术中CLIP模型对复杂背景的图像和有修饰词的文本的输入进行处理时，存在图像与文本描述匹配不准确的技术问题。
[0006]本专利技术提供的多模态模型的图文处理方法，包括：
[0007]利用初始的多模态模型对第一图像文本对进行特征提取，得到第一图像特征、第一文本特征；
[0008]利用所述初始的多模态模型对第二图像文本对进行特征提取，得到第二图像特征、第二文本特征；
[0009]利用所述第一图像特征、所述第一文本特征、所述第二图像特征、所述第二文本特征生成特征矩阵，计算所述特征矩阵中除了第一行和最后一行以外的行向...

【技术保护点】

【技术特征摘要】
1.一种多模态模型的图文处理方法，其特征在于，所述方法包括：利用初始的多模态模型对第一图像文本对进行特征提取，得到第一图像特征、第一文本特征；利用所述初始的多模态模型对第二图像文本对进行特征提取，得到第二图像特征、第二文本特征；利用所述第一图像特征、所述第一文本特征、所述第二图像特征、所述第二文本特征生成特征矩阵，计算所述特征矩阵中除了第一行和最后一行以外的行向量值，得到第一数值集；根据所述第一行的向量值、所述最后一行的向量值以及所述第一数值集的各个向量值，对所述初始的多模态模型进行迭代训练，得到目标多模态模型。2.如权利要求1所述的多模态模型的图文处理方法，其特征在于，所述利用初始的多模态模型对第一图像文本对进行特征提取，得到第一图像特征、第一文本特征，包括：利用所述初始的多模态模型的图像编码器对所述第一图像文本对的第一图像进行编码，得到所述第一图像特征；利用所述初始的多模态模型的文本编码器对所述第一图像文本对的第一文本进行编码，得到所述第一文本特征。3.如权利要求2所述的多模态模型的图文处理方法，其特征在于，所述利用所述初始的多模态模型的图像编码器对所述第一图像文本对的第一图像进行编码，得到所述第一图像特征，包括：将所述第一图像划分成至少一个的图像分块，对所述图像分块进行归一化处理；利用所述图像编码器对归一化处理后的所述图像分块进行特征提取，得到所述第一图像特征。4.如权利要求2所述的多模态模型的图文处理方法，其特征在于，所述利用所述初始的多模态模型的文本编码器对所述第一图像文本对的第一文本进行编码，得到所述第一文本特征，包括：对所述第一文本进行预处理，得到第一文本向量；利用所述文本编码器对所述第一文本向量进行特征提取，得到所述第一文本特征。5.如权利要求1所述的多模态模型的图文处理方法，其特征在于，所述利用所述初始的多模态模型对第二图像文本对进行特征提取，得到第二图像特征、第二文本特征，包括：利用所述初始的多模态模型的图像编码器对所述第二图像文本对的第二图像进行编码，得到所述第二图像特征；利用所述初始的多模态模型的文本编码器对所述第二图像文本对的第二文本进行编码，得到所述第二文本特征。6....

【专利技术属性】
技术研发人员：唐小初，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人