视觉场景文本融合模型的预训练和图文检索方法及装置制造方法及图纸

技术编号:34693792 阅读:21 留言:0更新日期:2022-08-27 16:28
本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为:获取样本图文对;提取样本图像中的样本场景文本;将样本文本输入文本编码网络,得到样本文本特征;将样本图像和初始的样本融合特征输入视觉编码子网络,以及将初始的样本融合特征和样本场景文本输入场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征,对视觉场景文本融合模型进行预训练。通过上述技术方案,能够提高图文跨模态检索性能。索性能。索性能。

【技术实现步骤摘要】
视觉场景文本融合模型的预训练和图文检索方法及装置


[0001]本公开涉及人工智能
,具体涉及深度学习、图像处理和计算机视觉


技术介绍

[0002]随着人工智能技术的发展,检索的形式越来越多样化。其中,图文检索是目前已有检索形式中的重要一种。图文检索的任务形式可以是给定一个搜索文本,从图像库中选出与搜索文本最相关的图像,或者还可以是给定一张图像,从文本库中选出与所给定的图像最相关的文本。在图文检索场景下,如何精准的完成检索任务至关重要。

技术实现思路

[0003]本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置。
[0004]根据本公开的一方面,提供了一种视觉场景文本融合模型的预训练方法,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述方法包括:
[0005]获取样本图文对;其中,所述样本图文对包括样本图像和样本文本;
[0006]提取所述样本图像中的样本场景文本;
[0007]将所述样本文本输入所述文本编码网络,得到样本文本特征;
[0008]将所述样本图像和初始的样本融合特征输入所述视觉编码子网络,以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;
[0009]根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征,对所述视觉场景文本融合模型进行预训练。
[0010]根据本公开的另一方面,提供了一种视觉场景文本融合模型的训练方法,该方法包括:
[0011]获取业务方提供的业务图文对;所述业务图文对包括业务图像和业务文本;
[0012]将所述业务图像和所述业务文本作为训练数据,对视觉场景文本融合模型进行微调;其中,所述视觉场景文本融合模型基于本公开任一种视觉场景文本融合模型的预训练方法进行预训练得到。
[0013]根据本公开的另一方面,提供了一种视觉场景文本融合模型的图文检索方法,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述方法包括:
[0014]获取待检索的目标文本;
[0015]提取候选图像中的候选场景文本;
[0016]将所述目标文本输入所述文本编码网络,得到目标文本特征;
[0017]将所述候选图像和初始的候选融合特征输入所述视觉编码子网络,以及将初始的
候选融合特征和所述候选场景文本输入所述场景编码子网络,得到所述候选图像的全局图像特征;
[0018]根据所述目标文本特征和所述候选图像的全局图像特征,从所述候选图像中确定目标图像。
[0019]根据本公开的又一方面,提供了一种视觉场景文本融合模型的预训练装置,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述装置包括:
[0020]样本图文对获取模块,用于获取样本图文对;其中,所述样本图文对包括样本图像和样本文本;
[0021]样本场景文本提取模块,用于提取所述样本图像中的样本场景文本;
[0022]样本文本特征确定模块,用于将所述样本文本输入所述文本编码网络,得到样本文本特征;
[0023]样本全局特征确定模块,用于将所述样本图像和初始的样本融合特征输入所述视觉编码子网络,以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;
[0024]模型预训练模块,用于根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征,对所述视觉场景文本融合模型进行预训练。
[0025]根据本公开的又一方面,提供了一种视觉场景文本融合模型的训练装置,包括:
[0026]业务图文对获取模块,用于获取业务方提供的业务图文对;所述业务图文对包括业务图像和业务文本;
[0027]微调模块,用于将所述业务图像和所述业务文本作为训练数据,对视觉场景文本融合模型进行微调;其中,所述视觉场景文本融合模型基于本公开任一种视觉场景文本融合模型的预训练装置得到。
[0028]根据本公开的又一方面,提供了一种视觉场景文本融合模型的图文检索装置,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述装置包括:
[0029]目标文本获取模块,用于获取待检索的目标文本;
[0030]候选场景文本提取模块,用于提取候选图像中的候选场景文本;
[0031]目标文本特征确定模块,用于将所述目标文本输入所述文本编码网络,得到目标文本特征;
[0032]候选全局特征确定模块,用于将所述候选图像和初始的候选融合特征输入所述视觉编码子网络,以及将初始的候选融合特征和所述候选场景文本输入所述场景编码子网络,得到所述候选图像的全局图像特征;
[0033]目标图像确定模块,用于根据所述目标文本特征和所述候选图像的全局图像特征,从所述候选图像中确定目标图像。
[0034]根据本公开的又一方面,提供了一种电子设备,该电子设备包括:
[0035]至少一个处理器;以及
[0036]与所述至少一个处理器通信连接的存储器;其中,
[0037]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的视觉场景文本融合模型的预训练方法、训练方法或图文检索方法。
[0038]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任一实施例所述的视觉场景文本融合模型的预训练方法、训练方法或图文检索方法。
[0039]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0040]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0041]图1是根据本公开实施例提供的一种视觉场景文本融合模型的预训练方法的流程图;
[0042]图2A是根据本公开实施例提供的另一种视觉场景文本融合模型的预训练方法的流程图;
[0043]图2B是根据本公开实施例提供的一种视觉场景文本融合模型的示意图;
[0044]图2C是根据本公开实施例提供的一种样本融合特征的确定过程示意图;
[0045]图3是根据本公开实施例提供的又一种视觉场景文本融合模型的预训练方法的流程图;
[0046]图4是根据本公开实施例提供的一种视觉场景文本融合模型的图文检索方法的流程图;
[0047]图5是根据本公开实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉场景文本融合模型的预训练方法,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述方法包括:获取样本图文对;其中,所述样本图文对包括样本图像和样本文本;提取所述样本图像中的样本场景文本;将所述样本文本输入所述文本编码网络,得到样本文本特征;将所述样本图像和初始的样本融合特征输入所述视觉编码子网络,以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征,对所述视觉场景文本融合模型进行预训练。2.根据权利要求1所述的方法,其中,所述将所述样本图像和初始的样本融合特征输入所述视觉编码网络,以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征,包括:将所述样本图像输入所述视觉编码子网络中的输入层,以及将初始的样本融合特征输入所述视觉编码子网络中的融合层,得到视觉编码子网络输出的样本图像的全局图像特征和视觉编码子网络输出的视觉融合特征;将所述样本场景文本输入所述场景编码子网络中的输入层,以及将初始的样本融合特征输入所述场景编码子网络中的融合层,得到所述场景编码子网络输出的场景融合特征;对所述视觉编码子网络输出的视觉融合特征和所述场景编码子网络输出的场景融合特征进行融合,得到经学习的样本融合特征。3.根据权利要求1所述的方法,其中,所述将所述样本文本输入所述文本编码网络,得到样本文本特征,包括:对所述样本文本进行词嵌入,得到样本文本词向量;根据样本文本的模态信息、样本文本的位置编码信息和所述样本文本词向量,确定所述样本文本的词编码结果;根据初始的样本文本特征和所述样本文本的词编码结果,构建样本文本的编码序列;将所述样本文本的编码序列输入所述文本编码网络,得到经学习的样本文本特征。4.根据权利要求1所述的方法,其中,将所述样本图像输入所述视觉编码子网络,包括:对所述样本图像进行分块,得到样本图像块序列;对所述样本图像块序列中的样本图像块进行线性投影,得到样本图像块的编码结果;根据样本图像块的模态信息和样本图像块的位置编码信息对所述样本图像块的编码结果进行处理,得到样本图像块经处理的编码结果;根据初始的全局图像特征和样本图像块经处理的编码结果,构建样本图像的编码序列;将所述样本图像的编码序列输入所述视觉编码子网络中的输入层。5.根据权利要求1所述的方法,其中,将所述样本场景文本输入所述场景编码子网络,包括:对所述样本场景文本进行词嵌入,得到样本场景文本向量;
根据样本场景文本的图位置编码信息、样本场景文本的模态信息、样本场景文本的字位置编码信息和所述样本场景文本向量,确定所述样本场景文本的编码结果;根据初始的样本场景文本特征和所述样本场景文本的编码结果,构建样本场景文本的编码序列;将所述样本场景文本的编码序列输入所述场景编码子网络中的输入层。6.根据权利要求1所述的方法,其中,所述根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征,对所述视觉场景文本融合模型进行预训练,包括:根据所述样本文本特征和经学习的样本融合特征,确定融合文本对比损失;根据所述样本图像的全局图像特征和所述样本文本特征,确定图像文本对比损失;根据所述融合文本对比损失和所述图像文本对比损失,确定训练损失;采用所述训练损失,对所述视觉场景文本融合模型进行预训练。7.根据权利要求6所述的方法,其中,所述根据融合文本对比损失和所述图像文本对比损失,确定训练损失,包括:确定所述样本场景文本是否为空文本;若所述样本场景文本为空文本,则将所述图像文本对比损失作为所述训练损失;否则,将所述融合文本对比损失与所述图像文本对比损失之和,作为训练损失。8.一种视觉场景文本融合模型的训练方法,包括:获取业务方提供的业务图文对;所述业务图文对包括业务图像和业务文本;将所述业务图像和所述业务文本作为训练数据,对视觉场景文本融合模型进行微调;其中,所述视觉场景文本融合模型基于权利要求1

7中任一项所述的一种视觉场景文本融合模型的预训练方法得到。9.一种视觉场景文本融合模型的图文检索方法,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述方法包括:获取待检索的目标文本;提取候选图像中的候选场景文本;将所述目标文本输入所述文本编码网络,得到目标文本特征;将所述候选图像和初始的候选融合特征输入所述视觉编码子网络,以及将初始的候选融合特征和所述候选场景文本输入所述场景编码子网络,得到所述候选图像的全局图像特征;根据所述目标文本特征和所述候选图像的全局图像特征,从所述候选图像中确定目标图像。10.根据权利要求9所述的方法,其中,所述将所述目标文本输入所述文本编码网络,得到目标文本特征,包括:对所述目标文本进行词嵌入,得到目标文本词向量;根据所述目标文本的模态信息、目标文本的位置编码信息和所述目标文本词向量,确定所述目标文本的词编码结果;根据初始的目标文本特征和所述目标文本的词编码结果,构建目标文本的编码序列;将所述目标文本的编码序列输入所述文本编码网络,得到经处理的目标文本特征。
11.根据权利要求9所述的方法,其中,将所述候选图像输入所述视觉编码子网络,包括:对所述候选图像进行分块,得到候选图像块序列;对所述候选图像块序列中的候选图像块进行线性投影,得到候选图像块的编码结果;根据候选图像块的模态信息和候选图像块的位置编码信息对所述候选图像块的编码结果进行处理,确定所述候选图像块经处理的编码结果;根据初始的全局图像特征和所述候选图像块经处理的编码结果,构建候选图像的编码序列;将所述候选图像的编码序列输入所述视觉编码子网络中的输入层。12.根据权利要求9所述的方法,其中,将所述候选场景文本输入所述场景编码子网络,包括:对所述候选场景文本进行词嵌入,得到候选场景文本向量;根据所述候选场景文本的图位置编码信息、候选场景文本的模态信息、候选场景文本的字位置编码信息和所述候选场景文本向量,确定所述候选场景文本的编码结果;根据初始的候选场景文本特征和所述候选场景文本的编码结果,构建候选场景文本的编码序列;将所述候选场景文本的编码序列输入所述场景编码子网络中的输入层。13.根据权利要求9所述的方法,其中,所述视觉场景文本融合模型基于权利要求8所述的一种视觉场景文本融合模型的训练方法得到。14.一种视觉场景文本融合模型的预训练装置,其中,视觉场景文本融合模型包括文本编码网络和视觉场景编码网络,所述视觉场景编码网络包括视觉编码子网络和场景编码子网络,所述装置包括:样本图文对获取模块,用于获取样本图文对;其中,所述样本图文对包括样本图像和样本文本;样本场景文本提取模块,用于提取所述样本图像中的样本场景文...

【专利技术属性】
技术研发人员:孙逸鹏程梦钧王龙超朱雄威姚锟韩钧宇刘经拓丁二锐王井东王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1