视觉场景文本融合模型的预训练和图文检索方法及装置制造方法及图纸

技术编号：34693792 阅读：21 留言：0更新日期：2022-08-27 16:28

本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置，涉及人工智能技术领域，具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为：获取样本图文对；提取样本图像中的样本场景文本；将样本文本输入文本编码网络，得到样本文本特征；将样本图像和初始的样本融合特征输入视觉编码子网络，以及将初始的样本融合特征和样本场景文本输入场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征；根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征，对视觉场景文本融合模型进行预训练。通过上述技术方案，能够提高图文跨模态检索性能。索性能。索性能。

全部详细技术资料下载

【技术实现步骤摘要】
视觉场景文本融合模型的预训练和图文检索方法及装置

[0001]本公开涉及人工智能
，具体涉及深度学习、图像处理和计算机视觉

技术介绍

[0002]随着人工智能技术的发展，检索的形式越来越多样化。其中，图文检索是目前已有检索形式中的重要一种。图文检索的任务形式可以是给定一个搜索文本，从图像库中选出与搜索文本最相关的图像，或者还可以是给定一张图像，从文本库中选出与所给定的图像最相关的文本。在图文检索场景下，如何精准的完成检索任务至关重要。

技术实现思路

[0003]本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置。
[0004]根据本公开的一方面，提供了一种视觉场景文本融合模型的预训练方法，其中，视觉场景文本融合模型包括文本编码网络和视觉场景编码网络，所述视觉场景编码网络包括视觉编码子网络和场景编码子网络，所述方法包括：
[0005]获取样本图文对；其中，所述样本图文对包括样本图像和样本文本；
[0006]提取所述样本图像中的样本场景文本；
[0007]将所述样本文本输入所述文本编码网络，得到样本文本特征；
[0008]将所述样本图像和初始的样本融合特征输入所述视觉编码子网络，以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征；
[0009]根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征，对所述视觉场景文本融合模型进行预训练。
[0...

【技术保护点】

【技术特征摘要】
1.一种视觉场景文本融合模型的预训练方法，其中，视觉场景文本融合模型包括文本编码网络和视觉场景编码网络，所述视觉场景编码网络包括视觉编码子网络和场景编码子网络，所述方法包括：获取样本图文对；其中，所述样本图文对包括样本图像和样本文本；提取所述样本图像中的样本场景文本；将所述样本文本输入所述文本编码网络，得到样本文本特征；将所述样本图像和初始的样本融合特征输入所述视觉编码子网络，以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征；根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征，对所述视觉场景文本融合模型进行预训练。2.根据权利要求1所述的方法，其中，所述将所述样本图像和初始的样本融合特征输入所述视觉编码网络，以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征，包括：将所述样本图像输入所述视觉编码子网络中的输入层，以及将初始的样本融合特征输入所述视觉编码子网络中的融合层，得到视觉编码子网络输出的样本图像的全局图像特征和视觉编码子网络输出的视觉融合特征；将所述样本场景文本输入所述场景编码子网络中的输入层，以及将初始的样本融合特征输入所述场景编码子网络中的融合层，得到所述场景编码子网络输出的场景融合特征；对所述视觉编码子网络输出的视觉融合特征和所述场景编码子网络输出的场景融合特征进行融合，得到经学习的样本融合特征。3.根据权利要求1所述的方法，其中，所述将所述样本文本输入所述文本编码网络，得到样本文本特征，包括：对所述样本文本进行词嵌入，得到样本文本词向量；根据样本文本的模态信息、样本文本的位置编码信息和所述样本文本词向量，确定所述样本文本的词编码结果；根据初始的样本文本特征和所述样本文本的词编码结果，构建样本文本的编码序列；将所述样本文本的编码序列输入所述文本编码网络，得到经学习的样本文本特征。4.根据权利要求1所述的方法，其中，将所述样本图像输入所述视觉编码子网络，包括：对所述样本图像进行分块，得到样本图像块序列；对所述样本图像块序列中的样本图像块进行线性投影，得到样本图像块的编码结果；根据样本图像块的模态信息和样本图像块的位置编码信息对所述样本图像块的编码结果进行处理，得到样本图像块经处理的编码结果；根据初始的全局图像特征和样本图像块经处理的编码结果，构建样本图像的编码序列；将所述样本图像的编码序列输入所述视觉编码子网络中的输入层。5.根据权利要求1所述的方法，其中，将所述样本场景文本输入所述场景编码子网络，包括：对所述样本场景文本进行词嵌入，得到样本场景文本向量；
根据样本场景文本的图位置编码信息、样本场景文本的模态信息、样本场景文本的字位置编码信息和所述样本场景文本向量，确定所述样本场景文本的编码结果；根据初始的样本场景文本特征和所述样本场景文本的编码结果，构建样本场景文本的编码序列；将所述样本场景文本的编码序列输入所述场景编码子网络中的输入层。6.根据权利要求1所述的方法，其中，所述根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征，对所述视觉场景文本融合模型进行预训练，包括：根据所述样本文本特征和经学习的样本融合特征，确定融合文本对比损失；根据所述样本图像的全局图像特征和所述样本文本特征，确定图像文本对比损失；根据所述融合文本对比损失和所述图像文本对比损失，确定训练损失；采用所述训练损失，对所述视觉场景文本融合模型进行预训练。7.根据权利要求6所述的方法，其中，所述根据融合文本对比损失和所述图像文本对比损失，确定训练损失，包括：确定所述样本场景文本是否为空文本；若所述样本场景文本为空文本，则将所述图像文本对比损失作为所述训练损失；否则，将所述融合文本对比损失与所述图像文本对比损失之和，作为训练损失。8.一种视觉场景文本融合模型的训练方法，包括：获取业务方提供的业务图文对；所述业务图文对包括业务图像和业务文本；将所述业务图像和所述业务文本作为训练数据，对视觉场景文本融合模型进行微调；其中，所述视觉场景文本融合模型基于权利要求1
‑
7中任一项所述的一种视觉场景文本融合模型的预训练方法得到。9.一种视觉场景文本融合模型的图文检索方法，其中，视觉场景文本融合模型包括文本编码网络和视觉场景编码网络，所述视觉场景编码网络包括视觉编码子网络和场景编码子网络，所述方法包括：获取待检索的目标文本；提取候选图像中的候选场景文本；将所述目标文本输入所述文本编码网络，得到目标文本特征；将所述候选图像和初始的候选融合特征输入所述视觉编码子网络，以及将初始的候选融合特征和所述候选场景文本输入所述场景编码子网络，得到所述候选图像的全局图像特征；根据所述目标文本特征和所述候选图像的全局图像特征，从所述候选图像中确定目标图像。10.根据权利要求9所述的方法，其中，所述将所述目标文本输入所述文本编码网络，得到目标文本特征，包括：对所述目标文本进行词嵌入，得到目标文本词向量；根据所述目标文本的模态信息、目标文本的位置编码信息和所述目标文本词向量，确定所述目标文本的词编码结果；根据初始的目标文本特征和所述目标文本的词编码结果，构建目标文本的编码序列；将所述目标文本的编码序列输入所述文本编码网络，得到经处理的目标文本特征。
11.根据权利要求9所述的方法，其中，将所述候选图像输入所述视觉编码子网络，包括：对所述候选图像进行分块，得到候选图像块序列；对所述候选图像块序列中的候选图像块进行线性投影，得到候选图像块的编码结果；根据候选图像块的模态信息和候选图像块的位置编码信息对所述候选图像块的编码结果进行处理，确定所述候选图像块经处理的编码结果；根据初始的全局图像特征和所述候选图像块经处理的编码结果，构建候选图像的编码序列；将所述候选图像的编码序列输入所述视觉编码子网络中的输入层。12.根据权利要求9所述的方法，其中，将所述候选场景文本输入所述场景编码子网络，包括：对所述候选场景文本进行词嵌入，得到候选场景文本向量；根据所述候选场景文本的图位置编码信息、候选场景文本的模态信息、候选场景文本的字位置编码信息和所述候选场景文本向量，确定所述候选场景文本的编码结果；根据初始的候选场景文本特征和所述候选场景文本的编码结果，构建候选场景文本的编码序列；将所述候选场景文本的编码序列输入所述场景编码子网络中的输入层。13.根据权利要求9所述的方法，其中，所述视觉场景文本融合模型基于权利要求8所述的一种视觉场景文本融合模型的训练方法得到。14.一种视觉场景文本融合模型的预训练装置，其中，视觉场景文本融合模型包括文本编码网络和视觉场景编码网络，所述视觉场景编码网络包括视觉编码子网络和场景编码子网络，所述装置包括：样本图文对获取模块，用于获取样本图文对；其中，所述样本图文对包括样本图像和样本文本；样本场景文本提取模块，用于提取所述样本图像中的样本场景文...

【专利技术属性】
技术研发人员：孙逸鹏，程梦钧，王龙超，朱雄威，姚锟，韩钧宇，刘经拓，丁二锐，王井东，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人