基于神经分治推理框架的复杂文本-图像检索方法及设备技术

技术编号:39275710 阅读:10 留言:0更新日期:2023-11-07 10:52
本发明专利技术公开了基于神经分治推理框架的复杂文本

【技术实现步骤摘要】
基于神经分治推理框架的复杂文本

图像检索方法及设备


[0001]本专利技术涉及图文检索
,尤其涉及一种基于神经分治推理框架的复杂文本

图像检索方法、系统、终端及计算机可读存储介质。

技术介绍

[0002]随着互联网的发展,照片、文本、音频、视频等多模态数据的形式迅速扩大,其中,图片和文本是最常见的两种模态。因此,如何检索视觉和文本这两种基本模态,对更多不同的模态检索至关重要,并成为一个重要的应用场景;现在对于图像的需求越来越高,就目前的技术来看,图像的检索技术主要是基于文本和基于图像内容两种方法。这两种方法更倾向于根据关键字来检索所需图片,也就是基于文本的图像检索技术,简称文本

图像检索,非常便捷且易于实现。
[0003]但现有的文本

图像检索大多使用基于预训练的视觉语言模型(Vision

Language Models,VLMs),这些VLMs通常在大规模短文本

图像语料库上进行交叉训练,具有基本的感知计算能力,擅长从对象较少、语言简单的句子中检索图像;早期预训练的VLMs利用类BERT单编码器架构来编码和融合图文信息,然后进行图文推理。此外,双编码器架构在图像

文本匹配任务上的表现优于单编码器架构,并因其效率而在工业中得到广泛应用。
[0004]然而,当预训练的VLMs遇到基于语言复杂文本从相似候选对象中检索准确图像的情况时,由于分解文本的不完整或错误而导致上层推理过程中的错误级联,先前的工作很难理解详细的描述,并进行复杂的跨模态推理。另外,现有技术主要依靠深度学习网络的方法,在问题思考上,与人类大脑的类比推理系统相似,缺乏逻辑推理能力,难以解决复杂描述下的图文推理问题。因此,现有技术中难以解决复杂描述下的图文推理问题。
[0005]因此,现有技术还有待于改进和发展。

技术实现思路

[0006]本专利技术的主要目的在于提供一种基于神经分治推理框架的复杂文本

图像检索方法,旨在解决现有技术中无法解决复杂描述下的图文推理的问题。
[0007]为实现上述目的,本专利技术提供一种基于神经分治推理框架的复杂文本

图像检索方法,所述基于神经分治推理框架的复杂文本

图像检索方法包括如下步骤:
[0008]构建端到端的神经分治推理框架,并获取语言复杂文本和一组相似的图像;
[0009]将所述语言复杂文本输入至所述神经分治推理框架,所述神经分治推理框架将所述语言复杂文本进行划分得到多个简单命题句,并对每个所述简单命题句进行处理得到全局表示;
[0010]将所有所述图像输入至所述神经分治推理框架得到每个所述图像的图像编码,所述神经分治推理框架将所述图像编码与所述全局表示进行融合得到融合序列,并对所述融合序列进行上下文信息交互处理得到所述简单命题句的初始推理状态;
[0011]对所述初始推理状态进行处理得到目标推理状态,并基于所述目标推理状态得到
所述简单命题句对所述图像的第一目标置信度分数;
[0012]所述神经分治推理框架基于所述目标推理状态得到负向推理状态,基于所述负向推理状态得到置信度分数,并将所述负向推理状态与所述置信度分数进行连接操作,得到所述简单命题句对所述图像的第二目标置信度分数;
[0013]将所述第一目标置信度分数和所述第二目标置信度分数进行结合得到所述语言复杂文本对应的目标图像。
[0014]可选地,所述的基于神经分治推理框架的复杂文本

图像检索方法,其中,所述将所述语言复杂文本输入至所述神经分治推理框架,所述神经分治推理框架将所述语言复杂文本进行划分得到多个简单命题句,并对每个所述简单命题句进行处理得到全局表示,具体包括:
[0015]将所述语言复杂文本输入至所述神经分治推理框架的命题生成器中,基于所述命题生成器的编码器将所述语言复杂文本进行编码得到复合命题文本;
[0016]基于所述命题生成器的多层感知机对所述复合命题文本进行预测得到目标数量的所述简单命题句,将每个所述简单命题句进行随机初始化得到对应的初始化命题句;
[0017]基于所述命题生成器的语义解析模块获取每个所述初始化命题句的特征向量,根据交叉注意力机制将所述特征向量与所述复合命题文本进行交互,得到交互后的融合表示,并将所述融合表示进行处理得到所述简单命题句的全局表示。
[0018]可选地,所述的基于神经分治推理框架的复杂文本

图像检索方法,其中,所述基于所述命题生成器的语义解析模块对所述复合命题文本进行划分得到多个简单命题句,之后还包括:
[0019]基于所述命题生成器的解码器将所述简单命题句的全局表示进行解码得到可视化的文本句。
[0020]可选地,所述的基于神经分治推理框架的复杂文本

图像检索方法,其中,所述将所有所述图像输入至所述神经分治推理框架得到每个所述图像的图像编码,所述神经分治推理框架将所述图像编码与所述全局表示进行融合得到融合序列,并对所述融合序列进行上下文信息交互处理得到所述简单命题句的初始推理状态,具体包括:
[0021]将所有所述图像输入至所述神经分治推理框架,基于所述神经分治推理框架的视觉编码器获取每个所述图像的图像编码,所述神经分治推理框架的视觉语言交互器将所述图像编码与所述全局表示进行双模融合得到融合序列;
[0022]将所述语言复杂文本的信息与所述图像的信息进行融合得到融合信息,基于所述神经分治推理框架的Transformer神经网络架构分别对所述融合序列和所述融合信息进行上下文交互,得到第一交互表示和第二交互表示;
[0023]将所述第一交互表示和所述第二交互表示进行拼接融合得到所述简单命题句的初始推理状态。
[0024]可选地,所述的基于神经分治推理框架的复杂文本

图像检索方法,其中,所述对所述初始推理状态进行处理得到目标推理状态,并基于所述目标推理状态得到所述简单命题句对所述图像的第一目标置信度分数,具体包括:
[0025]获取所述复合命题文本的推理状态,基于所述神经分治推理框架的多层感知机将所述初始推理状态与所述推理状态进行合并处理得到目标推理状态;
[0026]基于所述神经分治推理框架的线性预测头对所述目标推理状态进行分析处理得到所述简单命题句对所述图像的第一目标置信度分数。
[0027]可选地,所述的基于神经分治推理框架的复杂文本

图像检索方法,其中,所述神经分治推理框架基于所述目标推理状态得到负向推理状态,基于所述负向推理状态得到置信度分数,并将所述负向推理状态与所述置信度分数进行连接操作,得到所述简单命题句对所述图像的第二目标置信度分数,具体包括:
[0028]将所述目标推理状态输入至所述神经分治推理框架的神经符号推理器,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经分治推理框架的复杂文本

图像检索方法,其特征在于,所述基于神经分治推理框架的复杂文本

图像检索方法包括:构建端到端的神经分治推理框架,并获取语言复杂文本和一组相似的图像;将所述语言复杂文本输入至所述神经分治推理框架,所述神经分治推理框架将所述语言复杂文本进行划分得到多个简单命题句,并对每个所述简单命题句进行处理得到全局表示;将所有所述图像输入至所述神经分治推理框架得到每个所述图像的图像编码,所述神经分治推理框架将所述图像编码与所述全局表示进行融合得到融合序列,并对所述融合序列进行上下文信息交互处理得到所述简单命题句的初始推理状态;对所述初始推理状态进行处理得到目标推理状态,并基于所述目标推理状态得到所述简单命题句对所述图像的第一目标置信度分数;所述神经分治推理框架基于所述目标推理状态得到负向推理状态,基于所述负向推理状态得到置信度分数,并将所述负向推理状态与所述置信度分数进行连接操作,得到所述简单命题句对所述图像的第二目标置信度分数;将所述第一目标置信度分数和所述第二目标置信度分数进行结合得到所述语言复杂文本对应的目标图像。2.根据权利要求1所述的基于神经分治推理框架的复杂文本

图像检索方法,其特征在于,所述将所述语言复杂文本输入至所述神经分治推理框架,所述神经分治推理框架将所述语言复杂文本进行划分得到多个简单命题句,并对每个所述简单命题句进行处理得到全局表示,具体包括:将所述语言复杂文本输入至所述神经分治推理框架的命题生成器中,基于所述命题生成器的编码器将所述语言复杂文本进行编码得到复合命题文本;基于所述命题生成器的多层感知机对所述复合命题文本进行预测得到目标数量的所述简单命题句,将每个所述简单命题句进行随机初始化得到对应的初始化命题句;基于所述命题生成器的语义解析模块获取每个所述初始化命题句的特征向量,根据交叉注意力机制将所述特征向量与所述复合命题文本进行交互,得到交互后的融合表示,并将所述融合表示进行处理得到所述简单命题句的全局表示。3.根据权利要求2所述的基于神经分治推理框架的复杂文本

图像检索方法,其特征在于,所述基于所述命题生成器的语义解析模块对所述复合命题文本进行划分得到多个简单命题句,之后还包括:基于所述命题生成器的解码器将所述简单命题句的全局表示进行解码得到可视化的文本句。4.根据权利要求1所述的基于神经分治推理框架的复杂文本

图像检索方法,其特征在于,所述将所有所述图像输入至所述神经分治推理框架得到每个所述图像的图像编码,所述神经分治推理框架将所述图像编码与所述全局表示进行融合得到融合序列,并对所述融合序列进行上下文信息交互处理得到所述简单命题句的初始推理状态,具体包括:将所有所述图像输入至所述神经分治推理框架,基于所述神经分治推理框架的视觉编码器获取每个所述图像的图像编码,所述神经分治推理框架的视觉语言交互器将所述图像编码与所述全局表示进行双模融合得到融合序列;
将所述语言复杂文本的信息与所述图像的信息进行融合得到融合信息,基于所述神经分治推理框架的Transformer神经网络架构分别对所述融合序列和所述融合信息进行上下文交互,得到第一交互表示和第二交互表示;将所述第一交互表示和所述第二交互表示进行拼接融合得到所述简单命题句的初始推理状态。5.根据权利要求2所述的基于神经分治推理框架的复杂文本

图像检索方法,其特征在于,所述对所述初始推理状态进行处理得到目标推理状态,并基于所述目标推理状态得到所述简单命题句对所述图像的第一目标置信度分数,具体包括:获取所述复合命题文本的推理状态,基于所述神经分治推理框架的多层感知机将所述初始推理状态与所述推理状态进行合并处理得到目标推理状态;基于所述神经分治推理框架的线性预测头对所述目标推理状态进行分析处理得到所述简单命题句对所述图像的第一目标置信度分数。6.根据权利要求1所述的基于神经分治推理框架的复杂文本

...

【专利技术属性】
技术研发人员:户保田包睿李云鑫
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1