基于双模态特征融合的问答方法、装置、设备和存储介质制造方法及图纸

技术编号:34729865 阅读:62 留言:0更新日期:2022-08-31 18:18
本申请涉及语音语义领域,提供基于双模态特征融合的问答方法、装置、设备和存储介质,其中方法包括:获取输入图像和输入问句,通过已训练的图像检测模型提取所述输入图像的目标区域特征,将目标区域特征输入已训练的卷积神经网络,得到平均图像特征。对所述输入问句进行词性标注,得到标注问句。通过已训练的文本检测模型提取标注问句的词向量,得到平均文本特征。将平均图像特征和平均文本特征进行特征融合,得到融合特征。将融合特征输入到长短期记忆神经网络进行解码,得到答案文本。平均图像特征不包含背景,噪声含量比较低。基于仅包含提问词和相关名词得到的平均文本特征不受其他词的影响。由平均图像特征和平均文本特征得到的答案文本也较为准确。得到的答案文本也较为准确。得到的答案文本也较为准确。

【技术实现步骤摘要】
基于双模态特征融合的问答方法、装置、设备和存储介质


[0001]本申请涉及数据融合
,例如涉及基于双模态特征融合的问答方法、装置、设备和存储介质。

技术介绍

[0002]随着深度学习的发展,互联网产生了大量的数据,尤其是文本和图像数据。比如OpenAI开源的CLIP模型,是在4亿对图像

文本数据集上训练;视频数据天然就是文本和图像数据的结合。因此获取图像

文本的跨模态数据是很容易的。相比较于以前的搜索文本任务,现在诞生了根据图片搜索文本和根据文本及图像搜集文本答案等新颖任务。其中视觉问答(VQA)这两年得到了广泛的研究和应用,VQA任务是指一个VQA系统以一系列图像和与该系列图像有关的自由、开放式的自然语言问题作为输入,生成一条自然语言答案作为输出。这一任务涉及了图像和文本两种数据集的多模态学习任务。
[0003]现有技术在处理图像数据集时通常需要输入图像序列中的整张图像,整张图像的尺寸较大,图像的背景和噪声会使得提取的图像特征不准确。现有技术在处理文本数据集时通常需要输入整个句子,会带来很多无关的词语,使得提取的文本特征不准确。

技术实现思路

[0004]本申请提供一种基于双模态特征融合的问答方法、装置、设备和存储介质,旨在解决问答方法中图像特征存在噪声和文本特征存在无关词语的问题。
[0005]为解决上述问题,本申请采用以下技术方案:
[0006]本文提供了基于双模态特征融合的问答方法,其特征在于,包括:
[0007]获取输入图像和输入问句;通过已训练的图像检测模型提取所述输入图像的目标区域特征,将所述目标区域特征输入已训练的卷积神经网络,得到平均图像特征;
[0008]对所述输入问句进行词性标注,得到标注问句;通过已训练的文本检测模型提取所述标注问句的词向量,得到平均文本特征;
[0009]将所述平均图像特征和所述平均文本特征进行特征融合,得到融合特征;将所述融合特征输入到长短期记忆神经网络进行解码,得到答案文本。
[0010]所述目标区域特征包括目标区域坐标和目标区域图像;
[0011]所述通过已训练的图像检测模型提取所述输入图像的目标区域特征,包括:
[0012]获取所述输入图像的检测区域;
[0013]提取所述检测区域的图像类别,提取所述检测区域的置信度;
[0014]筛选出所述图像类别为目标类别,且所述置信度大于或等于置信度阈值的目标检测区域;
[0015]提取所述目标检测区域的所述目标区域坐标;
[0016]根据所述目标区域坐标提取所述目标区域图像。
[0017]所述将所述目标区域特征输入已训练的卷积神经网络,得到平均图像特征,包括:
[0018]将所述目标区域特征输入已训练的卷积神经网络,得到图像特征;
[0019]计算所述图像特征的平均值,得到平均图像特征。
[0020]所述对所述输入问句进行词性标注,得到标注问句,包括:
[0021]使用词类标注器将所述输入问句进行拆分,得到拆分词;
[0022]对所有所述拆分词进行词性标注,得到标注问句。
[0023]所述通过已训练的文本检测模型提取所述标注问句的词向量,得到平均文本特征,包括:
[0024]通过所述已训练的文本检测模型提取所述标注问句的提问词和相关名词;
[0025]将所述提问词和所述相关名词转换为词向量;
[0026]计算所述词向量的平均值,得到所述平均文本特征。
[0027]所述将所述平均图像特征和所述平均文本特征进行特征融合,得到融合特征,包括:
[0028]通过多模态塔克融合、多模态双线性融合或线性融合将所述平均图像特征和所述平均文本特征进行特征融合,得到所述融合特征。
[0029]所述已训练的卷积神经网络,包括:
[0030]输入层,所述输入层用于对所述目标区域特征进行预处理,得到预处理特征;
[0031]隐含层,所述隐含层用于对所述预处理特征进行卷积、激活和池化,得到隐含层输出;
[0032]全连接层,所述全连接层用于整合所述隐含层输出,得到整合特征;
[0033]输出层,所述输出层用于对所述整合特征进行分类,得到所述图像特征。
[0034]本申请还提供了一种基于双模态特征融合的问答装置,包括:
[0035]图像与问句获取模块、目标区域特征提取模块、平均图像特征提取模块、词性标注模块、文本检测模块、特征融合模块和特征解码模块;
[0036]所述图像与问句获取模块,用于获取输入图像和输入问句;
[0037]所述目标区域特征提取模块,用于通过已训练的图像检测模型提取所述输入图像的目标区域特征;
[0038]所述平均图像特征提取模块,用于将所述目标区域特征输入已训练的卷积神经网络,得到平均图像特征;
[0039]所述词性标注模块,用于对所述输入问句进行词性标注,得到标注问句;
[0040]所述文本检测模块,用于通过已训练的文本检测模型提取所述标注问句的词向量,得到平均文本特征;
[0041]所述特征融合模块,用于将所述平均图像特征和所述平均文本特征进行特征融合,得到融合特征;
[0042]所述特征解码模块,用于将所述融合特征输入到长短期记忆神经网络进行解码,得到答案文本。
[0043]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于双模态特征融合的问答方法的步骤。
[0044]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程
序被处理器执行时实现上述任一项所述的基于双模态特征融合的问答方法的步骤。
[0045]本申请的基于双模态特征融合的问答方法,通过已训练的图像检测模型提取所述输入图像的目标区域特征,将所述目标区域特征输入已训练的卷积神经网络,得到平均图像特征。目标区域特征是输入图像中的目标部分,不包含背景,噪声含量比较低。通过卷积神经网络可以去除目标特征区域中的噪声,得到的平均图像特征更能反映目标在图像上的特点。对所述输入问句进行词性标注,得到标注问句;通过已训练的文本检测模型提取所述标注问句的词向量,得到平均文本特征。词性标注可以区分文本中不同词语的性质,只保留提问词和相关名词,基于仅包含提问词和相关名词得到的平均文本特征不受其他词的影响。在平均图像特征和平均文本特征较为准确的情况下,将两者的融合特征通过长短期记忆神经网络得到的答案文本也较为准确。
附图说明
[0046]图1为一实施例的基于双模态特征融合的问答方法的流程示意图;
[0047]图2为一实施例的提取输入图像的目标区域特征方法的流程示意图;
[0048]图3为一实施例的通过已训练的卷积神经网络得到平均图像特征的流程示意图;
[0049]图4为一实施例的使用已训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双模态特征融合的问答方法,其特征在于,包括:获取输入图像和输入问句;通过已训练的图像检测模型提取所述输入图像的目标区域特征,将所述目标区域特征输入已训练的卷积神经网络,得到平均图像特征;对所述输入问句进行词性标注,得到标注问句;通过已训练的文本检测模型提取所述标注问句的词向量,得到平均文本特征;将所述平均图像特征和所述平均文本特征进行特征融合,得到融合特征;将所述融合特征输入到长短期记忆神经网络进行解码,得到答案文本。2.根据权利要求1所述的基于双模态特征融合的问答方法,其特征在于,所述目标区域特征包括目标区域坐标和目标区域图像;所述通过已训练的图像检测模型提取所述输入图像的目标区域特征,包括:获取所述输入图像的检测区域;提取所述检测区域的图像类别,提取所述检测区域的置信度;筛选出所述图像类别为目标类别,且所述置信度大于或等于置信度阈值的目标检测区域;提取所述目标检测区域的所述目标区域坐标;根据所述目标区域坐标提取所述目标区域图像。3.根据权利要求1所述的基于双模态特征融合的问答方法,其特征在于,所述将所述目标区域特征输入已训练的卷积神经网络,得到平均图像特征,包括:将所述目标区域特征输入已训练的卷积神经网络,得到图像特征;计算所述图像特征的平均值,得到平均图像特征。4.根据权利要求1所述的基于双模态特征融合的问答方法,其特征在于,所述对所述输入问句进行词性标注,得到标注问句,包括:使用词类标注器将所述输入问句进行拆分,得到拆分词;对所有所述拆分词进行词性标注,得到标注问句。5.根据权利要求1所述的基于双模态特征融合的问答方法,其特征在于,所述通过已训练的文本检测模型提取所述标注问句的词向量,得到平均文本特征,包括:通过所述已训练的文本检测模型提取所述标注问句的提问词和相关名词;将所述提问词和所述相关名词转换为词向量;计算所述词向量的平均值,得到所述平均文本特征。6.根据权利要求1所述的基于双模态特征融合的问答方法,其特...

【专利技术属性】
技术研发人员:唐小初张祎頔舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1