基于双模态特征融合的问答方法、装置、设备和存储介质制造方法及图纸

技术编号：34729865 阅读：63 留言：0更新日期：2022-08-31 18:18

本申请涉及语音语义领域，提供基于双模态特征融合的问答方法、装置、设备和存储介质，其中方法包括：获取输入图像和输入问句，通过已训练的图像检测模型提取所述输入图像的目标区域特征，将目标区域特征输入已训练的卷积神经网络，得到平均图像特征。对所述输入问句进行词性标注，得到标注问句。通过已训练的文本检测模型提取标注问句的词向量，得到平均文本特征。将平均图像特征和平均文本特征进行特征融合，得到融合特征。将融合特征输入到长短期记忆神经网络进行解码，得到答案文本。平均图像特征不包含背景，噪声含量比较低。基于仅包含提问词和相关名词得到的平均文本特征不受其他词的影响。由平均图像特征和平均文本特征得到的答案文本也较为准确。得到的答案文本也较为准确。得到的答案文本也较为准确。

全部详细技术资料下载

【技术实现步骤摘要】
基于双模态特征融合的问答方法、装置、设备和存储介质

[0001]本申请涉及数据融合
，例如涉及基于双模态特征融合的问答方法、装置、设备和存储介质。

技术介绍

[0002]随着深度学习的发展，互联网产生了大量的数据，尤其是文本和图像数据。比如OpenAI开源的CLIP模型，是在4亿对图像
‑
文本数据集上训练；视频数据天然就是文本和图像数据的结合。因此获取图像
‑
文本的跨模态数据是很容易的。相比较于以前的搜索文本任务，现在诞生了根据图片搜索文本和根据文本及图像搜集文本答案等新颖任务。其中视觉问答(VQA)这两年得到了广泛的研究和应用，VQA任务是指一个VQA系统以一系列图像和与该系列图像有关的自由、开放式的自然语言问题作为输入，生成一条自然语言答案作为输出。这一任务涉及了图像和文本两种数据集的多模态学习任务。
[0003]现有技术在处理图像数据集时通常需要输入图像序列中的整张图像，整张图像的尺寸较大，图像的背景和噪声会使得提取的图像特征不准确。现有技术在处理文本数据集时通常需要输入整个句子，会带来很多无关的词语，使得提取的文本特征不准确。

技术实现思路

[0004]本申请提供一种基于双模态特征融合的问答方法、装置、设备和存储介质，旨在解决问答方法中图像特征存在噪声和文本特征存在无关词语的问题。
[0005]为解决上述问题，本申请采用以下技术方案：
[0006]本文提供了基于双模态特征融合的问答方法，其特征在于，包括：
[0007]获...

【技术保护点】

【技术特征摘要】
1.一种基于双模态特征融合的问答方法，其特征在于，包括：获取输入图像和输入问句；通过已训练的图像检测模型提取所述输入图像的目标区域特征，将所述目标区域特征输入已训练的卷积神经网络，得到平均图像特征；对所述输入问句进行词性标注，得到标注问句；通过已训练的文本检测模型提取所述标注问句的词向量，得到平均文本特征；将所述平均图像特征和所述平均文本特征进行特征融合，得到融合特征；将所述融合特征输入到长短期记忆神经网络进行解码，得到答案文本。2.根据权利要求1所述的基于双模态特征融合的问答方法，其特征在于，所述目标区域特征包括目标区域坐标和目标区域图像；所述通过已训练的图像检测模型提取所述输入图像的目标区域特征，包括：获取所述输入图像的检测区域；提取所述检测区域的图像类别，提取所述检测区域的置信度；筛选出所述图像类别为目标类别，且所述置信度大于或等于置信度阈值的目标检测区域；提取所述目标检测区域的所述目标区域坐标；根据所述目标区域坐标提取所述目标区域图像。3.根据权利要求1所述的基于双模态特征融合的问答方法，其特征在于，所述将所述目标区域特征输入已训练的卷积神经网络，得到平均图像特征，包括：将所述目标区域特征输入已训练的卷积神经网络，得到图像特征；计算所述图像特征的平均值，得到平均图像特征。4.根据权利要求1所述的基于双模态特征融合的问答方法，其特征在于，所述对所述输入问句进行词性标注，得到标注问句，包括：使用词类标注器将所述输入问句进行拆分，得到拆分词；对所有所述拆分词进行词性标注，得到标注问句。5.根据权利要求1所述的基于双模态特征融合的问答方法，其特征在于，所述通过已训练的文本检测模型提取所述标注问句的词向量，得到平均文本特征，包括：通过所述已训练的文本检测模型提取所述标注问句的提问词和相关名词；将所述提问词和所述相关名词转换为词向量；计算所述词向量的平均值，得到所述平均文本特征。6.根据权利要求1所述的基于双模态特征融合的问答方法，其特...

【专利技术属性】
技术研发人员：唐小初，张祎頔，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人