视觉智能问答方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38706653 阅读:6 留言:0更新日期:2023-09-08 14:47
本发明专利技术涉及机器学习领域,揭露一种视觉智能问答方法,可适用于智能问诊场景中,包括:获取用户数据,并对用户数据中的文本数据进行分词处理和向量转换,得到文本词向量;分别对用户数据中的图片数据和文本词向量进行特征提取,得到多级别特征图和文本特征词向量;分别构建多级别特征图中特征图之间、文本特征词向量中词向量之间及多级别特征图与文本特征词向量之间的第一关系图、第二关系图及第三关系图,根据上述三种关系图,构建用户数据的最终关系图;对最终关系图进行信息聚合处理,得到聚合信息向量;将聚合信息向量进行降维处理,得到降维信息向量;根据降维信息向量,分析用户数据的问题答案。本发明专利技术可以提高用户问题的答案准确率。答案准确率。答案准确率。

【技术实现步骤摘要】
视觉智能问答方法、装置、电子设备及存储介质


[0001]本专利技术涉及机器学习领域,尤其涉及一种视觉智能问答方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的多模态学习任务,其主要目标就是使计算机根据输入的图片和关于所述图片提出的开放式自然语言问题,输出一个符合自然语言规则且内容合理的答案。医学视觉问答(VQA)是医学人工智能和VQA挑战的结合。给定一幅医学图像和一个自然语言的临床相关问题,医学VQA系统预计将预测一个可信和令人信服的答案。目前,医学视觉问答主要使用卷积神经网络、循环神经网络分别对临床相关问题的医学图像和文本信息进行特征提取,然后使用融合模块对两种信息进行结合推理,最后进行问题的答案输出,但这类方法缺少对于临床相关问题的医学图片场景和文本中的对象之间的关系提取,因此会丢失很多有用的信息,致使预测的问题的答案准确率不高。

技术实现思路

[0003]本专利技术提供一种视觉智能问答方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高预测的问题答案的准确率。
[0004]为实现上述目的,本专利技术提供的一种视觉智能问答方法,包括:
[0005]获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
[0006]利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
[0007]构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
[0008]利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
[0009]利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;
[0010]根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
[0011]可选地,所述利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,包括:
[0012]利用所述预设的图片编码器中的多层卷积层对所述图片数据进行多层卷积操作,得到多层卷积图片;
[0013]根据所述多层卷积层的共享权重和共享偏差,计算所述多层卷积图片的多层线性图片;根据所述多层线性图片,确定所述图片数据的多级别特征图。
[0014]可选地,所述利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量,包括:
[0015]获取所述文本词向量对应的文本数据;
[0016]提取所述文本数据的描述对象信息;
[0017]确定所述描述对象信息对应的描述对象向量;
[0018]利用所述预设的文本编码器对所述文本词向量进行位置编码,得到位置向量;
[0019]根据所述位置向量,构建所述文本词向量的文本初始词向量;
[0020]计算所述描述对象向量与所述文本初始词向量之间的余弦相似度;
[0021]在所述余弦相似度不小于预设阈值时,将所述余弦相似度对应的文本初始词向量作为所述文本特征词向量。
[0022]可选地,所述构建所述多级别特征图中特征图之间的第一关系图,包括:
[0023]利用预设的图片向量转换函数,对所述多级别特征图中特征图进行向量转换,得到同维特征向量;
[0024]对所述同维特征向量进行归一化处理,得到图特征向量;
[0025]计算所述图特征向量中任意两个图向量之间的向量相似度,根据所述向量相似度,确定所述任意两个图向量对应的任意两个特征图之间的连接性;
[0026]根据所述连接性,构建所述多级别特征图中特征图之间的第一关系图。
[0027]可选地,所述根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图,包括:
[0028]对所述第一关系图、所述第二关系图以及所述第三关系图进行节点全连接,得到初始关系图;
[0029]识别所述初始关系图中的任意节点特征与相邻节点特征;
[0030]计算所述任意节点特征与所述相邻节点特征之间的余弦相似度;
[0031]对所述余弦相似度进行归一化处理,得到归一化相似度;
[0032]根据所述归一化相似度与所述初始关系图,确定所述最终关系图。
[0033]可选地,所述利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量,包括:
[0034]将所述最终关系图中各节点的特征向量作为初始信息向量,利用所述图神经网络中的信息聚合函数,计算所述初始信息向量的目标聚合向量;
[0035]根据所述目标聚合向量,确定所述聚合信息向量。
[0036]可选地,所述信息聚合函数,包括:
[0037][0038]其中,表示当前信息聚合节点v第k次信息聚合后的聚合信息向量,v表示当前信
息聚合节点,σ表示非线性激活函数,W
k
表示当前信息聚合节点的邻居节点经过第k

1次信息聚合对应的邻居信息向量的权重系数,u表示当前信息聚合节点的邻居节点,B
k
表示当前信息聚合节点v第k

1次聚合信息向量的权重系数,N(v)表示节点v的邻居节点集,|N(v)|表示节点v的邻居节点的数量,k表示信息聚合次数,m表示信息聚合的最大迭代次数。
[0039]为了解决上述问题,本专利技术还提供一种视觉智能问答装置,所述装置包括:
[0040]文本词向量生成模块,用于获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
[0041]特征提取模块,用于利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
[0042]关系图构建模块,用于构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
[0043]信息聚合模块,用于利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
[0044]信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉智能问答方法,其特征在于,所述方法包括:获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。2.如权利要求1所述的视觉智能问答方法,其特征在于,所述利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,包括:利用所述预设的图片编码器中的多层卷积层对所述图片数据进行多层卷积操作,得到多层卷积图片;根据所述多层卷积层的共享权重和共享偏差,计算所述多层卷积图片的多层线性图片;根据所述多层线性图片,确定所述图片数据的多级别特征图。3.如权利要求1所述的视觉智能问答方法,其特征在于,所述利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量,包括:获取所述文本词向量对应的文本数据;提取所述文本数据的描述对象信息;确定所述描述对象信息对应的描述对象向量;利用所述预设的文本编码器对所述文本词向量进行位置编码,得到位置向量;根据所述位置向量,构建所述文本词向量的文本初始词向量;计算所述描述对象向量与所述文本初始词向量之间的余弦相似度;在所述余弦相似度不小于预设阈值时,将所述余弦相似度对应的文本初始词向量作为所述文本特征词向量。4.如权利要求1所述的视觉智能问答方法,其特征在于,所述构建所述多级别特征图中特征图之间的第一关系图,包括:利用预设的图片向量转换函数,对所述多级别特征图中特征图进行向量转换,得到同维特征向量;对所述同维特征向量进行归一化处理,得到图特征向量;计算所述图特征向量中任意两个图向量之间的向量相似度,根据所述向量相似度,确定所述任意两个图向量对应的任意两个特征图之间的连接性;
根据所述连接性,构建所述多级别特征图中特征图之间的第一关系图。5.如权利要求1所述的视觉智能问答方法,其特征在于,所述根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图,包括:对所述第一关系图、所述第二关系图以及所述第三关系图进行节点全连接,得到初始关系图;识别所述初始关系图中的任意节点特征与相邻节点特征;计算所述任意节点特征与所述相邻节点特征之间的...

【专利技术属性】
技术研发人员:唐小初黎铭舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1