一种多模态的用户心智感知问答模型的构建方法技术

技术编号:39437383 阅读:13 留言:0更新日期:2023-11-19 16:20
本发明专利技术公开了一种多模态的用户心智感知问答模型的构建方法,涉及多模态智能问答技术领域。包括构建信息融合模块、构建基于强化学习的策略网络、构建基于问题相似度的用户反馈模块。本发明专利技术在模型中引入场景图形式的视觉信息,能够有效融合多轮对话历史信息及图像场景图信息,使得模型能够获取到图像语义级别的信息,场景图的结构化数据形式也增强了模型推理的可解释性;并且提出的基于问题相似度的用户反馈获取方法为模型引入了用户反馈信号,相较于传统问答模型能够更智能地推测出用户对于答案的反馈,利用该反馈可以引导模型后续的策略网络训练,使模型的推理向更靠近用户心智的方向进行,为用户提供更好的人机服务体验。为用户提供更好的人机服务体验。为用户提供更好的人机服务体验。

【技术实现步骤摘要】
一种多模态的用户心智感知问答模型的构建方法


[0001]本专利技术涉及多模态智能问答
,尤其涉及一种多模态的用户心智感知问答模型的构建方法。

技术介绍

[0002]大数据时代,数据呈现海量多源、模态多样、碎片化明显的特征。在财税数据领域,传统的财税服务积累了庞大的数据资产未得到充分的应用,提供的服务形式上局限于简单的查询,范围上局限于固定的数据库,整体功能单一,灵活程度不高。用户之间往往存在个体差异,对系统的服务需求有所不同,而传统的服务系统面向不同群体的用户提供的是较为统一的客观结果,无法感知用户的主观心智差异,也就难以探知用户的真实需求。因此,构建一个智能化的用户心智感知模型来支撑未来的智慧财税服务系统是非常有必要的。
[0003]心智模型的概念来源于交互设计领域,心智模型与现实世界的交互是通过反馈来完成的,反馈中隐含的是用户的特点,可以理解为用户对当前系统的看法,因此心智模型应该随着用户的变化而变化。引入用户反馈来构建心智模型,目的是使模型能够动态调整回答策略,给出更符合用户个人心智的答案。
[0004]当前的财税平台为用户提供的交互以问答查询为主,这也是因为随着自然语言处理技术的发展,智能问答尤其是对话式问答已经成为一种流行的人机交互形式。对话式问答也叫多轮问答,要求机器能根据上下文内容,和用户围绕某一主题进行连续的对话。目前问答系统的发展研究现状可以从两个角度总结。
[0005]从模型输入角度来看,这种智能问答系统可以分为单模态信息输入系统和多模态信息输入系统,单模态信息输入问答系统以文本输入为主,机器只通过输入的文本内容来理解用户意图,多模态信息输入问答系统能够接收图像、语音、文本、知识图、表格等多种模态的信息作为输入。现有的多模态问答系统研究热点集中在以“图像+文本”为输入的系统类别上,系统需要从两种模态的数据中提取特征。早期的多模态任务对这些来自不同模态数据的特征采取拼接操作,然后传入分类器进行训练,这种方式构造出来的多模态模型严重依赖对特征的多重操作,流程繁琐复杂,多模态特征难以对齐,容易忽略局部特征的关键信息,整体效果不佳。近年来,Transformer在自然语言处理领域大放异彩,越来越多的研究尝试将Transformer结构应用到视觉任务中,由此也为Transformer在多模态任务领域开创了一条道路。由于Transformer的自注意结构能够适应不同类型的数据,使得各种模态的数据在模式对齐上的表现更优秀,从根本上缩小了模态间的异质性差异,同时也尽量保留了模态本身的语义完整性。因此,将Transformer架构应用在多模态问答系统中是一个融合多模态数据特征的有效方法,其注意力机制也能帮助模型捕捉到输入信息中更重要的语义特征。
[0006]从模型知识源的角度来看,智能问答系统又可以分为基于机器阅读理解和基于知识的问答系统。基于机器阅读理解的问答系统利用非结构化的知识源,这一类问答系统一般根据用户给定的信息来回答问题,难点在于机器阅读理解任务,现有方法主要是通过监
督学习训练循环神经网络和卷积网络,或者基于大规模的预训练语言模型来赋予机器理解和回答的能力。基于知识的问答系统利用结构化的知识源,例如知识图谱,其本质就是一种结构化表示的知识,这一类问答系统从用户给定的信息中抽取出重要的实体及关系,利用知识图谱的结构关系来理解问题并对问题进行推理。信息产业的高速发展,让海量数据成为亟待挖掘利用的宝贵资产,这些碎片化的海量信息往往蕴含了丰富的关联,而知识推理技术能够利用显性知识挖掘隐性关系,补全知识缺失,因此也逐渐被应用于问答系统中。知识推理算法主要分为基于关联规则的算法、基于图结构的路径排序算法、基于分布式表示学习的算法、基于神经网络的算法以及混合推理方法,基于关联规则的算法通过定义或学习知识中存在的规则进行挖掘和推理,基于图结构的路径排序算法通过发现实体间的链接路径来预测它们可能存在的关系,基于分布式表示学习的方法通过映射函数将三元组表示映射到向量空间中使它们的新表示尽量满足某种关系,基于神经网络的推理算法以关系图卷积网络为代表。目前较为流行的推理算法是混合推理方法,主要是基于强化学习的思想,将事实判断作为头尾实体之间的寻径问题看待,利用基于策略的强化学习方法解决序列决策问题。
[0007]因此,提出一种多模态的用户心智感知问答模型的构建方法,来解决现有的如何利用多模态信息构建起智能化的多模态问答系统,如何在强化学习的范式下利用知识推理技术提高问答模型的可解释性,并考虑到用户的反馈,实现对用户心智的感知,从而对用户提供个性化的服务的问题,是本领域技术人员亟需解决的问题。

技术实现思路

[0008]有鉴于此,本专利技术提供了一种多模态的用户心智感知问答模型的构建方法,使模型的推理向更靠近用户心智的方向进行,为用户提供更好的人机服务体验。
[0009]为了实现上述目的,本专利技术采用如下技术方案:
[0010]一种多模态的用户心智感知问答模型的构建方法,包括以下步骤:
[0011]S1.构建信息融合模块:融合场景图、问题文本的多模态信息,生成融合嵌入表示,得到多模态信息融合;
[0012]S2.构建基于强化学习的策略网络:采用强化学习范式构建策略网络,建模在场景图中寻找推理路径的过程;
[0013]S3.构建基于问题相似度的用户反馈模块:基于词向量余弦相似度判断问题语义重复度,转换为用户反馈信号返回给策略网络指导路径推理。
[0014]可选的,S1中构建信息融合模块的具体步骤为:
[0015]S11.基于GAT的场景图编码:将场景图数据通过GAT图注意力网络编码,得到节点嵌入表示和关系嵌入表示;
[0016]S12.基于注意力机制进行上下文历史信息融合,得到上下文历史信息融合表示;
[0017]S13.基于Transformer解码器架构的多模态信息融合:采用Transformer的解码器架构将上下文历史信息融合表示、场景图节点嵌入表示和关系嵌入表示进行融合,得到多模态融合输出。
[0018]可选的,S11中基于GAT的场景图编码的具体内容为:
[0019]获取场景图节点表示;
[0020]计算节点和所有邻居节点之间的相关系数;
[0021]对相关系数做归一化得到注意力系数;
[0022]根据注意力系数对邻居节点的信息进行加权求和,获得节点的新表示。
[0023]可选的,S12中基于注意力机制进行上下文历史信息融合的具体内容为:
[0024]采用Glove预训练模型获取文本词向量表示;
[0025]采用多头自注意力机制计算当前问题和上下文历史信息注意力系数,得到多头自注意的输出;
[0026]对多头自注意的输出进行第一次残差连接及规范化;
[0027]经过前馈全连接层后进行第二次残差连接及规范化,得到上下文历史信息融合表示。
[0028]可选的,S13中基于Transformer解码器架构的多模态信息融合的具体内容为:...

【技术保护点】

【技术特征摘要】
1.一种多模态的用户心智感知问答模型的构建方法,其特征在于,包括以下步骤:S1.构建信息融合模块:融合场景图、问题文本的多模态信息,生成融合嵌入表示,得到多模态信息融合;S2.构建基于强化学习的策略网络:采用强化学习范式构建策略网络,建模在场景图中寻找推理路径的过程;S3.构建基于问题相似度的用户反馈模块:基于词向量余弦相似度判断问题语义重复度,转换为用户反馈信号返回给策略网络指导路径推理。2.根据权利要求1所述的一种多模态的用户心智感知问答模型的构建方法,其特征在于,S1中构建信息融合模块的具体步骤为:S11.基于GAT的场景图编码:将场景图数据通过GAT图注意力网络编码,得到节点嵌入表示和关系嵌入表示;S12.基于注意力机制进行上下文历史信息融合,得到上下文历史信息融合表示;S13.基于Transformer解码器架构的多模态信息融合:采用Transformer的解码器架构将上下文历史信息融合表示、场景图节点嵌入表示和关系嵌入表示进行融合,得到多模态融合输出。3.根据权利要求2所述的一种多模态的用户心智感知问答模型的构建方法,其特征在于,S11中基于GAT的场景图编码的具体内容为:获取场景图节点表示;计算节点和所有邻居节点之间的相关系数;对相关系数做归一化得到注意力系数;根据注意力系数对邻居节点的信息进行加权求和,获得节点的新表示。4.根据权利要求2所述的一种多模态的用户心智感知问答模型的构建方法,其特征在于,S12中基于注意力机制进行上下文历史信息融合的具体内容为:采用Glove预训练模型获取文本词向量表示;采用多头自注意力机制计算当前问题和上下文历史信息注意力系数,得到多头自注意的输出;对多头自注意的输出进行第一次残差连接及规范化;经过前馈全连接层后进行第二次残差连接及规范化,得到上下文历史信息融合表示。5.根据权利要求2所述的一种多模态的用户心智感知问答模型的构建方法,其特征在于,S13中基于Transformer解码器架构的多模态信息融合的具体内容为:将上下文融合模块的输出输入到第一个多头自注意层中计算Q、K、V矩阵,得到第一个多头自注意的输出表示;将场景图编码器的输出和上一个多头自注意的输出输入到第二个...

【专利技术属性】
技术研发人员:乔媛媛吕菲林文辉宋颖杨洁
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1