一种基于知识图谱和疑问词驱动的问题生成系统技术方案

技术编号:32643370 阅读:16 留言:0更新日期:2022-03-12 18:20
本发明专利技术公开了一种基于知识图谱和疑问词驱动的问题生成系统,包括:文本预处理模块,用于对文本进行预处理;一跳知识图谱构造模块,用于基于预处理后的文本,构造一跳知识图谱;注意力向量计算模块,用于计算基于一跳知识图谱的静态图注意力向量;特征增强的编码器;门控自注意力机制模块,用于以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;知识匹配模块;语义搜索空间匹配模块,用以计算问题和回答的语义相似度;疑问词预测模块,用以预测输入文本对应的疑问词。用以预测输入文本对应的疑问词。用以预测输入文本对应的疑问词。

【技术实现步骤摘要】
一种基于知识图谱和疑问词驱动的问题生成系统


[0001]本专利技术属于自然语言处理研究的
,尤其是一种基于知识图谱和疑问词驱动的问题生成系统,基于知识图谱和疑问词驱动的问题生成模型可以让系统对输入文本的语义和对应的疑问词有着更为准确的预测。

技术介绍

[0002]近年来,随着计算机硬件算力的巨幅提升和深度学习研究的深入推进,自然语言生成技术取得了极大的进展。问题生成技术作为自然语言生成(Natural Language Generation,NLG)最为重要的环节之一,也取得了一定的成果,诞生了众多数据驱动的深度学习模型。随着人工智能应用的普及,人们对于人机问答的渴望越来越强烈,问题生成系统是人工智能,尤其是自然语言处理中最为复杂和和极具挑战性的一环。一方面,生成的问题必须能够抓住问答的主题和相关事实,另一方面,模型生成的问题必须具有高度的丰富性和多样性以确保高质量的用户体验。
[0003]知识图谱已被证明可以大幅提升自然语言处理(Natural Language Processing,NLP)模型的性能。在日常的聊天或者对话过程中,提问题是一种非常常见的场景。因此,生成一个恰当、有意义的问题,对于自动问答技术来说至关重要。问题生成,在问答任务中扮演着极为重要的角色,旨在根据给定的输入文本,生成与该段文本相关的问题,其在问答系统、对话系统、聊天机器人等领域有着广泛的应用。在日常闲聊中,抛出一个问题,往往能够确定聊天的主题,以便更好地进行后续的对话;在搜索引擎中,人们往往会输入一个问题,期待得到相关的答案和检索内容;在智能客服系统中,用户输入的关键字,系统会自动产生与之关联的问题,并提供用户检索,大大提高了客服的效率。近几年,诸多学者提出了各式各样的问题生成模型,然而,还是会出现语义不匹配的问题,尤其是问题的疑问词。疑问词正确与否,将直接决定一个问题的语义是否清晰和明确。比如针对地点“The Forbidden City”,生成的问题须以“where”开头,否则会出现语义不清晰、不模糊的问题,严重影响用户体验和模型性能。另一方面,问题的语义是否丰富,也是决定问题生成模型好坏的重要因素之一。在问答场景中,问题和答案往往都在讨论某一事物,具有一定的关联性,如针对答案“Ilike apples best ofall”,往往会围绕“fruit”进行提问。因此,将知识融合进问题生成模型,可以扩充输入文本的语义,以生成更加高质量的问题。
[0004]问题生成领域当前研究的难点主要在于:1)生成问题的语义不够丰富,往往容易生成枯燥和无聊的问题;2)模型容易生成不够贴切或错误的问题,如错误的疑问词、语义无关的问题等,从而引起歧义或者误会。综上所述,同时将外部知识和预测疑问词引入到问题生成系统中具有一定的前景,故选择此方向作为本专利技术的研究重点。

技术实现思路

[0005]本专利技术要解决的技术问题为:解决传统基于神经网络的问题生成系统中生成的问题过于通用且容易离题的问题,同时增强上下文的语义信息以及生成语义更为丰富的问
题。通过基于一跳的图注意力机制并引入三种辅助任务来提升模型的性能,同时提高疑问词的预测准确率。问题生成系统的第一个核心要点就是如何生成切合问答语义的问题。与其他现有的问题生成系统模型比较,本专利技术生成的问题语义更为丰富,且更加贴近问答事实。其他问题生成系统往往会生成比较无聊、通用或者离题的问题,大大降低了用户体验。问题生成系统的第二个核心要点就是如何增强上下文语义,增强上下文语义可以使模型生成的问题更加真实。为此,通过引入一跳知识图谱的结构、知识匹配模块和语义搜索空间匹配模块来增强上下文的语义信息,最终达到提升系统性能的目的。
[0006]该系统在多任务学习的框架下联合学习问题生成任务,并输出最终的结果。具体地,该系统在多任务学习的框架下从四个方面进行设计:其一,设计了门控自注意力机制,该机制能够动态自适应地获取上下文的语义信息,从而提高编码器的编码性能;其二,设计了一个单独的辅助任务,即,知识匹配模块,以促进模型能够关注到与问答最为相关的事实信息;其三,构造了语义搜索空间匹配模块,以缩短问题与答案在语义搜索空间中的距离;其四,构造了疑问词预测模块,旨在预测输出问题对应的疑问词,进一步提升生成问题的质量。通过多任务学习机制,本专利技术能够生成更加贴切的问题。
[0007]本专利技术解决上述技术问题的技术方案为:一种基于知识图谱和疑问词驱动的问题生成系统,包括:
[0008]文本预处理模块,用于对文本进行预处理;
[0009]一跳知识图谱构造模块,用于基于预处理后的文本,构造一跳知识图谱;
[0010]注意力向量计算模块,用于计算基于一跳知识图谱的静态图注意力向量;
[0011]特征增强的编码器,通过首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;
[0012]门控自注意力机制模块,用于以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;
[0013]解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;
[0014]知识匹配模块;以生成语义更为相关的问题;
[0015]语义搜索空间匹配模块,用以计算问题和回答的语义相似度;
[0016]疑问词预测模块,用以预测输入文本对应的疑问词。
[0017]根据本专利技术的另一个方面,提出一种基于知识图谱和疑问词驱动的问题生成方法,该方法具体步骤如下:
[0018]步骤(1)、对文本进行预处理,具体步骤如下:
[0019]对文本格式进行统一的处理,首先将所有文本进行处理,删除前后和中间多余的空格,并剔除非英文字母符号。采用GlobalVectors forWordRepresentation(GloVe)编码,将每个单词编码成一个300维度的词嵌入形式,GloVe的词表大小选取为30000,未登录词表示为<UNK>。
[0020]步骤(2)、构造一跳知识图谱,具体步骤如下:
[0021]选用ConceptNet大规模常识图谱作为知识库,对于输入的文本,针对每一个单词,搜索其在常识图谱中的一跳节点,节点数量固定为60。采用一个兜底的三元组NOT_A_FACT
去表示没有匹配到任何实体的三元组。如此,便得到了由三元组构成的一跳知识图谱。同时,保留一跳知识图谱的副本。
[0022]步骤(3)、计算基于一跳知识图谱的静态图注意力向量。将输入语句中的每个单词匹配其对应的多跳图,并将多跳图转化为对应的静态图注意力向量以输入到编码器结构中。令K={k1,...,k
|K|
}为知识图谱中抽取出的知识集合,构成知识图谱的三元组向量表示为k
i
=(h
i
,r
i
,t
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱和疑问词驱动的问题生成系统,其特征在于,包括:文本预处理模块,用于对文本进行预处理;一跳知识图谱构造模块,用于基于预处理后的文本,构造一跳知识图谱;注意力向量计算模块,用于计算基于一跳知识图谱的静态图注意力向量;特征增强的编码器,通过首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;门控自注意力机制模块,用于以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;知识匹配模块;以生成语义更为相关的问题;语义搜索空间匹配模块,用以计算问题和回答的语义相似度;疑问词预测模块,用以预测输入文本对应的疑问词。2.一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,包括以下步骤:步骤(1)、对文本进行预处理;步骤(2)、基于预处理后的文本,构造一跳知识图谱;步骤(3)、计算基于一跳知识图谱的静态图注意力向量;步骤(4)、构造特征增强的编码器,首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;步骤(5)、构造门控自注意力机制模块,以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;步骤(6)、构造解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;步骤(7)、构造知识匹配模块;以生成语义更为相关的问题;步骤(8)、构造语义搜索空间匹配模块,以计算问题和回答的语义相似度;步骤(9)、构造疑问词预测模块,以预测输入文本对应的疑问词。3.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(1)、对文本进行预处理,具体步骤如下:对文本格式进行统一的处理,首先将所有文本进行处理,删除前后和中间多余的空格,并剔除非英文字母符号;采用Global Vectors for Word Representation(GloVe)编码,将每个单词编码成一个多维度的词嵌入形式,GloVe的词表大小选取为N
G
,未登录词表示为<UNK>。4.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(2)、构造一跳知识图谱,具体步骤如下:选用ConceptNet大规模常识图谱作为知识库,对于输入的文本,针对每一个单词,搜索其在常识图谱中的一跳节点,节点数量固定为60,采用一个兜底的三元组NOT_A_FACT去表
示没有匹配到任何实体的三元组,得到由三元组构成的一跳知识图谱,同时,保留一跳知识图谱的副本。5.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(3)、计算基于一跳知识图谱的静态图注意力向量,将输入语句中的每个单词匹配其对应的多跳图,并将多跳图转化为对应的静态图注意力向量以输入到编码器结构中,令K={k1,...,k
|K|
}为知识图谱中抽取出的知识集合,构成知识图谱的三元组向量表示为k
i
=(h
i
,r
i
,t
i
),其中,|K|表示集合K中三元组的个数,h
i
、r
i
和t
i
分别为三元组k
i
对应的首部、关系和尾部向量,i∈[1,|K|];为了得到一跳知识图谱对应的图嵌入向量,首先得到一跳知识图谱集合其中,x为输入序列;|x|为输入序列的长度;one表示一跳知识图谱的相关符号,t时刻一跳知识图谱对应的三元组集合为其中,为集合中包含元素的个数;有有和分别t时刻第j个三元组包含的首部、关系和尾部向量;通过下式计算t时刻最终的一跳静态图注意力向量g
t
::其中,g
t
表示t时刻输入对应的一跳静态图注意力向量;α
ti
为t时刻输入的0跳实体与其第i个一跳实体的注意力分数;exp(
·
)为以自然常数e为底数的指数函数;τ(
·
)为双线性注意力函数;[;]为向量的拼接符号。6.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(4)、构造特征增强的编码器,编码器采用一个双向Long Short

Term Memory(LSTM)进行编码,计算如下:计算如下:计算如下:其中,和分别表示t时刻双向LSTM的正方向解码和逆方向解码的隐藏层向量;enc为编码器的标志,下同;为拼接后的输入向量;x
t
、g
t
、m
t
和l
t
分别表示t时刻的词嵌入向量、对应的一跳静态图注意力向量、答案位置信息向量以及词汇特征信息向量。7.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(5)、构造门控自注意力机制模块,首先,获取编码器隐藏层向量矩阵其中,其中,表示二维实数域集合,维度为|x|
×
2d;d为LSTM隐藏层状态的维度;|x|为输入序列x的长度;有[;]为向量拼接符;接着,由自注意力算法得到自注意力矩阵最后,通过一个门控单元控制
最终生成的自注意力矩阵最终生成的自注意力矩阵最终生成的自注意力矩阵最终生成的自注意力矩阵最终生成的自注意力矩阵其中,和分别表示自注意力算法求得的矩阵、融合原始矩阵和自注意力算法后求得的矩阵以及最终通过门控机制求得的矩阵,且|x|为输入序列x的长度;Q、K和V均为计算自注意力分数的状态参数矩阵;Softmax(
·
)、tanh(
·
)、MLP(
·
)和σ(
·
)分别表示Softmax函数、tanh函数、多层感知机函数以及Sigmoid函数;表示矩阵的连接符号;

表示矩阵对应位置相乘的符号;J为全1矩阵,矩阵维度与H保持一致。8.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(6)、构造解码器部分,解码器由另外一个LSTM构成,如下所示:如下所示:如下所示:其中,为t时刻解码器的隐藏层向量;dec为表示解码器的相关符号;y
t
‑1表示t

1时刻解码器的输出向量;表示t时刻的注意力向量;β
tj
表示解码器t时刻的隐藏层向量与编码器第j个输入序列之间的注意力分数;为编码器j时刻的门控自注意力向量;Softmax(
·
)和τ(
·
)分别为Softmax函数和双线性注意力函数;[;]为向量连接符;在解码阶段引入拷贝机制,以避免解码器忽略一些重...

【专利技术属性】
技术研发人员:荣文戈周世杰欧阳元新熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1