一种基于知识图谱的问答方法技术

技术编号:38595882 阅读:11 留言:0更新日期:2023-08-26 23:32
一种基于知识图谱的问答方法,包括以下步骤:采集相关领域的问答语料和领域知识,进行预处理,构建好知识库和问答训练库;利用训练库进行特征融合训练,捕捉问题特征,识别出提问问题中的关键实体;基于识别出的关键实体进行知识推理,在知识推理过程中为了处理可能会遇到的较为复杂的提问,提出一种基于卷积推理的多跳知识图谱问答算法,在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法,通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。本发明专利技术依据知识库中已有的实体关系进行延伸,能够回答较为复杂的自然语言问题。复杂的自然语言问题。复杂的自然语言问题。

【技术实现步骤摘要】
一种基于知识图谱的问答方法


[0001]本专利技术涉及人工智能
,具体涉及一种基于知识图谱的问答方法。

技术介绍

[0002]知识图谱问答算法是一种基于人工智能和自然语言处理技术的智能问答系统,旨在帮助用户在知识图谱上提出问题,并给出准确的答案。多跳知识图谱问答算法是一种能够回答关于实体之间复杂关系的自然语言问题的算法。知识图谱问答是利用整理在知识图谱中的领域数据作为问答库进行智能问答的技术,它通过在知识图谱中整理好的知识的基础上进行推理来回答给定的问题,并利用知识图谱中的三元组来获取答案。传统的问答系统一般基于检索或基于模板,其缺点是对于复杂问题的处理能力弱。

技术实现思路

[0003]本专利技术要克服现有技术的上述缺点,提供一种基于知识图谱的问答方法。本专利技术利用多跳知识图谱问答算法能够自动推理并获取多个实体之间的关系,从而回答复杂的自然语言问题。
[0004]一种基于知识图谱的问答方法,包括以下步骤:
[0005]S1.采集相关领域的问答语料和领域知识,进行预处理,构建好知识库和问答训练库。
[0006]S2.利用训练库进行特征融合训练,捕捉问题特征,识别出提问问题中的关键实体。
[0007]S3.基于识别出的关键实体进行知识推理,在知识推理过程中为了处理可能会遇到的较为复杂的提问,提出一种基于卷积推理的多跳知识图谱问答算法,在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法,通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。
[0008]进一步,步骤S1具体包括:
[0009]S1.1从领域专业网站获取数据获取问答数据;
[0010]将依据从相关领域的专业网站上获取咨询对话作为训练语料帮助理解提问的问题。数据包括即为一组键值对,QS={<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答,将采集到的数据进行清洗,接着对用户提出的问题进行分类和标注,以便更好地理解和回答这些问题。
[0011]S1.2数据预处理;
[0012]对所获取的数据进行预处理,使用N

gram模型得到获取的领域问答数据的字符级特征向量表示,通过Word2Vec将每个单词转换为低维向量,然后将这些向量组合成句子向量或段落向量,获取问题的语义级向量特征。
[0013]S1.3构建领域知识图谱;
[0014]从各种渠道收集领域相关的数据,对收集到的数据进行清洗、去重、标注等处理,
使其符合建模要求。进行知识抽取,将相关的信息以三元组的形式存储。确定好知识图谱的构建规则,将知识存入数据库中。
[0015]进一步,步骤S2具体包括:
[0016]明确提问者的问题并提取出关键的信息;为了获取的问题中信息的质量所提出的问题信息模型,结合了单词的语义和字符特征,从而更好地描述了问题的特征。提取出问题中的关键实体。下面是详细步骤:
[0017]S2.1特征融合
[0018]问题中的单词与知识图谱中的关系词存在的语义相似性,准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要。因此,将步骤S1.2中获得的问题语义级特征和字符级特征进行融合,然后输入到LSTM语言模型中,此处所用向量需要进行归一化处理,以获得问题中单词的嵌入向量。
[0019]使用两个LSTM模型,一个用于处理字符级输入,另一个用于处理语义级输入。这两个模型的输出将被连接起来,然后输入到一个全连接层中,以产生最终的融合表示。
[0020]hz=LSTMh(qy)+LSTMc(qz)

[0021]hi=hzi/(hz1+hz2+

+hzn)*100%

[0022]其中中,hz代表问题q中每个单词z的语义级特征qy和字符级特征qz输入后将输出全连接的结果。并且对于问题中的n个单词,每个单词得到的嵌入向量都进行归一化处理得到嵌入向量hi。
[0023]S2.2用全局注意力机制计算嵌入向量;
[0024]为了更好地捕捉问题的关键特征实体,采用一种全局注意力机制来计算问题的嵌入向量。具体地说,这种机制利用前面得到的每个单词的嵌入向量hi作为基础,能够有效地捕捉关键信息并产生更为准确的嵌入向量。
[0025]α=Softmax(hz*uv)

[0026][0027]α代表问题中每个单词的重要性权重,u和v则代表两个不同的权重矩阵。使用α对hz进行加权,并将加权后的结果累加,以计算问题嵌入向量he。
[0028]S2.3问题实体识别基于步骤S1.1得到的问答训练语料,帮助识别出提问中的实体。在步骤s1.1中已经把训练问题进行了分类标注,按照该领域的常用分类进行划分。通过对已有的训练数据集进行词性标注,更准确地识别和回答用户的提问。通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法,提取出问题中的特征。也就是识别出问题中的实体与关系。
[0029]进一步,步骤S3具体包括:
[0030]利用多跳推理探索与知识库中的实体关系相关的更深层次的信息,推理得出新的关系。这个过程需要使用多个三元组进行推理。
[0031]多个实体和关系之间的复杂信息通过多次跳跃来获取。步骤S2中已经识别出问题中的特征也就是知识图谱中的实体,接下来就要通过实体与关系进行推理并得到答案。下面是详细步骤。
[0032]S3.1单跳查询;
[0033]利用知识图谱进行单跳查询。如此可以通过查询某个节点的所有邻居节点来实
现,单跳查询即可满足查询需要。
[0034]S3.2多跳推理;
[0035]如果遇到相对复杂的问题,无法通过单跳查询解决时候,就要使用多跳推理进行答案推理,具体包括:
[0036]S3.2.1实体关系向量化表示;
[0037]进行多跳推理之前,针对每个实体e和关系r,先使用知识图谱嵌入模型将映射到低维空间转化为低维的向量表示。
[0038]S3.2.2多跳知识推理;
[0039]根据步骤S3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分,构建答案评分函数,计算候选答案各自的评分。
[0040]其公式如下所示。
[0041]score=σ(MLP(f([hs;hq]z))
·
hc)

[0042]公式中有三个向量:主题实体s、问题q和候选答案实体c各自的嵌入向量。步骤s3.2.1中得到的向量被输入到一个单层卷积神经网络中进行处理,以获取更深层次的特征嵌入。将主题实体和问题嵌入向量连接在一起,并使用卷积神经网络和多层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的问答方法,包括以下步骤:S1.采集相关领域的问答语料和领域知识,进行预处理,构建好知识库和问答训练库;S2.利用训练库进行特征融合训练,捕捉问题特征,识别出提问问题中的关键实体;S3.基于识别出的关键实体进行知识推理,在知识推理过程中为了处理可能会遇到的较为复杂的提问,提出一种基于卷积推理的多跳知识图谱问答算法,在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法,通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。2.如权利要求1所述的一种基于知识图谱的问答方法,其特征在于:步骤S1具体包括:S1.1从领域专业网站获取数据获取问答数据;将依据从相关领域的专业网站上获取咨询对话作为训练语料帮助理解提问的问题;数据包括即为一组键值对,QS={<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答,将采集到的数据进行清洗,接着对用户提出的问题进行分类和标注,以便更好地理解和回答这些问题;S1.2数据预处理;对所获取的数据进行预处理,使用N

gram模型得到获取的领域问答数据的字符级特征向量表示,通过Word2Vec将每个单词转换为低维向量,然后将这些向量组合成句子向量或段落向量,获取问题的语义级向量特征;S1.3构建领域知识图谱;从各种渠道收集领域相关的数据,对收集到的数据进行清洗、去重、标注等处理,使其符合建模要求;进行知识抽取,将相关的信息以三元组的形式存储;确定好知识图谱的构建规则,将知识存入数据库中。3.如权利要求1所述的一种基于知识图谱的问答方法,其特征在于:步骤S2具体包括:明确提问者的问题并提取出关键的信息;为了获取的问题中信息的质量所提出的问题信息模型,结合了单词的语义和字符特征,从而更好地描述了问题的特征,提取出问题中的关键实体;下面是详细步骤:S2.1特征融合问题中的单词与知识图谱中的关系词存在的语义相似性,准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要;因此,将步骤S1.2中获得的问题语义级特征和字符级特征进行融合,然后输入到LSTM语言模型中,此处所用向量需要进行归一化处理,以获得问题中单词的嵌入向量;使用两个LSTM模型,一个用于处理字符级输入,另一个用于处理语义级输入;这两个模型的输出将被连接起来,然后输入到一个全连接层中,以产生最终的融合表示;hz=LSTMh(qy)+LSTMc(qz)<...

【专利技术属性】
技术研发人员:张鹏季白杨
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1