一种中文知识库答案获取方法及其装置制造方法及图纸

技术编号：24168935 阅读：78 留言：0更新日期：2020-05-16 02:19

本发明专利技术涉及一种中文知识库答案获取方法及其装置，属于答案获取技术领域，解决了现有方法的答案获取结果准确度低的问题。方法包括：对用户输入的问题进行命名实体识别，获得问题的核心主题；根据核心主题检索中文知识库，获得待选答案；根据深度语义匹配模型分别将问题和待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。实现了融合字和词层次捕获问题和待选答案中谓语的相似度，提高了答案获取结果的准确率。

An answer acquisition method and device for Chinese knowledge base

全部详细技术资料下载

【技术实现步骤摘要】
一种中文知识库答案获取方法及其装置
本专利技术涉及答案获取
，尤其涉及一种中文知识库答案获取方法及其装置。
技术介绍
知识问答的目的在于从知识库中提取答案，目前基于知识库的答案获取方法可以分为两类:基于语义分析(SP)的方法和基于信息检索(IR)的方法。基于SP的方法，将自然语言问句转换为某种逻辑表达形式来获取答案，语义分析错误会导致无法获得正确的答案。基于信息检索的方法，直接查询自然语言问题从知识库中检索出答案，作为正确答案返回。目前，已经存在许多大规模的中文知识库，基于中文知识库的答案获取得到了迅速发展。卷积神经网络和门控循环单元(GRU)模型被用来对问句进行语义层次的表示。虽然卷积网络、GRU模型等能够提高知识答案获取的准确性，但是目前中文知识答案获取研究仅衡量了问句和谓语分词后的相似度，由于中文自然语言的特殊性，分词会导致的误差传播以及分词前的语义丢失，造成答案获取结果的准确度低。
技术实现思路
鉴于上述的分析，本专利技术实施例旨在提供一种中文知识库答案获取方法及其装置，用以解决现有的方法获得的答案获取结果准确度低的问题。本专利技术的目的主要是通过以下技术方案实现的：一种中文知识库答案获取方法，包括如下步骤：对用户输入的问题进行命名实体识别，获得问题的核心主题；根据上述核心主题检索中文知识库，获得待选答案；根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度...

【技术保护点】
1.一种中文知识库答案获取方法，其特征在于，包括如下步骤：/n对用户输入的问题进行命名实体识别，获得问题的核心主题；/n根据上述核心主题检索中文知识库，获得待选答案；/n根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；/n基于所述全局语义相似度得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。/n

【技术特征摘要】
1.一种中文知识库答案获取方法，其特征在于，包括如下步骤：
对用户输入的问题进行命名实体识别，获得问题的核心主题；
根据上述核心主题检索中文知识库，获得待选答案；
根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间，获得字层次语义相似度和词层次语义相似度，得到问题和待选答案谓语之间的全局语义相似度；
基于所述全局语义相似度得到检索谓语，利用所述核心主题和检索谓语检索中文知识库得到最终答案。

2.根据权利要求1所述的中文知识库答案获取方法，其特征在于，所述对用户输入的问题进行命名实体识别，获得问题的核心主题，包括如下步骤：
对用户输入的问题进行分词，对分词结果进行词性标注，获得问题中包含的名词、动词、形容词，作为词性标注结果；
将上述词性标注结果和所述问题中包含的字符分别进行向量映射，获得词性向量矩阵xP和问题字符向量矩阵xQ；
将上述xP和xQ进行加和运算，提取加和运算结果x中包含的过去特征和未来特征，建立包含所述过去特征和未来特征的输出向量；
通过上述输出向量，获取所述问题中任意两个字符之间的关系，基于任意两个字符之间的关系得分得到预测序列，将预测序列中的连续序列作为核心主题。

3.根据权利要求2所述的中文知识库答案获取方法，其特征在于，所述建立包含所述过去特征和未来特征的输出向量，包括如下步骤：
通过下面公式提取加和运算结果x包含的过去特征

式中，为前向长短时记忆网络中隐层的输出的过去特征，为前向长短时记忆网络，为前向长短时记忆网络隐层上一时刻的输出，xi为加和运算结果x的第i个元素；
通过下面公式提取加和运算结果x包含的未来特征

式中，为后向长短时记忆网络中隐层的输出的未来特征，为后向长短时记忆网络，为后向长短时记忆网络的隐层上一时刻的输出；
通过下面公式获得包含所述过去特征和未来特征的输出向量H

H＝[h1,...,hi,...,hn]
式中，hi为所述输出向量的第i个元素。

4.根据权利要求2或3所述的中文知识库答案获取方法，其特征在于，所述获取所述问题中任意两个字符之间的关系，包括如下步骤：
根据所述输出向量，获得放缩点注意力；
基于所述放缩点注意力，获得代表所述问题中任意两个字符之间的关系矩阵。

5.根据权利要求4所述的中文知识库答案获取方法，其特征在于，基于任意两个字符之间的关系得分得到预测序列，将预测序列中的连续序列作为核心主题，包括如下步骤：
根据任意两个字符之间的关系矩阵，获得多头注意力机制的输出矩阵；
根据所述多头注意力机制的输出矩阵，获得代表所述问题中任意两个字符之间的关系得分；
基于所述任意两个字符之间的关系得分，获得所有序列的概率；
对上述概率取对数，获得所述概率的对数函数；
选择所述对数函数中最大的序列作为问题的预测序列，将所述预...

【专利技术属性】
技术研发人员：赵小虎，有鹏，张志强，赵成龙，李婉梅，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人