【技术实现步骤摘要】
基于查询路径生成的知识图谱问答方法、介质和设备
[0001]本专利技术属于计算机应用技术的知识图谱问答
,特别涉及一种基于查询路径生成的知识图谱问答方法、介质和设备。
技术介绍
[0002]在信息爆炸的时代背景下,虽然搜索引擎为人们在检索信息方面提供一定程度的帮助,但是人们仍需要花费不少精力来获得自己想要的信息。当用户利用引擎进行搜索时,搜索引擎只会返回包含搜索词的相关网页,然后用户不得不进入某些网页查找信息。而问答系统是信息检索系统的高级形式,其旨在解答自然语言形式的问题,即用户不用做多余的操作就可以在最短的时间内获取最为简洁、最为准确的信息,大大提升用户的使用体验。基于知识图谱的问答系统具有数据优势:第一,在知识图谱中,实体与实体之间或实体与属性值之间通过带有语义信息的边关联,而关联信息为理解语义提供了条件。第二,知识图谱的构建需要专业人士或专业数据库的介入,知识图谱的数据相较于纯文本的数据拥有更高的准确率。第三,知识图谱的结构化形式,提高了计算机的检索效率,并且为答案的精确定位创造了可能。因此,基于知识图谱的问答 ...
【技术保护点】
【技术特征摘要】
1.一种基于查询路径生成的知识图谱问答方法,其特征在于,步骤包括:针对问题
‑
答案训练集中各问题
‑
答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题
‑
谓语序列数据集;基于问题
‑
谓语序列数据集训练得到谓语序列检测器;针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案;通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。2.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,问题
‑
谓语序列数据集的构建过程如下:针对问题
‑
答案训练集中各问题
‑
答案训练样本,提取问题、焦点词和一个答案;以焦点词作为起点,以答案作为终点,并结合焦点词和答案的标签值,设计Cypher语句;利用Cypher语句在Neo4j数据库中执行查询,获取到问题的一个或多个谓语序列;计算问题与各谓语序列之间的语义相似度,确定出与问题在语义上最相似的一个谓语序列;将问题以及与问题在语义上最相似的一个谓语序列作为问题
‑
谓语序列数据样本,构建得到问题
‑
谓语序列数据集。3.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,基于问题
‑
谓语序列数据集训练得到谓语序列检测器的具体过程如下:S21、将问题输入到神经网络模型中,经过神经网络模型中嵌入模块和编码模块后,得到问题的向量表示;S22、将问题的向量表示输入到分类模块中,输出第一个预测值谓语的分类标签,并得到所对应的第一个预测值谓语;S23、确定分类模块当前输出的分类标签所对应的谓语是否为空;若是,执行步骤S26;若否,执行步骤S24;S24、连接问题和分类模块当前输出的谓语,并且输入到神经网络模型中,经过嵌入模块和编码模块后得到问题和当前谓语的向量表示;S25、将问题和当前谓语的向量表示输入到分类模块中,输出下一个输出下一个预测值谓语的分类标签,得到所对应的下一个预测值谓语,然后执行步骤S23;S26、判定训练是否结束;若否,则从问题
‑
谓语序列数据集中读取下一对问题和谓语序列,并且返回步骤S21;若是,输出谓语序列检测器;针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列的具体过程如下:S31、输入问题至谓语序列检测器,输出问题的第一个谓语;S32、确定谓语序列检测器当前输出的谓语是否为空;若否,则连接谓语序列检测器当前输入的问题和当前输出的谓语,得到连接结果,然后
执行步骤S33;若是,则执行步骤S34;S33、将连接结果输入到谓语序列检测器中,输出问题的下一个谓语,并且返回步骤S32;S34、将谓语序列检测器所获得的谓语构成谓语序列。4.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,通过问题的焦点词、谓语序列和实体的标签值,构建核心路径的具体过程如下:S41、以问题的焦点词为起点,利用知识图谱,链接谓语序列的第一个谓语,记为谓语W1,求出三元组(焦点词,谓语W1,node1)的未知元素node1;S42、检查谓语序列,确定当前完成链接的谓语是否为谓语序列的最后一个谓语;若否,则执行步骤S43;若是,则执行步骤S44;S43,将谓语序列中下一个谓语W
i
作为当前谓语,i=2,3,...,N,然后以上一个三元组中求出的未知元素node
i
‑1为起点,利用知识图谱,链接当前谓语,求出当前三元组(node
i
‑1,谓语W
i
,node
i
)的未知元素node
i
,然后返回步骤S42;S44、生成核心路径,形式为:焦点词
→
谓语W1→
node1→
...
→
node
N
‑1→
谓语W
N
→
node
N
;其中,N为谓语序列中谓语的数量,W
N
为谓语序列中第N个谓语,node
N
为求出的三元组(node
N
‑1,谓语W
N
,node
N
)的未知元素;S45、将核心路径中的node
N
作为候选答案。5.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,通过分析问题识别约束条件,包括问题的约束条件和查询路径的约束条件;所述问题的约束条件包括标签值型约束条件、实体型约束条件、时间型约束条件和序数型约束条件;基于核心路径构建得到查询路径的具体过程如下:S51、针对问题,先识别问题的约束条件,根据问题的约束条件决定是否扩展核心路径;若问题的约束条件为空或问题的约束条件是标签值型数据,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。