模板自动生成的知识图谱问答训练及应用服务系统技术方案

技术编号:24683833 阅读:26 留言:0更新日期:2020-06-27 08:05
本发明专利技术公开了一种模板自动生成的知识图谱问答训练系统,包括:谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询;语义对齐模块;用于使用依存句法分析和整形线性对齐技术将问句短语和主干查询语义元素对齐;模板泛华模块,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库;排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型,解决现有技术人工成本高,问题覆盖率低的问题。

Knowledge map Q & a training and application service system based on template auto generation

【技术实现步骤摘要】
模板自动生成的知识图谱问答训练及应用服务系统
本申请涉及智能应用领域,具体涉及一种模板自动生成的知识图谱问答训练系统,以及一种模板自动生成的知识图谱问答应用服务系统。
技术介绍
基于问答模板的方法在知识图谱问答中发挥重要的作用,该方法通过使用分词、命名实体识别、谓词检测、类别检测、问句类型分类、实体链接等方式对用户自然语言问句进行语义特征抽取,利用获取到的语义特征与模板库中问句模板通过相似度或者排序算法进行匹配。模板匹配成功后利用自然语言问句中的实体、类别等信息对查询模板(通常为SPARQL查询语句)进行实例化继而执行知识查询并返回结果。基于问答模板的知识图谱问答方法不仅可以较为清晰的追踪整个问答过程还可以实现复杂问题的问答,但是传统的基于模板的知识图谱问答存在以下两个问题:1.依赖手工制定模板需要耗费大量的人工成本。2.很难保证问题的覆盖率。
技术实现思路
本申请提供一种模板自动生成的知识图谱问答训练及应用服务系统,解决现有技术人工成本高,问题覆盖率低的问题。本申请提供一种模板自动生成的知识图谱问答训练系统,其特征在于,包括:谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块;依存句法分析和语义角色对齐模块,依存句法分析模块用于将句子分析成一棵依存句法树,描述出各个词语之间的依存关系;语义角色对齐模块用于将问句中的短语映射到骨干查询中提及的实体、关系、或者类别形成对应关系。模板泛华模块,用于根据依存句法树、骨干查询、问句元素和骨干查询元素间的对应关系,将语义角色对齐后没有被映射的问句依存树节点和骨干查询语义元素去除后,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库;排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型。优选的,使用远程监督的方式构建谓语词典,包括:针对知识图谱中的关系p,以C(p)={(s,o):(s,p,o)∈K}代表知识图谱中所有与p相关的三元组,其中K表示知识图谱;若C(p)中的s和o两个实体在同一句自然语言描述中被同时检测到,则提取该句文本中两个实体中间语言描述r;按照远程监督的假设若(s,p,o)是知识图谱中的三元组,则r表示p,将映射(r→p)添加到谓词词典Lp中;将所述映射出现的次数与语料中所有关系被检测到次数总和的商作为该映射的权重。优选的,使用远程监督的方式构建类别词典,包括:针对知识图谱中类别c,以C(c)={e:(etypec)∈K}表示知识图谱中类别c的所有实体;系统在语料上进行检索,若检测到了实体或其他名词性短语,则将映射(np→c)条件别词典库;将所述映射出现的次数与语料中所有关系被检测到次数总和的商作为该映射的权重。优选的,骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块,包括:对于每一条训练问答对,利用命名实体识别技术检测问句中的实体提及;通过实体链接检测知识图谱中所述实体提及的主题实体;通过最短路径算法获取问句中的主题实体和答案实体在知识图谱中的子图M;将所有答案节点的类型节点添加到子图M中;使用变量将子图M中的答案节点代替得到SPARQL形式的骨干查询模块。优选的,还包括:依存句法分析和语义角色对齐,用于根据依存句法树、整形线性对齐获取问句短语和骨干查询语义元素间的对应关系,包括:对问句进行依存句法分析,获取问句依存句法分析树;获取问句短语排列组合以及骨干查询语义元素组合;利用所述词典获取问句短语权重;根据整形线性对齐将问句短语和骨干查询语义元素进行对齐。优选的,模板泛华模块,用于根据依存句法树、骨干查询、问句元素和骨干查询元素间的对应关系,将问句依存树上在语义角色对齐后没有被映射的节点去除,以及将骨干查询中在对应关系中没有提及的类别节点去除后,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库,包括:根据所述对应关系,将问句依存树上在语义角色对齐后没有被映射的节点去除,将依存句法树上具体词汇根据所述对应关系提供的映射替换成语义注释,保留词汇的词性信息和树的边信息;根据所述对应关系将骨干查询中在对应关系中没有提及的类别节点去除,将语义元素信息替换成语义注释;将以上处理后的依存句法树、骨干查询、以及所述对应关系作为模板存入模板库。优选的,排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型,包括:获取训练特征,语义角色对齐特征、语义特征、模板特征。使用机器学习模型进行数据训练。本申请同时提供一种模板自动生成的知识图谱问答应用服务系统,包括:模板匹配模块,用于对新的问句根据依存句法分析,生成问句依存句法树,若模板库中的模板为所述问句依存句法树的子树,则模板匹配成功;模板实例化单元,用于根据给定问句和匹配成功的模板集合进行模板实例化;模板排序模块,用于将得到问句查询对作为输入数据使用排序模型进行模板的排序预测,将得分最高的查询模板作为最佳模板;模板查询模块,用于将得到的最佳实例化查询语句进行知识图谱的数据查询,返回答案。优选的,模板匹配模块,用于对新的问句根据依存句法分析,生成问句依存句法树,若模板库中的模板为所述问句依存句法树的子树,则模板匹配成功,包括:对新的问句根据依存句法分析,生成问句依存句法树;若模板库中的模板在只考虑词性和边信息的情形下为所述问句依存句法树的子树,则模板匹配成功,所述模板为所述问句的候选模板。本申请同时提供一种模板自动生成的知识图谱问答系统,包括模板自动生成的知识图谱问答训练系统和模板自动生成的知识图谱问答应用服务系统。本申请提供一种模板自动生成的知识图谱问答训练及应用服务系统,基于依存句法解析通过自动学习特定知识图谱相关简单问答对生成问句模板和查询模板,同时利用依存句法解析结果的组合特性和从简单问题中学习的模板回答复杂的问题,从而无需任何特定模板捕获完整的复杂问题,解决现有技术人工成本高,问题覆盖率低的问题。附图说明图1是本申请提供的一种模板自动生成的知识图谱问答训练及应用服务系统的架构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。图1提供的一种模板自动生成的知识图谱问答训练及应用服务系统的架构示意图本文档来自技高网...

【技术保护点】
1.一种模板自动生成的知识图谱问答训练系统,其特征在于,包括:/n谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;/n骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块;/n依存句法分析和语义角色对齐模块,依存句法分析模块用于将句子分析成一棵依存句法树,描述出各个词语之间的依存关系;语义角色对齐模块用于将问句中的短语映射到骨干查询中提及的实体、关系、或者类别形成对应关系。/n模板泛华模块,用于根据依存句法树、骨干查询、问句元素和骨干查询元素间的对应关系,将语义角色对齐后没有被映射的问句依存树节点和骨干查询语义元素去除后,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库;/n排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型。/n

【技术特征摘要】
1.一种模板自动生成的知识图谱问答训练系统,其特征在于,包括:
谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;
骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块;
依存句法分析和语义角色对齐模块,依存句法分析模块用于将句子分析成一棵依存句法树,描述出各个词语之间的依存关系;语义角色对齐模块用于将问句中的短语映射到骨干查询中提及的实体、关系、或者类别形成对应关系。
模板泛华模块,用于根据依存句法树、骨干查询、问句元素和骨干查询元素间的对应关系,将语义角色对齐后没有被映射的问句依存树节点和骨干查询语义元素去除后,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库;
排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型。


2.根据权利要求1所述的系统,其特征在于,使用远程监督的方式构建谓语词典,包括:
针对知识图谱中的关系p,以C(p)={(s,o):(s,p,o)∈K}代表知识图谱中所有与p相关的三元组,其中K表示知识图谱;
若C(p)中的s和o两个实体在同一句自然语言描述中被同时检测到,则提取该句文本中两个实体中间语言描述r;
按照远程监督的假设若(s,p,o)是知识图谱中的三元组,则r表示p,将映射(r→p)添加到谓词词典Lp中;
将所述映射出现的次数与语料中所有关系被检测到次数总和的商作为该映射的权重。


3.根据权利要求1所述的系统,其特征在于,使用远程监督的方式构建类别词典,包括:
针对知识图谱中类别c,以C(c)={e:(etypec)∈K}表示知识图谱中类别c的所有实体;
系统在语料上进行检索,若检测到了实体或其他名词性短语,则将映射(np→c)条件别词典库;
将所述映射出现的次数与语料中所有关系被检测到次数总和的商作为该映射的权重。


4.根据权利要求1所述的系统,其特征在于,骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块,包括:
对于每一条训练问答对,利用命名实体识别技术检测问句中的实体提及;
通过实体链接检测知识图谱中所述实体提及的主题实体;
通过最短路径算法获取问句中的主题实体和答案实体在知识图谱中的子图M;
将所有答案节点的类型节点添加到子图M中;
使用变量将子图M中的答案节点代替得到SPARQL形式的骨干查询模块。


5.根据权利要求1所述的系统,其特征在于,...

【专利技术属性】
技术研发人员:王杰何韦澄刘华根马胜雨景永强
申请(专利权)人:来康科技有限责任公司
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1