【技术实现步骤摘要】
模板自动生成的知识图谱问答训练及应用服务系统
本申请涉及智能应用领域,具体涉及一种模板自动生成的知识图谱问答训练系统,以及一种模板自动生成的知识图谱问答应用服务系统。
技术介绍
基于问答模板的方法在知识图谱问答中发挥重要的作用,该方法通过使用分词、命名实体识别、谓词检测、类别检测、问句类型分类、实体链接等方式对用户自然语言问句进行语义特征抽取,利用获取到的语义特征与模板库中问句模板通过相似度或者排序算法进行匹配。模板匹配成功后利用自然语言问句中的实体、类别等信息对查询模板(通常为SPARQL查询语句)进行实例化继而执行知识查询并返回结果。基于问答模板的知识图谱问答方法不仅可以较为清晰的追踪整个问答过程还可以实现复杂问题的问答,但是传统的基于模板的知识图谱问答存在以下两个问题:1.依赖手工制定模板需要耗费大量的人工成本。2.很难保证问题的覆盖率。
技术实现思路
本申请提供一种模板自动生成的知识图谱问答训练及应用服务系统,解决现有技术人工成本高,问题覆盖率低的问题。本申请提供一种模板自动生成的知识图谱问答训练系统,其特征在于,包括:谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块;依存句法分析和语义角色对齐模块,依存句法分析模块用于将句子分析成一棵依存句法树,描述出各个词语之间的依存关系; ...
【技术保护点】
1.一种模板自动生成的知识图谱问答训练系统,其特征在于,包括:/n谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;/n骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块;/n依存句法分析和语义角色对齐模块,依存句法分析模块用于将句子分析成一棵依存句法树,描述出各个词语之间的依存关系;语义角色对齐模块用于将问句中的短语映射到骨干查询中提及的实体、关系、或者类别形成对应关系。/n模板泛华模块,用于根据依存句法树、骨干查询、问句元素和骨干查询元素间的对应关系,将语义角色对齐后没有被映射的问句依存树节点和骨干查询语义元素去除后,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库;/n排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型。/n
【技术特征摘要】
1.一种模板自动生成的知识图谱问答训练系统,其特征在于,包括:
谓词词典和类别词典的构建模块,用于使用远程监督的方式分别构建谓语词典和类别词典;
骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块;
依存句法分析和语义角色对齐模块,依存句法分析模块用于将句子分析成一棵依存句法树,描述出各个词语之间的依存关系;语义角色对齐模块用于将问句中的短语映射到骨干查询中提及的实体、关系、或者类别形成对应关系。
模板泛华模块,用于根据依存句法树、骨干查询、问句元素和骨干查询元素间的对应关系,将语义角色对齐后没有被映射的问句依存树节点和骨干查询语义元素去除后,将依存句法树、骨干查询、以及所述对应关系作为模板存入模板库;
排序模型训练模块,用于使用机器学习二分类器对每两个匹配模板,根据匹配度高低进行分类学习,获取问句模板排序模型。
2.根据权利要求1所述的系统,其特征在于,使用远程监督的方式构建谓语词典,包括:
针对知识图谱中的关系p,以C(p)={(s,o):(s,p,o)∈K}代表知识图谱中所有与p相关的三元组,其中K表示知识图谱;
若C(p)中的s和o两个实体在同一句自然语言描述中被同时检测到,则提取该句文本中两个实体中间语言描述r;
按照远程监督的假设若(s,p,o)是知识图谱中的三元组,则r表示p,将映射(r→p)添加到谓词词典Lp中;
将所述映射出现的次数与语料中所有关系被检测到次数总和的商作为该映射的权重。
3.根据权利要求1所述的系统,其特征在于,使用远程监督的方式构建类别词典,包括:
针对知识图谱中类别c,以C(c)={e:(etypec)∈K}表示知识图谱中类别c的所有实体;
系统在语料上进行检索,若检测到了实体或其他名词性短语,则将映射(np→c)条件别词典库;
将所述映射出现的次数与语料中所有关系被检测到次数总和的商作为该映射的权重。
4.根据权利要求1所述的系统,其特征在于,骨干查询生成模块,用于获取每一条训练问答对的主题实体和答案实体在知识图谱中的子图,使用变量代替子图中的答案节点,形成骨干查询模块,包括:
对于每一条训练问答对,利用命名实体识别技术检测问句中的实体提及;
通过实体链接检测知识图谱中所述实体提及的主题实体;
通过最短路径算法获取问句中的主题实体和答案实体在知识图谱中的子图M;
将所有答案节点的类型节点添加到子图M中;
使用变量将子图M中的答案节点代替得到SPARQL形式的骨干查询模块。
5.根据权利要求1所述的系统,其特征在于,...
【专利技术属性】
技术研发人员:王杰,何韦澄,刘华根,马胜雨,景永强,
申请(专利权)人:来康科技有限责任公司,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。