基于深度语义解析的复杂知识库问答方法与系统技术方案

技术编号:37712042 阅读:10 留言:0更新日期:2023-06-02 00:05
本发明专利技术提供一种基于深度语义解析的复杂知识库问答方法与系统,该方法包括:对用户输入的问题进行实体识别,得到实体;对问题进行查询目标、查询条件识别,得到查询目标、查询条件和查询条件值;对问题进行多跳路径识别,得到多跳路径;对得到的实体、查询目标、查询条件、查询条件值及多跳路径进行问题类型判别,根据判别结果通过图查询语句模块生成图查询语句;在图数据库上执行所述图查询语句,解析查询结果生成答案,并以Jason格式输出。本发明专利技术方法通过分类模型识别问题中的实体、查询目标、条件、条件值,避免了抽取模型存在的消歧链指问题,有效解决单实体多属性、多条件约束、比较推理及多跳类复杂问题的问答。较推理及多跳类复杂问题的问答。较推理及多跳类复杂问题的问答。

【技术实现步骤摘要】
基于深度语义解析的复杂知识库问答方法与系统


[0001]本专利技术涉及自然语言处理
,具体而言涉及一种基于深度语义解析的复杂知识库问答方法与系统。

技术介绍

[0002]现有的知识图谱问答系统,通过对用户输入query(问题)进行语义解析,生成结构化查询语句,从给定知识库中选择若干实体或属性值作为该问题的答案,当前知识图谱问答系统在简单句(单实体单属性)上已经取得比较好的效果,而在约束句:条件约束句、时间约束句,以及推理型问句:比较句、最值句、是否型问句以及问句中带有交集、并集和取反的复杂句中,其逻辑推理能力还有待提升。
[0003]为了提升知识图谱问答系统对复杂句的语义解析性能支持,本专利技术提出了一种基于深度语义解析的复杂知识库问答方法—ComplexKBQA(复杂的知识图谱智能问答方法),用以解析单实体多属性问题、条件约束问题(目前仅支持条件相等)、比较类问题(比大小、是否一致)、最值类问题及多跳问题,生成图查询语句并执行语句返回答案。

技术实现思路

[0004]本专利技术目的在于提供一种基于深度语义解析的复杂知识库问答方法,是一种基于深度语义解析的复杂KBQA方法,用于解析复杂句问题,生成图查询语句并执行语句返回答案,提升对复杂句的语义解析性能。
[0005]根据本专利技术目的的第一方面,提出一种基于深度语义解析的复杂知识库问答方法,包括:
[0006]步骤1、对用户输入的问题(query)进行实体识别,得到实体;
[0007]步骤2、对所述问题进行查询目标、查询条件识别,得到查询目标、查询条件和查询条件值;
[0008]步骤3、对所述问题进行多跳路径识别,得到多跳路径;
[0009]步骤4、对得到的所述实体、所述查询目标、所述查询条件、所述查询条件值及所述多跳路径进行问题类型判别,根据判别结果通过图查询语句模块生成图查询语句;
[0010]步骤5、在图数据库上执行所述图查询语句,解析查询结果生成答案,并以Jason格式输出。
[0011]优选地,前述步骤1中,对用户输入的问题进行实体识别包括:
[0012]利用实体抽取模型抽取实体的同义词,若抽取出的同义词在同义词典中直接命中,则选出该实体;
[0013]若抽取出的同义词不在同义词典中,则进行实体匹配,通过K近邻算法筛选出前30个候选实体同义词,并利用匹配模型进行匹配计算;
[0014]若匹配结果的阈值大于0.5,则采用投票机制选出票数最多的实体;
[0015]若匹配结果的阈值小于0.5,则选择匹配结果中匹配概率最大的实体。
[0016]优选地,前述步骤2中,对问题进行查询目标、查询条件识别包括:
[0017]利用查询目标、查询条件识别模型对问题进行识别,得到查询目标、查询条件和查询条件值。
[0018]优选地,前述步骤3中,对问题进行多跳路径识别包括:
[0019]利用predicate识别模型对问题进行K近邻计算,获得候选的路径小跳,对其进行路径排序,得到多跳路径。
[0020]优选地,前述步骤4中,对得到的所述实体、所述查询目标、所述查询条件、所述查询条件值及所述多跳路径进行问题类型判别,所述问题类型包括单实体多属性问题、条件约束问题、比较类问题、最值类问题及多跳问题;
[0021]判别所述单实体多属性问题包括:
[0022]若问题经过前述步骤1、步骤2解析的结果只有单个实体且查询目标经图谱schema判定为关系,则判定问题为查关系实体,通过关系查询图查询语句生成模块生成图查询语句;
[0023]若问题经过前述步骤1、步骤2解析的结果有个数≥1的属性且查询目标经图谱schema判定为多属性,则判定问题为查多属性,通过多属性图查询语句生成模块生成图查询语句。
[0024]优选地,判别所述多跳问题包括:
[0025]若问题经过前述步骤1、步骤2解析的结果中的多跳路径长度超过2,且无条件约束的多跳路径末端关系节点或多跳路径末端节点的属性个数≥1,则判定问题为多跳问题,并通过多跳问题图查询语句模块生成图查询语句;
[0026]若问题经过前述步骤1、步骤2解析的结果中的多跳路径长度不超过2,且无条件约束的多跳路径末端关系节点或多跳路径末端节点的属性个数<1,则进行其他问题类型判别。
[0027]优选地,判别所述条件约束问题包括:
[0028]若问题经过前述步骤1、步骤2解析的结果有实体、约束条件、约束条件值及多跳路径,则判定问题为多条件约束问题,默认条件值相等约束且都作用在路径末端实体上,并通过条件约束类图查询语句生成模块生成图查询语句;
[0029]若问题经过前述步骤1、步骤2解析的结果没有实体、约束条件、约束条件值及多跳路径,则进行比较类问题、最值类问题的判别。
[0030]优选地,判别所述比较类问题包括:
[0031]根据预先定义的比较类型字典,将字典中的keys与问题进行相似度计算,根据计算结果,选取相似度最大的类型作为问题的类型,通过类型图查询语句生成模块生成图查询语句。
[0032]优选地,判别所述最值类问题包括:
[0033]预先定义Min、Max类型字典,基于多层滑动窗口的模糊匹配算法对问题进行Min、Max约束匹配计算;
[0034]若匹配结果为约束在条件上,则进行条件及条件值更新,通过图查询语句生成模块生成图查询语句;
[0035]若匹配结果为约束在查询目标上,则进行查值目标最值过滤,再通过图查询语句
生成模块生成图查询语句。
[0036]根据本专利技术目的的第二方面,还提出一种计算机系统,包括:一个或多个处理器,以及存储器;所述存储器被设置成能够存储可被操作的指令,所述指令通过这样的执行使得所述一个或多个计算机执行操作,所述操作包括前述基于深度语义解析的复杂知识库问答方法的流程。
[0037]与现有技术相比,本专利技术提出的基于深度语义解析的复杂知识库问答方法所达到的有益效果在于:
[0038]本专利技术的方法通过分类模型识别问题中的实体、查询目标、条件、条件值,避免了抽取模型存在的消歧链指问题,同时,查询目标、条件及条件值类采用联合建模的方式,不仅减少了不同任务之间的误差传播,而且大大减少了模型推理时间,提高了自动抽取效率,有效的解决了单实体多属性、多条件约束、比较推理及多跳类复杂问题的问答。
[0039]同时,本专利技术提出的方法对于条件及条件值类两个任务采用基于“span(内联元素,超文本标记语言的行内标签)”多分类问题,每个“span”包含的约束属性值的标签就是其对应的约束属性分类名称,提高了模型表征部分复用性,实现了约束条件和约束条件值的一一对应。
[0040]应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的专利技术主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的专利技术主题的一部分。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度语义解析的复杂知识库问答方法,其特征在于,包括:步骤1、对用户输入的问题进行实体识别,得到实体;步骤2、对所述问题进行查询目标、查询条件识别,得到查询目标、查询条件和查询条件值;步骤3、对所述问题进行多跳路径识别,得到多跳路径;步骤4、对得到的所述实体、所述查询目标、所述查询条件、所述查询条件值及所述多跳路径进行问题类型判别,根据判别结果通过图查询语句模块生成图查询语句;步骤5、在图数据库上执行所述图查询语句,解析查询结果生成答案,并以Jason格式输出。2.根据权利要求1所述的基于深度语义解析的复杂知识库问答方法,其特征在于,前述步骤1中,对用户输入的问题进行实体识别包括:利用实体抽取模型抽取实体的同义词,若抽取出的同义词在同义词典中直接命中,则选出该实体;若抽取出的同义词不在同义词典中,则进行实体匹配,通过K近邻算法筛选出前30个候选实体同义词,并利用匹配模型进行匹配计算;若匹配结果的阈值大于0.5,则采用投票机制选出票数最多的实体;若匹配结果的阈值小于0.5,则选择匹配结果中匹配概率最大的实体。3.根据权利要求1所述的基于深度语义解析的复杂知识库问答方法,其特征在于,前述步骤2中,对问题进行查询目标、查询条件识别包括:利用查询目标、查询条件识别模型对问题进行识别,得到查询目标、查询条件和查询条件值。4.根据权利要求1所述的基于深度语义解析的复杂知识库问答方法,其特征在于,前述步骤3中,对问题进行多跳路径识别包括:利用predicate识别模型对问题进行K近邻计算,获得候选的路径小跳,对其进行路径排序,得到多跳路径。5.根据权利要求1~4中任一所述的基于深度语义解析的复杂知识库问答方法,其特征在于,前述步骤4中,对得到的所述实体、所述查询目标、所述查询条件、所述查询条件值及所述多跳路径进行问题类型判别,所述问题类型包括单实体多属性问题、条件约束问题、比较类问题、最值类问题及多跳问题;判别所述单实体多属性问题包括:若问题经过前述步骤1、步骤2解析的结果只有单个实体且查询目标经图谱schema判定为关系,则判定问题为查关系实体,通过关系查询图查询语句生成模块生成图查询语句;若问题经过前述步骤1、步骤2解析的结果有个数≥1...

【专利技术属性】
技术研发人员:杜振东王清琛
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1