当前位置: 首页 > 专利查询>南京大学专利>正文

一种结构优先的知识库问答实现方法及其系统技术方案

技术编号:32437523 阅读:13 留言:0更新日期:2022-02-26 07:55
一种结构优先的知识库问答实现方法及其系统,包括问句结构分析和SPARQL查询结构图生成两部分,问句结构分析的技术方法对自然语言问句进行句法解析,设计并构建了实体描述图和放松查询图两种图模型;SPARQL查询结构图的生成技术从放松查询图出发,使用构建模板的方式,构建放松查询图和SPARQL查询图的查询结构映射库,然后对于待求问句,从映射库中提取模板并拼接得到待求问句对应SPARQL查询结构图的候选。本发明专利技术能生成高准确性的SPARQL查询结构图,通过使用实体链接和关系链接可以构建完整的基于知识库的问答系统。整的基于知识库的问答系统。整的基于知识库的问答系统。

【技术实现步骤摘要】
一种结构优先的知识库问答实现方法及其系统


[0001]本专利技术属于计算机
,涉及知识图谱技术及自然语言处理技术,为一种结构优先的知识库问答实现方法及其系统。
技术背景
[0002]在计算机领域中,问答是指机器回答自然语言问句,涉及了自然语言处理、信息抽取、知识表示等领域,旨在建立一个自动化的问答系统:输入的是自然语言问句,通过对结构化的知识表示或非结构化的信息采集的利用,得到问句答案并输出。其中,知识库问答是建立在知识库之上的问答系统,旨在回答基于知识库的自然语言问题。现如今,越来越多的结构化数据在网络上可供使用,包括DBpedia,Freebase,YAGO等知识库,终端用户如何方便快捷地访问知识库成为了一个重要的话题。
[0003]资源描述框架(RDF)作为知识库的标准表示,由三元组构成<s,p,o>,其中s=subject,p=predicate,o=object,通常被表达为图结构。SPARQL语言(SPARQL Protocol and RDF Query Language)是为RDF开发的一种查询语言和数据获取协议,SPARQL查询是访问RDF数据的标准查询方法,然而,SPARQL语法和RDF模式具有较高的复杂程度,掌握SPARQL语言需要专业的知识,非专业用户难以使用。对此,构建良好的知识库问答系统能让不了解SPARQL语法和知识库构建的非专业用户也能有效地使用和访问知识库,是如今受到诸多研究者关注的热门研究话题。知识库问答系统背后的思想是在知识库中查找用户使用自然语言请求的信息,这通常通过将自然问题转换为SPARQL查询来解决,SPARQL查询可用于检索所需的信息。
[0004]在知识库问答中,形式化查询的生成在回答复杂问题时尤其重要。给定实体和关系链接结果,形式化查询生成的目的是由自然语言问句生成正确的可执行查询,例如SPARQL查询。现有的方法包括:基于预先收集模板的方法,基于语义解析的方法和基于信息检索、神经网络的方法等。模板作为查询生成中一类重要的技术,它常用于简化自然语言描述的语义解析,并生成结构化的查询,已有方法通常将自然语言描述模板与查询模板配对,将描述组成部分映射到查询的组成部分,很多已有工作依赖于手工生成的模板,这会导致方法的局限性。基于语义解析的知识库问答系统通常使用组合范畴语法,将自然语言转换成查询图或逻辑表达形式。基于信息检索的问答系统并不对自然语言进行语义解析,而是通过关系抽取等方法选择一系列答案候选,然后用不同的方法进行评测打分。
[0005]现有知识库问答研究工作中,仍存在很多困难与挑战,主要包括:自然语言的理解与表示;自然语言与结构化知识的不一致性;问句复杂性等。
[0006]自然语言的理解与表示:自然语言的表述千变万化,同样含义句子的表述形式可能完全不同,如何正确地理解与表达自然语言是非常困难的。
[0007]自然语言与知识库结构化知识的不一致性:这是知识库问答最核心的困难所在,体现在语法组织结构和语义表述两方面。在语义表述上,自然语言单词与知识库的实体/关系名称可能不同;在语法结构上,从自然语言出发很难分析出其在知识库中的结构。
[0008]问句复杂性:现有知识库问答系统在复杂问句上的表现并不理想,这是由于当问句结构复杂、出现的事实数增多时,正确地找到并组合这些事实形成正确的结构远比处理简单问句困难;同时,一些特殊的问句模式,如比较句式、最高句式,往往需要更具有针对性的分析与处理。
[0009]本专利技术基于以上知识库问答挑战,提出了一种结构优先的知识库问答技术,为上述挑战给出了解决方案。

技术实现思路

[0010]本专利技术要解决的问题是:现有知识库问答研究工作中仍存在很多困难与挑战,包括自然语言的理解与表示;自然语言与结构化知识的不一致性;问句复杂性等,需要对此进行研究,提出解决方案。
[0011]本专利技术的技术方案为:一种结构优先的知识库问答实现方法,包括问句结构分析和SPARQL查询结构图生成两部分,
[0012]问句结构分析由自然语言问句解析得到句法树,然后构建实体描述图和放松查询图;所述实体描述图是对问句中实体和对应描述的图结构表示,通过实体+描述构成的实体块对问句进行子问题嵌套划分,表达了问句的结构层次;放松查询图是自然语言在查询上图结构的体现;
[0013]SPARQL查询结构图生成包括查询结构映射库的构造和SPARQL查询结构图候选的构造,SPARQL查询结构图从放松查询结构图出发,学习问句的放松查询结构图和SPARQL查询结构图之间的映射关系,使用构建模板的方式,构建放松查询结构图和SPARQL查询结构图的查询结构映射库,然后对于待求问句,从映射库中提取可覆盖待求问句放松查询结构图的模板,通过规则拼接得到待求问句对应SPARQL查询结构图候选,基于知识图谱的实体和关系链接,对SPARQL查询结构图候选进行知识库实体和关系的填槽,得到SPARQL查询,并从知识库中查询返回答案。
[0014]本专利技术还提供一种结构优先的知识库问答系统,所述系统具有数据处理器和存储器并配置有计算机程序,计算机程序配置为问句结构分析模块和SPARQL查询结构图生成模块,SPARQL查询结构图生成模块又包括查询结构映射库构造模块和SPARQL查询结构图候选构造模块,所述计算机程序被执行时实现上述的知识库问答方法。
[0015]本专利技术可构建完整的基于知识库的问答系统,具体表现为:由SPARQL查询结构图生成技术得到待求问句对应SPARQL查询结构图候选,通过使用实体和关系的链接技术,对SPARQL查询结构图进行知识库实体和关系的填槽,得到SPARQL查询,并从知识库中查询返回答案。
[0016]本专利技术的有益效果为:本专利技术给出的实体描述图EDG强调了自然语言问句的“回答目的性”,创新性地提出实体和对应描述的图表达形式,对问句进行了子问题嵌套划分,清晰明了地表达了问句的结构层次;放松查询图RQG是自然语言问句的查询图模型,与现有查询图不同,RQG独立于知识库,更具普适性。两种图模型同时能够在自然语言与形式化查询之间起到较好的桥接作用,具有较广泛的应用前景。
[0017]本专利技术给出的SPARQL查询结构图生成技术,通过构造模板的方式,能自动学习RQG与SPARQL查询的对应关系,并支持动态的模板拼接,能够显著提升方法的实用性和有效性。
relatives of Anton Oliver?”为例,图1和图2分别为该问句对应实体描述图和放松查询图。其中,图2的实体顶点中class和name分别为实体的类和名称属性。
[0039]图3描述了从问句生成实体描述图和放松查询图的流程。
[0040]步骤1:将问句中带名言等引用和长实体(token数大于3)的部分替换为标记<QUOTE>,<ENTITY>;如What jobs did the artist who recorded"The Incre本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构优先的知识库问答实现方法,其特征是包括问句结构分析和SPARQL查询结构图生成两部分,问句结构分析由自然语言问句解析得到句法树,然后构建实体描述图和放松查询图;所述实体描述图是对问句中实体和对应描述的图结构表示,通过实体+描述构成的实体块对问句进行子问题嵌套划分,表达了问句的结构层次;放松查询图是自然语言在查询上图结构的体现;SPARQL查询结构图生成包括查询结构映射库的构造和SPARQL查询结构图候选的构造,SPARQL查询结构图从放松查询结构图出发,学习问句的放松查询结构图和SPARQL查询结构图之间的映射关系,使用构建模板的方式,构建放松查询结构图和SPARQL查询结构图的查询结构映射库,然后对于待求问句,从映射库中提取可覆盖待求问句放松查询结构图的模板,通过规则拼接得到待求问句对应SPARQL查询结构图候选,基于知识图谱的实体和关系链接,对SPARQL查询结构图候选进行知识库实体和关系的填槽,得到SPARQL查询,并从知识库中查询返回答案。2.根据权利要求1所述的一种结构优先的知识库问答实现方法,其特征是由句法树构建实体描述图和放松查询图的步骤如下:步骤1:将问句中的引用和长实体的部分进行替换,所述长实体指token数大于3的部分,引用部分替换为标记<QUOTE>,长实体部分替换为标记<ENTITY>;步骤2:由句法树出发,对句法树中的所有非终止标签做处理,递归生成实体描述图的顶点和边,对不同的标签,根据当前标签和其子节点的标签名称,以及上层生成的实体描述图顶点,确定顶点和边的生成方式;步骤3:构建生成实体描述图后,回代引用和长实体标记<QUOTE>,<ENTITY>,得到完整实体描述图;步骤4:从实体描述图出发,对每个实体块中的动词短语描述和非动词短语描述分别采用不同的方法识别处理:从非动词短语描述中,使用命名实体识别方法,识别出实体的名称和类name/class,放入放松查询图中实体内部,name/class作为实体顶点的内部属性;从动词短语描述中,根据短语句法树结构提取出动词/关系,新增实体顶点的出边,将动词/关系作为放松查询图边的属性,同时边指向生成的新的实体顶点;步骤5:对从实体描述图的每个实体块出发得到的图结构进行实体顶点的合并,得到最终的放松查询图。3.根据权利要求1所述的一种结构优先的知识库问答实现方法,其特征是查询结构映射库由多问句类型的模板组成,问句类型分为:一般疑问句、询问数量的问句和询问实体本身的问句,每个模板由一个放松查询结构图、n个SPARQL查询结构图、一个放松查询结构图与n个SPARQL查询结构图的n个映射关系函数map,以及n个SPARQL查询结构图对应打分构成;映射库的构建方法为:步骤1:对问句进行分类,分为一般疑问句、询问数量...

【专利技术属性】
技术研发人员:潘笑吟瞿裕忠
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1