一种基于动态知识图谱的无模板通用智能问答方法技术

技术编号:24169012 阅读:29 留言:0更新日期:2020-05-16 02:20
本发明专利技术提供一种基于动态知识图谱的无模板通用智能问答方法,包括:自然语言问句理解,基于本体和问答上下文自动构建关于实体和关系的动态知识图谱,联合上下文和知识图谱确定查询意图,构造面向查询的动态知识图谱。本发明专利技术无需预先人工构建问答模板,能有效将自然语言查询问句转化为语义等价的动态知识图谱,用于通用问答系统对自然语言问句的理解,保证在通用问答场景下构造出的动态知识图谱能充分表达自然语言问句的语义,达到良好的问答效果和性能。

【技术实现步骤摘要】
一种基于动态知识图谱的无模板通用智能问答方法
本专利技术公开了一种基于动态知识图谱的无模板通用智能问答方法,属于人工智能
,涉及通用智能问答技术。
技术介绍
智能问答系统旨在理解用户输入自然语言问句并给出该问题的答案,这需要系统能对用户输入的自然语言问句进行充分理解,通过查询事先构建的知识图谱,以及合理运用推理来获得正确答案。目前,随着知识图谱的广泛应用,很多智能问答系统都是以知识图谱为支撑的,利用知识图谱实现对问题的准确回答。现有的智能问答系统主要采用基于模板的方法。基于模板的智能问答系统主要通过对常见问题的归纳总结,从中抽取出通用的问题模板,并建立问题模板到查询模板之间的映射关系,对于用户提出的问题使用已有模板进行匹配,利用匹配到的查询模板构造形式化查询,然后在知识图谱中检索出相应的答案。这种方法存在着一定的局限性,当用户提出的问题没有匹配上模板库中的模板时,问答系统将不能够对用户的问题给出回答,因此这种方法在问题表达的多样性上覆盖率较低,灵活性较差。无需模板的通用问答技术可克服基于模板的问答的局限性,具有重要的应用价值。
技术实现思路
本专利技术所要解决的技术问题是:针对现有技术的缺陷,本专利技术利用问答系统中用户输入的自然语言问句结构变化的动态性特点,提出了一种面向智能问答系统的动态知识图谱构建方法。本方法通过识别自然语言问句中的命名实体,并抽取问句中的语义关系,再结合本体定义构造动态知识图谱,最后根据问句信息和动态知识图谱确定查询的意图,生成带有查询意图的动态知识图谱。本方法生成的带有查询意图动态知识图谱可以转化为结构化查询,在转化为结构化查询之后,可在大规模知识图谱上进行查询匹配和推理,给出用户期望的答案。本专利技术为解决上述技术问题采用以下技术方案:一种基于动态知识图谱的无模板通用智能问答方法,所述方法包括如下步骤:步骤一、自然语言问句的命名实体识别,对输入的自然语言问句进行解析,从文本中识别出命名实体的指称项;其中,对自然语言问句进行语义解析时,采用正则匹配与深度学习模型相结合的方式,识别出自然语言问句中存在的命名实体。步骤二、问句中的关系抽取:构造应用业务相关的关系词典,对本体中出现的每一个关系构建近义词集合,当用户输入的自然语言问句中含有关系词典中的一个或多个词,则将每一个这样的词映射为一条对应的关系;其中,依据关系近义词词典对问句进行关系抽取。步骤三、根据本体将实体和关系映射为动态知识图谱子图,对于经过步骤一和步骤二识别出的实体和关系,结合本体结构和业务需求,动态地将每一个识别出的实体和抽取出的关系映射为一个图结构,作为动态知识图谱子图;其中,基于本体将关系和实体映射为动态知识图谱的多个子图,所述子图为动态生成,且满足本体对知识图谱的约束。步骤四、合并动态知识图谱子图,结合问句中的结构信息定义启发式规则,将步骤三中得到的多个动态知识图谱子图合并为一个连通的、能充分表达原问句中语义信息的最终动态知识图谱;其中,动态知识图谱的子图合并具体包括:利用启发式规则和语法依存结构对各个子图进行合并;当合并的子图不连通时,根据隐含关系列表向不连通的知识图谱中添加隐含关系,使得合并后的动态知识图谱是连通的。步骤五、确定问答意图,基于问句中的意图信息和已构建的最终动态知识图谱,确定用户的查询意图,并将最终动态知识图谱转化为可供知识库检索的形式化查询。其中,意图确定阶段,首先根据问句中存在的疑问词确定用户的查询意图类型;然后使用面向动态知识图谱的意图确定算法将用户最终的查询意图确定地对应到动态知识图谱中的某个节点上。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术能有效地将自然语言问句转化为在语义上等价的动态知识图谱,有助于问答系统对自然语言问句的理解,具有良好的问答效果和性能。本专利技术提出一种动态生成知识图谱的方法,与传统的智能问答技术相比,本方法无需预先定义问句模板和查询模板,而是在问句解析过程中根据识别出的实体和抽取到的关系动态的生成知识图谱,再进一步地确定用户的查询意图,为智能问答系统的语义理解功能提供了强大的支持。本专利技术构建的动态知识图谱在保证能充分表达自然语言语义的同时,还具有较强的鲁棒性。现有的大多数面向知识图谱的智能问答方法都能够和本方法相结合,因此本专利技术通用性强,具有较好的应用前景和推广范围。附图说明图1为本专利技术提供的基于动态知识图谱的无模板通用智能问答方法的逻辑流程图。图2为基于深度学习的实体识别模型训练流程图。图3为实体关系映射为动态知识图谱的示例。图4为动态知识图谱子图合并示例。图5为意图确定算法流程图。图6为实施案例图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。下面结合附图对本专利技术的技术方案做进一步的详细说明:本专利技术提供的基于动态知识图谱的无模板通用智能问答方法,如图1所示,包括如下步骤:一、自然语言问句的命名实体识别。采用多种方式将问句中包含的命名实体抽取出来:101)对于命名有规律或规则的实体,如电子邮箱、手机号、固定电话号码等,可以设计正则表达式以匹配相应的实体。例如,为电子邮箱的设计的正则表达式为"[0-9a-zA-Z_!#$%&'*+/=?^_`{|}~-]+(?:\.[\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[0-9a-zA-Z_])?",为手机号设计的正则表达式为"((13[0-9]|14[0-9]|15[0-9]|166|17[0-9]|18[0-9]|19[8|9])\d{8})",为固定电话设计的正则表达式为"(\d{3}-\d{8}|\d{4}-\{7,8})"。当问句中出现了与上述表达式相匹配的字段,就可将其提取出来作为一个相应类型的实体。102)对于其它表达形式多样的实体,例如姓名、地址、机构名称等,使用基于深度学习的命名实体识别模型将其识别出来,模型整体架构为:BERT+Bi-LSTM(Bi-directionalLongShot-TermMemory)+CRF(ConditionalRandomField)。BERT模型主要分为三部分:输入、Transformer编码器以及输出。模型的输入由三部分组成,分别为TokenEmbedding、SegmentEmbedding和PositionEmbedding。TokenEmbedding来源于基于词表(存储了所有的字符,包括常用的中英文的字符以及标点符号等字符)随机初始化的向量。SegmentEmbedding用来表示输入的句子编码,采用One-hot本文档来自技高网...

【技术保护点】
1.一种基于动态知识图谱的无模板通用智能问答方法,其特征在于,所述方法包括如下步骤:/n步骤一、自然语言问句的命名实体识别,对输入的自然语言问句进行解析,从文本中识别出命名实体的指称项;/n步骤二、问句中的关系抽取:构造应用业务相关的关系词典,对本体中出现的每一个关系构建近义词集合,当用户输入的自然语言问句中含有关系词典中的一个或多个词,则将每一个这样的词映射为一条对应的关系;/n步骤三、根据本体将实体和关系映射为动态知识图谱子图,对于经过步骤一和步骤二识别出的实体和关系,结合本体结构和业务需求,动态地将每一个识别出的实体和抽取出的关系映射为一个图结构,作为动态知识图谱子图;/n步骤四、合并动态知识图谱子图,结合问句中的结构信息定义启发式规则,将步骤三中得到的多个动态知识图谱子图合并为一个连通的、能充分表达原问句中语义信息的最终动态知识图谱;/n步骤五、确定问答意图,基于问句中的意图信息和已构建的最终动态知识图谱,确定用户的查询意图,并将最终动态知识图谱转化为可供知识库检索的形式化查询。/n

【技术特征摘要】
1.一种基于动态知识图谱的无模板通用智能问答方法,其特征在于,所述方法包括如下步骤:
步骤一、自然语言问句的命名实体识别,对输入的自然语言问句进行解析,从文本中识别出命名实体的指称项;
步骤二、问句中的关系抽取:构造应用业务相关的关系词典,对本体中出现的每一个关系构建近义词集合,当用户输入的自然语言问句中含有关系词典中的一个或多个词,则将每一个这样的词映射为一条对应的关系;
步骤三、根据本体将实体和关系映射为动态知识图谱子图,对于经过步骤一和步骤二识别出的实体和关系,结合本体结构和业务需求,动态地将每一个识别出的实体和抽取出的关系映射为一个图结构,作为动态知识图谱子图;
步骤四、合并动态知识图谱子图,结合问句中的结构信息定义启发式规则,将步骤三中得到的多个动态知识图谱子图合并为一个连通的、能充分表达原问句中语义信息的最终动态知识图谱;
步骤五、确定问答意图,基于问句中的意图信息和已构建的最终动态知识图谱,确定用户的查询意图,并将最终动态知识图谱转化为可供知识库检索的形式化查询。


2.根据权利要求1所述的一种基于动态知识图谱的无模板通用智能问答方法,其特征在于:所述步骤一中,对自然语言问句进行语义解析时,...

【专利技术属性】
技术研发人员:朱丹汪鹏徐忠锴崔睿龙吴江恒李名臣
申请(专利权)人:南京烽火星空通信发展有限公司东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1