一种基于知识图谱的信息纠错方法及装置制造方法及图纸

技术编号:32028759 阅读:10 留言:0更新日期:2022-01-27 12:45
本申请提供一种基于知识图谱的信息纠错方法及装置,其中所述方法包括:获取包含第一类提及词和第二类提及词的待检测三元组;根据预设的知识图谱对所述待检测三元组进行校验,在所述待检测三元组未通过校验的情况下,根据所述第一类提及词在所述知识图谱中对应的第二类实体对所述第二类提及词进行纠错;在所述第二类实体与所述第二类提及词未满足纠错条件的情况下,根据所述第二类提及词在所述知识图谱中对应的第一类实体对所述第一类提及词进行纠错。本申请支持从多角度分析用户的潜在意图,有效的增加了纠错系统的准确性与合理性。性。性。

【技术实现步骤摘要】
一种基于知识图谱的信息纠错方法及装置


[0001]本申请涉及计算机
,特别涉及一种基于知识图谱的信息纠错方法及装置、计算设备及计算机可读存储介质。

技术介绍

[0002]在现有技术的纠错系统中,在检测到用户输入的文本中出现人名-职位名匹配错误的情况下,往往只能通过固定的规则即以职位名为准或以人名为准,纠正用户出现的错误。目前该方法虽然能保证改动后的结果一定是人名-职位名匹配正确的,但却很难保证改动结果就是用户需要的,例如,用户输入的文本为“A局长张三”而用户意图为“A副局长张三”,用户输入的文本为“A局长李四”而用户意图为“A局长李小四”,上述两种情况分别倾向于人员正副职混淆导致的错误和人名丢字落字导致的错误,但是如果仅以职位名为准或仅以人名为准进行纠错,就无法准确的反应出用户意图,导致用户的使用体验较差。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种基于知识图谱的信息纠错方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种基于知识图谱的信息纠错方法,包括:
[0005]获取包含第一类提及词和第二类提及词的待检测三元组;
[0006]根据预设的知识图谱对所述待检测三元组进行校验,在所述待检测三元组未通过校验的情况下,根据所述第一类提及词在所述知识图谱中对应的第二类实体对所述第二类提及词进行纠错;
[0007]在所述第二类实体与所述第二类提及词未满足纠错条件的情况下,根据所述第二类提及词在所述知识图谱中对应的第一类实体对所述第一类提及词进行纠错。
[0008]根据本说明书实施例的第二方面,提供了一种基于知识图谱的信息纠错装置,包括:
[0009]三元组获取模块,被配置为获取包含第一类提及词和第二类提及词的待检测三元组;
[0010]第一纠错模块,被配置为根据预设的知识图谱对所述待检测三元组进行校验,在所述待检测三元组未通过校验的情况下,根据所述第一类提及词在所述知识图谱中对应的第二类实体对所述第二类提及词进行纠错;
[0011]第二纠错模块,被配置为在所述第二类实体与所述第二类提及词未满足纠错条件所述的情况下,根据所述第二类提及词在所述知识图谱中对应的第一类实体对所述第一类提及词进行纠错。
[0012]根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述基
于知识图谱的信息纠错方法的步骤。
[0013]根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述基于知识图谱的信息纠错方法的步骤。
[0014]本申请通过从用户输入的文本中提取包含第一类提及词与第二类提及词的待检测三元组,利用知识图谱的图结构关系对提取出的待检测三元组进行写作纠错,在纠正待检测三元组的匹配错误的过程中,根据优先级分别基于第一类提及词和第二类提及词返回文本相似度较高的纠错结果,从而支持从多角度分析用户的潜在意图,有效的增加了纠错系统的准确性与合理性。
附图说明
[0015]图1是本申请实施例提供的计算设备的结构框图;
[0016]图2是本申请实施例提供的基于知识图谱的信息纠错方法的流程图;
[0017]图3是本申请实施例提供的待检测三元组构建的流程图;
[0018]图4是本申请实施例提供的待检测三元组错误判断的流程图;
[0019]图5是本申请实施例提供的基于知识图谱的信息纠错方法的另一流程图;
[0020]图6是本申请实施例提供的基于知识图谱的信息纠错方法的另一流程图;
[0021]图7是本申请实施例提供的具体纠错应用的流程图;
[0022]图8是本申请实施例提供的另一具体纠错应用的流程图;
[0023]图9是本申请实施例提供的另一具体纠错应用的流程图;
[0024]图10是本申请实施例提供的另一具体纠错应用的流程图;
[0025]图11是本申请实施例提供的基于知识图谱的信息纠错装置的结构示意图。
具体实施方式
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0027]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0028]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一类、第二类等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一类也可以被称为第二类,类似地,第二类也可以被称为第一类。首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0029]知识图谱:即Knowledge Graph,一种语义网络,旨在描述客观世界的概念实体及其之间的关系,有时也称为知识库(Knowledge Base)。
[0030]三元组:知识图谱的一种标识方法,常见形式包括(实体1,关系,实体2)或者(实
体,属性,属性值),例如(姚明,效力于,NBA)、(姚明,身高,2.29m)。
[0031]实体:即Entity,实体是知识图谱的基本单元,也是文本中承载信息的重要语言单位。
[0032]提及词:即Mention,指自然文本中表达实体的语言片段。
[0033]路径关系:即ObjectProperties,关系用于刻画实体和实体之间的联系,例如,张三的父亲是张二,其中,“父亲”就是关系。
[0034]属性:即DataProperties,属性用于刻画实体的固有特性,例如,张三的年龄是二十四,其中,“年龄”就是属性。
[0035]实体链接:即EntityLinking,是指将文本中的提及词(Mention)映射到给定的知识库中的实体,在许多领域起到了非常有趣的基础作用,例如问题回答、语义搜索和信息提取。
[0036]实体命名识别:指的是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。我们可以将实体抽取的方法分为4种:基于百科站点或垂直站点提取、基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。
[0037]句法分析:句法分析也是自然语言处理中的基础性工作,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的信息纠错方法,其特征在于,包括:获取包含第一类提及词和第二类提及词的待检测三元组;根据预设的知识图谱对所述待检测三元组进行校验,在所述待检测三元组未通过校验的情况下,根据所述第一类提及词在所述知识图谱中对应的第二类实体对所述第二类提及词进行纠错;在所述第二类实体与所述第二类提及词未满足纠错条件的情况下,根据所述第二类提及词在所述知识图谱中对应的第一类实体对所述第一类提及词进行纠错。2.根据权利要求1所述的方法,其特征在于,获取包含第一类提及词和第二类提及词的待检测三元组,包括:对用户输入的文本语句进行实体命名识别,获取所述第一类提及词和第二类提及词;通过句法分析确定所述第一类提及词和第二类提及词之间的目标路径关系,根据所述路径关系构建所述待检测三元组,其中,所述待检测三元组包括(第一类提及词,目标路径关系,第二类提及词)。3.根据权利要求1所述的方法,其特征在于,根据预设的知识图谱对所述待检测三元组进行校验,包括:对所述第一类提及词和第二类提及词进行实体链接,分别获取所述第一类提及词映射在所述知识图谱中的第一映射实体以及所述第二类提及词映射在所述知识图谱中的第二映射实体;确定所述第一类提及词与所述第一映射实体之间的第一相似度以及所述第二类提及词与所述第二映射实体之间的第二相似度;判断所述第一相似度和第二相似度是否均小于预设的校验阈值;若是,则判定通过校验并结束;若否,则判定未通校验并确认所述待检测三元组中存在错误。4.根据权利要求3所述的方法,其特征在于,确定所述第一类提及词与所述第一映射实体之间的第一相似度以及所述第二类提及词与所述第二映射实体之间的第二相似度,包括:计算所述第一类提及词与所述第一映射实体之间的第一编辑距离,根据所述第一编辑距离与所述第一映射实体的字数的比值确定所述第一相似度;计算所述第二类提及词与所述第二映射实体之间的第二编辑距离,根据所述第二编辑距离与所述第二映射实体的字数的比值确定所述第二相似度。5.根据权利要求2所述的方法,其特征在于,根据所述第一类提及词在所述知识图谱中对应的第二类实体对所述第二类提及词进行纠错,包括:在所述知识图谱中查询并获取与所述第一类提及词存在所述目标路径关系的第二...

【专利技术属性】
技术研发人员:侯昶宇李长亮汪美玲
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1