知识图谱构建方法、知识图谱构建系统和计算设备技术方案

技术编号:34365094 阅读:25 留言:0更新日期:2022-07-31 08:28
本发明专利技术公开了一种知识图谱构建方法、知识图谱构建系统和计算设备,该方法包括:获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。本发明专利技术将知识图谱的概念从传统的静态知识三元组变为包含静态知识五元组以及动态事件知识在内的复合知识,使用篇章级要素抽取与要素关联,可以大大提升五元组的提取效率与召回率,使得知识结构化属性更强。使得知识结构化属性更强。使得知识结构化属性更强。

Knowledge map construction method, knowledge map construction system and computing equipment

【技术实现步骤摘要】
知识图谱构建方法、知识图谱构建系统和计算设备


[0001]本专利技术涉及人工智能
,更具体地,涉及知识图谱构建方法、知识图谱构建系统和计算设备。

技术介绍

[0002]目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
[0003]现有的知识图谱构建方法,通过句子级的关系抽取方式实现,但是一些数据中隐含的三元组并不在一句话的范围中,现有的句子级关系抽取方式往往会丢失许多结构化数据信息。此外,传统知识图谱中,知识一般都是静态知识,而人类社会一般是动态活动的,因此静态的三元组信息没有考虑动态变化的知识,可能会存在错误。另外,传统方法仅通过抽取的方式构建知识地图谱,没有较为完善的图谱清洗、自动补充机制,构建的知识图谱准确性不高,容易出现部分属性或关系丢失的情况。
[0004]因此,需要一种新型的知识图谱构建方法、知识图谱构建系统和计算设备,以解决上述问题。

技术实现思路

[0005]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0006]根据本专利技术的一方面,提供了一种知识图谱构建方法,所述方法包括:获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。
[0007]在一个实施例中,其中对所述文本进行篇章级知识抽取包括:基于预设的类别标签,使用滑动窗口对所述文本进行知识抽取,以抽取所述文本中与所述类别标签对应的知识要素;对所抽取的知识要素进行关联,得到所述知识抽取结果。
[0008]在一个实施例中,其中使用滑动窗口对所述文本进行知识抽取包括:使用所述滑动窗口在所述文本上滑动,针对每个类别标签,计算所述滑动窗口内所述文本中每个字的预测概率;计算同一字在所述滑动窗口的各个位置下的各个预测概率的平均值,作为所述字的最终预测概率;基于各个字的最终预测概率,根据预设的知识要素选择条件从所述文本中选取所述知识要素。
[0009]在一个实施例中,对所抽取的知识要素进行关联包括:对所述知识要素的每个字进行处理,得到每个字的字向量;对所述知识要素对应的所有字的字向量进行处理,得到所
述知识要素的要素向量;对各个知识要素的要素向量进行关联判断,得到针对各个知识要素的关联结果;根据所述关联结果对所述知识要素进行组合,得到所述知识抽取结果。
[0010]在一个实施例中,对所述文本进行句子级事件抽取包括:基于预设的事件触发词标签预测所述文本的每个句子中的每个字是否是触发词及其触发词类型;使用预测出的触发词、触发词类型及所述触发词的位置,基于预设的事件参数标签预测所述句子中与所述触发词相对应的事件参数及其参数类型;对所述触发词及所述事件参数进行组合,得到所述事件抽取结果。
[0011]在一个实施例中,对所述知识抽取结果和所述事件抽取结果进行知识融合包括:对所述知识抽取结果和所述事件抽取结果进行实体链接处理以得到实体链接结果,所述实体链接结果指示所述知识抽取结果与所述事件抽取结果中的各个实体是否为同一实体,以及所述各个实体与所述知识图谱中已有的实体是否为同一实体;基于所述实体链接结果将所述知识抽取结果和所述事件抽取结果进行重新组合,以得到用于所述知识图谱的图谱知识。
[0012]在一个实施例中,对所述知识抽取结果和所述事件抽取结果进行知识融合还包括:基于所述图谱知识和/或所述知识图谱中的已有知识推理出新的图谱知识;用所述新的图谱知识更新所述知识图谱。
[0013]在一个实施例中,所述方法还包括:对所述事件抽取结果进行篇章内指称链识别,以根据预设的篇章内事件共指特征类型确定对所述文本的各个事件抽取结果是否指向同一事件;对所述事件抽取结果进行跨篇章事件共指消解处理,以根据预设的跨篇章事件共指特征类型确定对所述文本的所述事件抽取结果与所述知识图谱中已有的事件是否指向同一事件;基于所述确定,去除重复事件。
[0014]在一个实施例中,所述方法还包括知识清洗步骤,用于更正或去除冗余或错误的信息,其中所述知识清洗步骤包括冗余表述合并、明显错误修正及去除、相似实体推断及补充属性名称、同义属性名称合并。
[0015]根据本专利技术的另一方面,提供了一种知识图谱构建系统,所述系统包括:复合知识抽取模块,用于对获取的作为原始数据的文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;复合知识融合模块,用于对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。
[0016]根据本专利技术的又一实施例,提供了一种计算设备,所述计算设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上所述的方法。
[0017]根据本专利技术的再一实施例,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序在被运行时,执行如上所述的方法。
[0018]根据本专利技术实施例的知识图谱构建方法、知识图谱构建系统和计算设备,将知识图谱的概念从传统的静态知识三元组变为包含静态知识五元组以及动态事件知识在内的复合知识,使用篇章级要素抽取与要素关联,可以大大提升五元组的提取效率与召回率,使得知识结构化属性更强。
附图说明
[0019]本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。
[0020]附图中:
[0021]图1为根据本专利技术的一个实施例的实现根据本专利技术实施例的知识图谱构建方法、知识图谱构建系统和计算设备的电子设备的示意性结构框图。
[0022]图2为根据本专利技术的一个实施例的知识图谱构建方法的示例性步骤流程图。
[0023]图3示出了根据本专利技术的一个实施例的使用滑动窗口对文本进行知识抽取的示意图。
[0024]图4示出了根据本专利技术的一个实施例的知识图谱构建系统的示意性结构框图。
[0025]图5示出了根据本专利技术的一个实施例的计算设备的示意性结构框图。
具体实施方式
[0026]为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。
[0027]如上所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。2.如权利要求1所述的方法,其特征在于,其中对所述文本进行篇章级知识抽取包括:基于预设的类别标签,使用滑动窗口对所述文本进行知识抽取,以抽取所述文本中与所述类别标签对应的知识要素;对所抽取的知识要素进行关联,得到所述知识抽取结果。3.如权利要求2所述的方法,其特征在于,其中使用滑动窗口对所述文本进行知识抽取包括:使用所述滑动窗口在所述文本上滑动,针对每个类别标签,计算所述滑动窗口内所述文本中每个字的预测概率;计算同一字在所述滑动窗口的各个位置下的各个预测概率的平均值,作为所述字的最终预测概率;基于各个字的最终预测概率,根据预设的知识要素选择条件从所述文本中选取所述知识要素。4.如权利要求2所述的方法,其特征在于,对所抽取的知识要素进行关联包括:对所述知识要素的每个字进行处理,得到每个字的字向量;对所述知识要素对应的所有字的字向量进行处理,得到所述知识要素的要素向量;对各个知识要素的要素向量进行关联判断,得到针对各个知识要素的关联结果;根据所述关联结果对所述知识要素进行组合,得到所述知识抽取结果。5.如权利要求1所述的方法,其特征在于,对所述文本进行句子级事件抽取包括:基于预设的事件触发词标签预测所述文本的每个句子中的每个字是否是触发词及其触发词类型;使用预测出的触发词、触发词类型及所述触发词的位置,基于预设的事件参数标签预测所述句子中与所述触发词相对应的事件参数及其参数类型;对所述触发词及所述事件参数进行组合,得到所述事件抽取结果。6.如权利要求1所述的方法,其特征在于,对所述知识抽取结果和所述事件抽取结果进行知识融合包括:对所述知识抽取结果和所述事件抽取结果进行实体链接处理以得到实体链接结果,所述实体链接结果指...

【专利技术属性】
技术研发人员:代旭东李宝善盛志超方昕刘俊华陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1