当前位置: 首页 > 专利查询>王亮专利>正文

知识图谱语义抽取方法及装置制造方法及图纸

技术编号:34641248 阅读:47 留言:0更新日期:2022-08-24 15:16
本发明专利技术公开了知识图谱语义抽取方法及装置,方法包括:接收目标数据,其中,所述目标数据包括:结构化数据和/或非结构化数据,对所述目标数据进行语义抽取,得到抽取后的语义信息,根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。利用本发明专利技术实施例,能够提高抽取准确度和抽取效率。能够提高抽取准确度和抽取效率。能够提高抽取准确度和抽取效率。

【技术实现步骤摘要】
知识图谱语义抽取方法及装置


[0001]本专利技术属于文本数据处理
,特别是知识图谱语义抽取方法及装置。

技术介绍

[0002]知识图谱是一种基于图数据结构的语义网络,由节点(Point)和边(Edge)组成,每个节点表示现实中存在的实体(entity),每条边表示实体和实体之间的关系(relationship)。日常生活中很多场景都可以用知识图谱来表示。比如在一个社交网络里面,人与人的关系可以是朋友,父母,兄弟等等。
[0003]目前,在知识图谱构建过程中,需要抽取实体关系,抽取所依据的识别规则中包含的实体关系类型,需要人工预定义的方式进行预标注,随着时间变化和事态局势变化,人工预定义的规则库体系一般难以适应变化。在新入一个人物经验时,如果对于直接归于已知经验类别,这将导致难以对新生新类别及时反映,导致实体关系抽取的准确度不高,且效率较慢。

技术实现思路

[0004]本专利技术的目的是提供知识图谱语义抽取方法及装置,以解决现有技术中的不足,它能够提高实体关系抽取的准确度和效率。
[0005]本申请的一个实施例提供了知识图谱语义抽取方法,所述方法包括:
[0006]接收目标数据,其中,所述目标数据包括:结构化数据和/或非结构化数据;
[0007]对所述目标数据进行语义抽取,得到抽取后的语义信息;
[0008]根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系;其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。
[0009]可选的,所述对所述目标数据进行语义抽取,包括:
[0010]若所述目标数据包括结构化数据,则利用D2R技术对所述结构化数据进行语义抽取;
[0011]若所述目标数据包括非结构化数据,则利用正则表达式,对所述非结构化数据进行去噪,对去噪后的非结构化数据进行语义抽取。
[0012]可选的,所述根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,包括:
[0013]根据所述语义信息,获得所述语义信息对应的依存语法结构;
[0014]根据所述依存语法结构,确定所述依存语法结构对应的依存树,其中,所述依存树包括:对应实体的节点和对应实体间的依存关系的依存弧;
[0015]根据所述依存树和抽取规则,识别所述实体和所述依存关系的类型,获得知识图谱可识别的实体和关系。
[0016]可选的,所述增量式聚类方法包括:
[0017]确定实体相似度阈值、子实体类型阈值和时间片段的长度;
[0018]获取新时间片段内的实体特征,将所述实体特征传给MapReduce函数;
[0019]基于实体相似度、所述MapReduce函数,输出新产生的实体类型、子实体类型编号和特征向量,并更新已有实体类型和子实体类型的特征向量,添加新产生的实体类型和子实体类型。
[0020]可选的,所述方法还包括:
[0021]抽取所述实体的属性信息,基于抽取的实体、关系和属性信息,构建所述目标数据的知识图谱。
[0022]本申请的又一实施例提供了知识图谱语义抽取装置,所述装置包括:
[0023]接收模块,用于接收目标数据,其中,所述目标数据包括:结构化数据和/或非结构化数据;
[0024]第一抽取模块,用于对所述目标数据进行语义抽取,得到抽取后的语义信息;
[0025]第二抽取模块,用于根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系;其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。
[0026]本申请的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
[0027]本申请的又一实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
[0028]与现有技术相比,本专利技术提供的知识图谱语义抽取方法,接收目标数据,其中,所述目标数据包括:结构化数据和/或非结构化数据,对所述目标数据进行语义抽取,得到抽取后的语义信息,根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现,从而替代以人工对未标注实体和关系类型进行预标注,提高抽取准确度和抽取效率。
附图说明
[0029]图1为本专利技术实施例提供的知识图谱语义抽取方法的计算机终端的硬件结构框图;
[0030]图2为本专利技术实施例提供的知识图谱语义抽取方法的流程示意图;
[0031]图3为本专利技术实施例提供的知识图谱语义抽取装置的结构示意图。
具体实施方式
[0032]下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。
[0033]本专利技术实施例首先提供了知识图谱语义抽取方法,该方法可以应用于电子设备,如计算机终端等等。
[0034]下面以运行在计算机终端上为例对其进行详细说明。图1为本专利技术实施例提供的
知识图谱语义抽取方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0035]存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的知识图谱语义抽取方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0036]传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.知识图谱语义抽取方法,其特征在于,所述方法包括:接收目标数据,其中,所述目标数据包括:结构化数据和/或非结构化数据;对所述目标数据进行语义抽取,得到抽取后的语义信息;根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系;其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。2.根据权利要求1所述的知识图谱语义抽取方法,其特征在于,所述对所述目标数据进行语义抽取,包括:若所述目标数据包括结构化数据,则利用D2R技术对所述结构化数据进行语义抽取;若所述目标数据包括非结构化数据,则利用正则表达式,对所述非结构化数据进行去噪,对去噪后的非结构化数据进行语义抽取。3.根据权利要求1所述的知识图谱语义抽取方法,其特征在于,所述根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,包括:根据所述语义信息,获得所述语义信息对应的依存语法结构;根据所述依存语法结构,确定所述依存语法结构对应的依存树,其中,所述依存树包括:对应实体的节点和对应实体间的依存关系的依存弧;根据所述依存树和抽取规则,识别所述实体和所述依存关系的类型,获得知识图谱可识别的实体和关系。4.根据权利要求3所述的知识图谱语义抽取方法,其特征在于,所述增量式聚类方法包括:确定实体相似度阈值、子实体类型阈值和时间片段的长度;获取新时间片段内的实体特征,将所述实体特征传给MapReduce函数;基于实体相似度、所述MapReduce函数,输出新产生的实体类型、子实体类型编号和特征向量,...

【专利技术属性】
技术研发人员:王亮胡倩王浩宇高玉华童欢庆张骁越
申请(专利权)人:王亮
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1