信息抽取方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:32754871 阅读:14 留言:0更新日期:2022-03-23 18:51
本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质,涉及人工智能技术领域,具体为知识图谱技术领域。其中,信息抽取方法包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。本公开能够抽取文本中所存在的重叠三元组,扩展了信息抽取的应用场景,进一步提升了信息抽取的准确性与效率。的准确性与效率。的准确性与效率。

【技术实现步骤摘要】
信息抽取方法、装置、电子设备和可读存储介质


[0001]本公开涉及人工智能
,具体为知识图谱
,提供了一种信息抽取方法、装置、电子设备和可读存储介质。

技术介绍

[0002]知识图谱通常会使用三元组来记录数以亿计的真实世界事实,这些三元组可写成(主体,关系,客体)的形式,其中主体和客体表示实体,关系表示主体和客体之间的联系或者固有特征。相关技术在对文本进行信息抽取来得到三元组时,存在无法对文本中存在的重叠三元组,例如单实体重叠、实体对重叠、主客体重叠等类型的三元组进行抽取的问题。

技术实现思路

[0003]根据本公开的第一方面,提供了一种信息抽取方法,包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。
[0004]根据本公开的第二方面,提供了一种信息抽取装置,包括:获取单元,用于获取待处理文本,得到所述待处理文本中每个字符的语义向量;生成单元,用于根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;抽取单元,用于使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。
[0005]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0006]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0007]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
[0008]由以上技术方案可以看出,本公开能够通过文本中的字符与字符的语义向量所生成的三个矩阵,对文本中的实体以及实体之间的关系进行联合识别,一方面能够抽取文本中所存在的重叠三元组,扩展了信息抽取的应用场景,另一方面能够提升信息抽取的准确性与效率。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开第一实施例的示意图;
[0012]图2是根据本公开第二实施例的示意图;
[0013]图3是根据本公开第三实施例的示意图;
[0014]图4是根据本公开第四实施例的示意图;
[0015]图5是根据本公开第五实施例的示意图;
[0016]图6是用来实现本公开实施例的信息抽取方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和机构的描述。
[0018]图1是根据本公开第一实施例的示意图。如图1所示,本实施例的信息抽取方法,具体包括如下步骤:
[0019]S101、获取待处理文本,得到所述待处理文本中每个字符的语义向量;
[0020]S102、根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;
[0021]S103、使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。
[0022]本实施例的信息抽取方法,在获取待处理文本并得到待处理文本中每个字符的语义向量之后,根据待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵,进而使用所生成的关系预测矩阵、实体预测矩阵与对齐矩阵来抽取待处理文本中的目标三元组,将抽取得到的目标三元组作为待处理文本的信息抽取结果,本实施例通过文本中的字符与字符的语义向量所生成的三个矩阵,对文本中的实体以及实体之间的关系进行联合识别,一方面能够抽取文本中所存在的重叠三元组,扩展了信息抽取的应用场景,另一方面能够提升信息抽取的准确性与效率。
[0023]本实施例在执行S101获取待处理文本时,可以将由输入端输入的文本作为待处理文本,也可以获取互联网上的文本作为待处理文本。
[0024]本实施例在执行S101获取了待处理文本之后,即可根据所获取的待处理文本,得到待处理文本中每个字符(token)的语义向量。
[0025]本实施例在执行S101得到待处理文本中每个字符的语义向量时,可以将待处理文本作为预训练语言模型(例如ERNIE)的输入,将预训练语言模型针对待处理文本中的每个字符所输出的输出结果,作为每个字符的语义向量。
[0026]本实施例在执行S101获取待处理文本并得到待处理文本中每个字符的语义向量之后,执行S102根据待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵。
[0027]可以理解的是,本实施例对关系预测矩阵、实体预测矩阵与对齐矩阵的生成顺序
不进行限定,可以分别生成每个矩阵,也可以同时生成多个矩阵;本实施例以S102依次生成关系预测矩阵、实体预测矩阵与对齐矩阵为例进行说明。
[0028]本实施例执行S102生成的关系预测矩阵,用于确定待处理文本中对应同一关系类型的主体开始字符与客体开始字符;本实施例执行S102生成的实体预测矩阵,用于确定待处理文本中对应同一实体类型的实体开始字符与实体结束字符,进而即可根据由关系预测矩阵所确定的对应同一关系类型的主体开始字符与客体开始字符,得到待处理文本中对应同一关系类型的主体与客体;本实施例执行S102生成的对齐矩阵,用于确定待处理文本中对应同一关系类型的主体与客体是否属于同一个三元组。
[0029]具体地,本实施例在执行S102根据待处理文本中的每个字符与每个字符的语义向量,生成关系预测矩阵时,可以采用的可选实现方式为:获取至少一个关系类型,本实施所获取的每个关系类型中包含关系实体类型与关系客体类型;将至少一个关系类型作为关系预测矩阵中的行,将待处理文本中的每个字符作为关系预测矩阵中的列;根据各列的字符的语义向量与各行的关系类型,得到关系预测矩阵中的不同元素的元素取值;其中,关系预测矩阵中元素取值为1的元素所在列的字符本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。2.根据权利要求1所述的方法,其中,根据所述待处理文本中的每个字符与每个字符的语义向量,生成关系预测矩阵包括:获取至少一个关系类型,每个关系类型中包含关系实体类型与关系客体类型;将所述至少一个关系类型作为所述关系预测矩阵中的行,将所述待处理文本中的每个字符作为所述关系预测矩阵中的列;根据各列的字符的语义向量与各行的关系类型,得到所述关系预测矩阵中的不同元素的元素取值。3.根据权利要求2所述的方法,其中,所述根据各列的字符的语义向量与各行的关系类型,得到所述关系预测矩阵中的不同元素的元素取值包括:针对所述关系预测矩阵中的每个元素,确定对应该元素的字符与关系类型;根据所确定的字符的语义向量与关系类型进行计算,得到该元素的计算结果;在确定所述计算结果超过第一预设阈值的情况下,将该元素的元素取值设置为1。4.根据权利要求1所述的方法,其中,根据所述待处理文本中的每个字符与每个字符的语义向量,生成实体预测矩阵包括:获取至少一个实体类型,每个实体类型中包含实体开始类型与实体结束类型;将所述至少一个实体类型作为所述实体预测矩阵中的行,将所述待处理文本中的每个字符作为所述实体预测矩阵中的列;根据各列的字符的语义向量与各行的实体类型,得到所述实体预测矩阵中的不同元素的元素取值。5.根据权利要求4所述的方法,其中,所述根据各列的字符的语义向量与各行的实体类型,得到所述实体预测矩阵中的不同元素的元素取值包括:针对所述实体预测矩阵中的每个元素,确定对应该元素的字符与实体类型;根据所确定的字符的语义向量与实体类型进行计算,得到该元素的计算结果;在确定所述计算结果超过第二预设阈值的情况下,将该元素的元素取值设置为1。6.根据权利要求1所述的方法,其中,根据所述待处理文本中的每个字符与每个字符的语义向量,生成对齐矩阵包括:将所述待处理文本中的每个字符,分别作为所述对齐矩阵中的行与列;根据各列的字符的语义向量与各行的字符的语义向量,得到所述对齐矩阵中的不同元素的元素取值。7.根据权利要求6所述的方法,其中,所述根据各列的字符的语义向量与各行的字符的语义向量,得到所述对齐矩阵中的不同元素的元素取值包括:针对所述对齐矩阵中的每个元素,确定对应该元素的行字符与列字符;根据所确定的行字符的语义向量与列字符的语义向量进行计算,得到该元素的计算结
果;在确定所述计算结果超过第三预设阈值的情况下,将该元素的元素取值设置为1。8.根据权利要求1所述的方法,其中,所述使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组包括:根据所述关系预测矩阵,确定对应同一关系类型的主体开始字符与客体开始字符;根据所述实体预测矩阵,确定对应同一实体类型的实体开始字符与实体结束字符;根据所述对应同一关系类型的主体开始字符与客体开始字符、以及所述对应同一实体类型的实体开始字符与实体结束字符,确定所述待处理文本中对应同一关系类型的实体与客体;将各关系类型及其对应的实体与客体进行组合,得到至少一个候选三元组;根据所述对齐矩阵,从所述至少一个候选三元组中选取满足预设要求的三元组,作为所述目标三元组。9.根据权利要求8所述的方法,其中,所述根据所述关系预测矩阵,确定对应同一关系类型的主体开始字符与客体开始字符包括:将所述关系预测矩阵中元素取值为1的元素作为目标元素;将所述目标元素所在列的字符,作为所述目标元素所在行的关系主体类型的开始字符或者关系客体类型的开始字符。10.根据权利要求8所述的方法,其中,所述根据所述实体预测矩阵,确定对应同一实体类型的实体开始字符与实体结束字符包括:将所述实体预测矩阵中元素取值为1的元素作为目标元素;将所述目标元素所在列的字符,作为所述目标元素所在行的实体开始类型的开始字符或者实体结束类型的结束字符。11.根据权利要求8所述的方法,其中,所述根据所述对齐矩阵,从所述至少一个候选三元组中选取满足预设要求的三元组,作为所述目标三元组包括:针对每个候选三元组,在确定该候选三元组中的主体结束字符与客体结束字符在所述对齐矩阵中的元素取值为1的情况下,将该候选三元组作为所述目标三元组。12.一种信息抽取装置,包括:获取单元,用于获取待处理文本,得到所述待处理文本中每个字符的语义向量;生成单元,用于根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;抽取单元,用于使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。13.根据权利要求12所述的装置,其中,所述生成单元在根据所述待处理文本中的每...

【专利技术属性】
技术研发人员:孙建东史亚冰蒋烨柴春光
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1