信息抽取方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：32754871 阅读：14 留言：0更新日期：2022-03-23 18:51

本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质，涉及人工智能技术领域，具体为知识图谱技术领域。其中，信息抽取方法包括：获取待处理文本，得到所述待处理文本中每个字符的语义向量；根据所述待处理文本中的每个字符与每个字符的语义向量，分别生成关系预测矩阵、实体预测矩阵与对齐矩阵；使用所述关系预测矩阵、实体预测矩阵与对齐矩阵，抽取所述待处理文本中的目标三元组，将所述目标三元组作为所述待处理文本的信息抽取结果。本公开能够抽取文本中所存在的重叠三元组，扩展了信息抽取的应用场景，进一步提升了信息抽取的准确性与效率。的准确性与效率。的准确性与效率。

全部详细技术资料下载

【技术实现步骤摘要】
信息抽取方法、装置、电子设备和可读存储介质

[0001]本公开涉及人工智能
，具体为知识图谱
，提供了一种信息抽取方法、装置、电子设备和可读存储介质。

技术介绍

[0002]知识图谱通常会使用三元组来记录数以亿计的真实世界事实，这些三元组可写成(主体，关系，客体)的形式，其中主体和客体表示实体，关系表示主体和客体之间的联系或者固有特征。相关技术在对文本进行信息抽取来得到三元组时，存在无法对文本中存在的重叠三元组，例如单实体重叠、实体对重叠、主客体重叠等类型的三元组进行抽取的问题。

技术实现思路

[0003]根据本公开的第一方面，提供了一种信息抽取方法，包括：获取待处理文本，得到所述待处理文本中每个字符的语义向量；根据所述待处理文本中的每个字符与每个字符的语义向量，分别生成关系预测矩阵、实体预测矩阵与对齐矩阵；使用所述关系预测矩阵、实体预测矩阵与对齐矩阵，抽取所述待处理文本中的目标三元组，将所述目标三元组作为所述待处理文本的信息抽取结果。
[0004]根据本公开的第二方面，提供了一种信息抽取装置，包括：获取单元，用于获取待处理文本，得到所述待处理文本中每个字符的语义向量；生成单元，用于根据所述待处理文本中的每个字符与每个字符的语义向量，分别生成关系预测矩阵、实体预测矩阵与对齐矩阵；抽取单元，用于使用所述关系预测矩阵、实体预测矩阵与对齐矩阵，抽取所述待处理文本中的目标三元组，将所述目标三元组作为所述待处理文本的信息抽取结果。
[0005]根据本公开的第三方面，提供了一种电子设备...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法，包括：获取待处理文本，得到所述待处理文本中每个字符的语义向量；根据所述待处理文本中的每个字符与每个字符的语义向量，分别生成关系预测矩阵、实体预测矩阵与对齐矩阵；使用所述关系预测矩阵、实体预测矩阵与对齐矩阵，抽取所述待处理文本中的目标三元组，将所述目标三元组作为所述待处理文本的信息抽取结果。2.根据权利要求1所述的方法，其中，根据所述待处理文本中的每个字符与每个字符的语义向量，生成关系预测矩阵包括：获取至少一个关系类型，每个关系类型中包含关系实体类型与关系客体类型；将所述至少一个关系类型作为所述关系预测矩阵中的行，将所述待处理文本中的每个字符作为所述关系预测矩阵中的列；根据各列的字符的语义向量与各行的关系类型，得到所述关系预测矩阵中的不同元素的元素取值。3.根据权利要求2所述的方法，其中，所述根据各列的字符的语义向量与各行的关系类型，得到所述关系预测矩阵中的不同元素的元素取值包括：针对所述关系预测矩阵中的每个元素，确定对应该元素的字符与关系类型；根据所确定的字符的语义向量与关系类型进行计算，得到该元素的计算结果；在确定所述计算结果超过第一预设阈值的情况下，将该元素的元素取值设置为1。4.根据权利要求1所述的方法，其中，根据所述待处理文本中的每个字符与每个字符的语义向量，生成实体预测矩阵包括：获取至少一个实体类型，每个实体类型中包含实体开始类型与实体结束类型；将所述至少一个实体类型作为所述实体预测矩阵中的行，将所述待处理文本中的每个字符作为所述实体预测矩阵中的列；根据各列的字符的语义向量与各行的实体类型，得到所述实体预测矩阵中的不同元素的元素取值。5.根据权利要求4所述的方法，其中，所述根据各列的字符的语义向量与各行的实体类型，得到所述实体预测矩阵中的不同元素的元素取值包括：针对所述实体预测矩阵中的每个元素，确定对应该元素的字符与实体类型；根据所确定的字符的语义向量与实体类型进行计算，得到该元素的计算结果；在确定所述计算结果超过第二预设阈值的情况下，将该元素的元素取值设置为1。6.根据权利要求1所述的方法，其中，根据所述待处理文本中的每个字符与每个字符的语义向量，生成对齐矩阵包括：将所述待处理文本中的每个字符，分别作为所述对齐矩阵中的行与列；根据各列的字符的语义向量与各行的字符的语义向量，得到所述对齐矩阵中的不同元素的元素取值。7.根据权利要求6所述的方法，其中，所述根据各列的字符的语义向量与各行的字符的语义向量，得到所述对齐矩阵中的不同元素的元素取值包括：针对所述对齐矩阵中的每个元素，确定对应该元素的行字符与列字符；根据所确定的行字符的语义向量与列字符的语义向量进行计算，得到该元素的计算结
果；在确定所述计算结果超过第三预设阈值的情况下，将该元素的元素取值设置为1。8.根据权利要求1所述的方法，其中，所述使用所述关系预测矩阵、实体预测矩阵与对齐矩阵，抽取所述待处理文本中的目标三元组包括：根据所述关系预测矩阵，确定对应同一关系类型的主体开始字符与客体开始字符；根据所述实体预测矩阵，确定对应同一实体类型的实体开始字符与实体结束字符；根据所述对应同一关系类型的主体开始字符与客体开始字符、以及所述对应同一实体类型的实体开始字符与实体结束字符，确定所述待处理文本中对应同一关系类型的实体与客体；将各关系类型及其对应的实体与客体进行组合，得到至少一个候选三元组；根据所述对齐矩阵，从所述至少一个候选三元组中选取满足预设要求的三元组，作为所述目标三元组。9.根据权利要求8所述的方法，其中，所述根据所述关系预测矩阵，确定对应同一关系类型的主体开始字符与客体开始字符包括：将所述关系预测矩阵中元素取值为1的元素作为目标元素；将所述目标元素所在列的字符，作为所述目标元素所在行的关系主体类型的开始字符或者关系客体类型的开始字符。10.根据权利要求8所述的方法，其中，所述根据所述实体预测矩阵，确定对应同一实体类型的实体开始字符与实体结束字符包括：将所述实体预测矩阵中元素取值为1的元素作为目标元素；将所述目标元素所在列的字符，作为所述目标元素所在行的实体开始类型的开始字符或者实体结束类型的结束字符。11.根据权利要求8所述的方法，其中，所述根据所述对齐矩阵，从所述至少一个候选三元组中选取满足预设要求的三元组，作为所述目标三元组包括：针对每个候选三元组，在确定该候选三元组中的主体结束字符与客体结束字符在所述对齐矩阵中的元素取值为1的情况下，将该候选三元组作为所述目标三元组。12.一种信息抽取装置，包括：获取单元，用于获取待处理文本，得到所述待处理文本中每个字符的语义向量；生成单元，用于根据所述待处理文本中的每个字符与每个字符的语义向量，分别生成关系预测矩阵、实体预测矩阵与对齐矩阵；抽取单元，用于使用所述关系预测矩阵、实体预测矩阵与对齐矩阵，抽取所述待处理文本中的目标三元组，将所述目标三元组作为所述待处理文本的信息抽取结果。13.根据权利要求12所述的装置，其中，所述生成单元在根据所述待处理文本中的每...

【专利技术属性】
技术研发人员：孙建东，史亚冰，蒋烨，柴春光，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人