一种实体关系联合抽取方法及装置制造方法及图纸

技术编号:36439223 阅读:13 留言:0更新日期:2023-01-20 22:54
本申请公开了一种实体关系联合抽取方法及装置,涉及到知识图谱技术领域,首先将待检测文本按照预设实体标注方式进行实体标注,将待检测文本分别不同的按照第一位置关系标注方式和第二位置关系标注方式进行位置关系标注。然后,分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,最后将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组,通过上述标注方式能够解决单个实体被多个三元组共享导致实体重叠的问题,然后对位置关系矩阵做重叠标注,解决了实体关系重叠的问题。实体关系重叠的问题。实体关系重叠的问题。

【技术实现步骤摘要】
一种实体关系联合抽取方法及装置


[0001]本申请涉及知识图谱
,尤其涉及一种实体关系联合抽取方法及装置。

技术介绍

[0002]实体关系联合抽取是知识图谱领域中较为经典的任务,实体关系联合抽取包括命名实体识别和关系抽取。其中,命名实体识别是指在一段文本中,识别出预先定义好的实体类型,比如人名、地名、机构等。关系抽取是指在一段文本中抽取出头实体、关系和尾实体,由头实体、关系和尾实体构成了三元组,可见,实体关系联合抽取能够在自然语言处理中发挥出重要作用。
[0003]现有的技术中,通过构建了实体

关系二部图的方法,以执行对实体类型和关系类型的推理,从而实现提取三元组。然而,上述方法只能够识别出单个实体存在于多个三元组中的情况,不能够识别出多个三元组共享相同实体的情况。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种实体关系联合抽取方法及装置,旨在解决实体关系重叠的问题。
[0005]第一方面,本申请实施例提供了一种实体关系联合抽取方法,所述方法包括:将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。
[0006]可选地,所述第一位置关系标注方式具体为标注一个实体关系三元组中两个实体的开始字符;所述第二位置关系标注方式具体为标注一个所述实体关系三元组中所述两个实体的结束字符。
[0007]可选地,所述分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,包括:根据不同的实体关系,将所述第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第一标注改为第二标注,得到所述层叠标注后第一位置关系矩阵;
根据所述不同的实体关系,将所述第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第三标注改为第四标注,得到所述层叠标注后第二位置关系矩阵。
[0008]可选地,所述将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组,包括:根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;查询所述第一实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中,或,查询所述第二实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中;若是,得到所述待检测文本中对应的实体关系三元组。
[0009]可选地,所述针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中,包括:当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第三标注时,将所述结束字符正向存入到所述预设结束字符集合中;当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第四标注时,将所述结束字符逆向存入到所述预设结束字符集合中。
[0010]可选地,所述针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合,包括:当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第一标注时,根据正向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合;当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第二标注时,根据逆向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合。
[0011]第二方面,本申请实施例提供了一种实体关系联合抽取装置,所述装置包括:实体标注模块,用于将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;位置关系标注模块,用于将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;层叠标注模块,用于分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行
层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;编码模块,用于将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;解码模块,用于将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。
[0012]可选地,所述第一位置关系标注方式具体为标注一个实体关系三元组中两个实体的开始字符;所述第二位置关系标注方式具体为标注一个所述实体关系三元组中所述两个实体的结束字符。
[0013]可选地,所述层叠标注模块,包括:第一层叠标注单元,用于根据不同的实体关系,将所述第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第一标注改为第二标注,得到所述层叠标注后第一位置关系矩阵;第二层叠标注单元,用于根据所述不同的实体关系,将所述第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第三标注改为第四标注,得到所述层叠标注后第二位置关系矩阵。
[0014]可选地,所述解码模块,包括:第一存储单元,用于根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;第二存储单元,用于针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;第一查询单元,用于针对所述不同的实体关系,根据所述第一位置关系序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于,所述方法包括:将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。2.根据权利要求1所述的方法,其特征在于,所述第一位置关系标注方式具体为标注一个实体关系三元组中两个实体的开始字符;所述第二位置关系标注方式具体为标注一个所述实体关系三元组中所述两个实体的结束字符。3.根据权利要求1所述的方法,其特征在于,所述分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,包括:根据不同的实体关系,将所述第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第一标注改为第二标注,得到所述层叠标注后第一位置关系矩阵;根据所述不同的实体关系,将所述第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第三标注改为第四标注,得到所述层叠标注后第二位置关系矩阵。4.根据权利要求1所述的方法,其特征在于,所述将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组,包括:根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;查询所述第一实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中,或,查询所述第二实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中;若是,得到所述待检测文本中对应的实体关系三元组。5.根据权利要求4所述的方法,其特征在于,所述针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中,包括:
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第三标注时,将所述结束字符正向存入到所述预设结束字符集合中;当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第四标注时,将所述结束字符逆向存入到所述预设结...

【专利技术属性】
技术研发人员:黄安付彭鹏曹一丁杨雷郭伟
申请(专利权)人:白杨时代北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1