基于混合特征表示的实体关系联合抽取系统及方法技术方案

技术编号:33731230 阅读:32 留言:0更新日期:2022-06-08 21:26
本发明专利技术公开一种基于混合特征表示的实体关系联合抽取系统及方法,所述系统包括:特征提取模块,用于从工业文本数据中提取字符级别特征向量和词级别特征向量;特征融合模块,用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;模型构建模块,用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系

【技术实现步骤摘要】
基于混合特征表示的实体关系联合抽取系统及方法


[0001]本专利技术属于知识抽取
,具体涉及一种基于混合特征表示的实体关系联合抽取系统及方法。

技术介绍

[0002]近年来,预训练语言模型如BERT、GPT等已经变得非常流行,并在各种自然语言理解任务上取得了巨大成功,如知识抽取、情感分析、问题回答和语言推理。
[0003]微调预训练模型方法虽然在命名实体识别和关系抽取两大领域都取得了巨大的成功,但是在一些实际场景中会存在大量的嵌套实体和重叠关系三元组,直接应用微调预训练模型对其进行抽取,其性能并不完美。早期的关系

实体提取研究采用的是流水线方法,它首先识别句子中的所有实体,然后对每个实体对进行关系分类,这种方法容易出现错误传播问题,因为早期的错误无法在后期得到纠正。
[0004]为了解决这一问题,现有技术中陆续提出了实体和关系的联合学习方式,然而,大多数方法都不能有效地处理句子中包含多个相互重叠的关系三元组的场景。最近,基于span的方法被提出并应用到命名实体识别中有效的解决了实体嵌套问题,其本质是通过预测实体的开始和结束位置并通过组合的方式识别出多种类型的实体,但是其模型很容易解码出错误实体或非实体。因此,如何有效地处理句子中包含多个相互重叠的关系三元组的场景成为知识抽取的关键问题。

技术实现思路

[0005]有鉴于此,本专利技术提出了一种基于混合特征表示的实体关系联合抽取系统及方法,用于解决对工业文本数据进行知识抽取时无法有效地处理多个相互重叠的关系三元组的问题。
[0006]本专利技术第一方面,公开一种基于混合特征表示的实体关系联合抽取系统,所述系统包括:
[0007]特征提取模块:用于从工业文本数据中提取字符级别特征向量和词级别特征向量;
[0008]特征融合模块:用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
[0009]模型构建模块:用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系

尾实体识别单元构建实体关系联合抽取模型;
[0010]联合识别模块:用于将混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。
[0011]在以上技术方案的基础上,优选的,所述特征提取模块具体用于:
[0012]基于CNN模型从工业文本数据中提取字符级别特征向量,同时使用中文分词器对工业文本数据进行分词,将分词之后的单词与外部词典信息和外部知识库做匹配,通过
Word2Vec模型获取词级别特征向量。
[0013]在以上技术方案的基础上,优选的,所述模型构建模块中,所述双向LSTM编码器为带有注意力机制的双向LSTM模型,用于对输入的混合特征向量进行编码,提取工业文本数据文本中长距离命名实体之间的依赖关系,同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。
[0014]在以上技术方案的基础上,优选的,所述模型构建模块中,所述头实体识别单元包括两个相同的第一二元分类器,用于对双向LSTM编码器输出的编码后的混合特征向量进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,实体的开始位置和结束位置生成多个实体特征向量。
[0015]在以上技术方案的基础上,优选的,所述模型构建模块中,所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,去除低于概率阈值的实体和非实体,保留大于或等于概率阈值的实体作为头实体。
[0016]在以上技术方案的基础上,优选的,所述模型构建模块中,所述关系

尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务,通过先验知识获取关系的描述信息,将关系的描述信息和头实体拼接作为机器阅读理解任务的问题,以编码后的混合特征向量作为机器阅读理解任务的段落,以阅读理解的方式嵌入到预训练的BERT模型中,并通过两个第二二元分类器识别与关系的描述信息和头实体对应的尾实体;
[0017]所述预训练的BERT模型中,使用多头自注意机制捕获token之间的交互信息,为工业文本数据提供先验知识,同时在训练的过程中捕获上下文语义特征信息,从而消除同音异义词的歧义,表达语义和句法模式。
[0018]在以上技术方案的基础上,优选的,所述关系

尾实体识别单元中,第二二元分类器为给定上下文和特定查询输出多个开始索引和多个结束索引,支持根据查询提取所有相关实体。
[0019]本专利技术第二方面,公开一种基于混合特征表示的实体关系联合抽取方法,所述方法包括:
[0020]S1、从工业文本数据中提取字符级别特征向量和词级别特征向量;
[0021]S2、使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
[0022]S3、通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码;
[0023]S4、通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量h
N
进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,生成多个实体特征向量;
[0024]S5、将每个实体特征向量分别与编码后的混合特征向量拼接,通过Softmax的概率输出来对实体进行分类,并进行实体过滤,保留高概率实体及其类型作为头实体;
[0025]S6、将关系和尾实体的识别作为一个机器阅读理解任务,使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征向量作为段落的两个句子进行编码,并通过两个第二二元分类器实现具有复杂关系的重叠三元组的识别。
[0026]本专利技术第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通
信接口和总线;
[0027]其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
[0028]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本专利技术第二方面所述的方法。
[0029]本专利技术第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现本专利技术第二方面所述的方法。
[0030]本专利技术相对于现有技术具有以下有益效果:
[0031]1)本专利技术的混合特征向量集成了字符级别信息、词级别信息,其中字符级别特征向量提供形态上的特征信息;结合外部词典信息和外部知识库的词级别特征向量嵌入提供边界特征信息,混合特征向量丰富了混合特征信息,提高了实体边界识别的性能。
[0032]2)本专利技术通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码,并给基于编码后的混合特征向量分别进行头实体识别、实体类型分类和过滤、关系
...

【技术保护点】

【技术特征摘要】
1.一种基于混合特征表示的实体关系联合抽取系统,其特征在于,所述系统包括:特征提取模块:用于从工业文本数据中提取字符级别特征向量和词级别特征向量;特征融合模块:用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;模型构建模块:用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系

尾实体识别单元构建实体关系联合抽取模型;联合识别模块:用于将混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。2.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述特征提取模块具体用于:基于CNN模型从工业文本数据中提取字符级别特征向量,同时使用中文分词器对工业文本数据进行分词,将分词之后的单词与外部词典信息和外部知识库做匹配,通过Word2Vec模型获取词级别特征向量。3.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述双向LSTM编码器为带有注意力机制的双向LSTM模型,用于对输入的混合特征向量进行编码,提取工业文本数据文本中长距离命名实体之间的依赖关系,同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。4.根据权利要求3所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述头实体识别单元包括两个相同的第一二元分类器,用于对双向LSTM编码器输出的编码后的混合特征向量进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,基于实体的开始位置和结束位置生成多个实体特征向量。5.根据权利要求4所述的基于混合特征表示的实体关系联合抽取方法,其特征在于,所述模型构建模块中,所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,去除低于概率阈值的实体和非实体,保留大于或等于概率阈值的实体作为头实体。6.根据权利要求5所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述关系

尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务,通过先验知识获取...

【专利技术属性】
技术研发人员:刘伟冀振燕董为孔德焱王炎
申请(专利权)人:中科蓝智武汉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1