基于混合特征表示的实体关系联合抽取系统及方法技术方案

技术编号:33731230 阅读:36 留言:0更新日期:2022-06-08 21:26
本发明专利技术公开一种基于混合特征表示的实体关系联合抽取系统及方法,所述系统包括:特征提取模块,用于从工业文本数据中提取字符级别特征向量和词级别特征向量;特征融合模块,用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;模型构建模块,用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系

【技术实现步骤摘要】
基于混合特征表示的实体关系联合抽取系统及方法


[0001]本专利技术属于知识抽取
,具体涉及一种基于混合特征表示的实体关系联合抽取系统及方法。

技术介绍

[0002]近年来,预训练语言模型如BERT、GPT等已经变得非常流行,并在各种自然语言理解任务上取得了巨大成功,如知识抽取、情感分析、问题回答和语言推理。
[0003]微调预训练模型方法虽然在命名实体识别和关系抽取两大领域都取得了巨大的成功,但是在一些实际场景中会存在大量的嵌套实体和重叠关系三元组,直接应用微调预训练模型对其进行抽取,其性能并不完美。早期的关系

实体提取研究采用的是流水线方法,它首先识别句子中的所有实体,然后对每个实体对进行关系分类,这种方法容易出现错误传播问题,因为早期的错误无法在后期得到纠正。
[0004]为了解决这一问题,现有技术中陆续提出了实体和关系的联合学习方式,然而,大多数方法都不能有效地处理句子中包含多个相互重叠的关系三元组的场景。最近,基于span的方法被提出并应用到命名实体识别中有效的解决了实体嵌套问题,其本质是通过本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于混合特征表示的实体关系联合抽取系统,其特征在于,所述系统包括:特征提取模块:用于从工业文本数据中提取字符级别特征向量和词级别特征向量;特征融合模块:用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;模型构建模块:用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系

尾实体识别单元构建实体关系联合抽取模型;联合识别模块:用于将混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。2.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述特征提取模块具体用于:基于CNN模型从工业文本数据中提取字符级别特征向量,同时使用中文分词器对工业文本数据进行分词,将分词之后的单词与外部词典信息和外部知识库做匹配,通过Word2Vec模型获取词级别特征向量。3.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述双向LSTM编码器为带有注意力机制的双向LSTM模型,用于对输入的混合特征向量进行编码,提取工业文本数据文本中长距离命名实体之间的依赖关系,同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。4.根据权利要求3所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述头实体识别单元包括两个相同的第一二元分类器,用于对双向LSTM编码器输出的编码后的混合特征向量进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,基于实体的开始位置和结束位置生成多个实体特征向量。5.根据权利要求4所述的基于混合特征表示的实体关系联合抽取方法,其特征在于,所述模型构建模块中,所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,去除低于概率阈值的实体和非实体,保留大于或等于概率阈值的实体作为头实体。6.根据权利要求5所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述关系

尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务,通过先验知识获取...

【专利技术属性】
技术研发人员:刘伟冀振燕董为孔德焱王炎
申请(专利权)人:中科蓝智武汉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1