基于Transformer模型的实体关系抽取方法和系统技术方案

技术编号:31493733 阅读:72 留言:0更新日期:2021-12-18 12:31
本发明专利技术提供了一种基于Transformer模型的实体关系抽取方法和系统,包括:对非结构化文本进行数据处理,得到实体以及对应关系;根据关系类型,将关系抽取转换成填空的形式;基于Transformer结构,构建联合抽取模型,在编码器进行实体抽取,在非自回归解码器进行关系抽取;在解码器输入关系模板,基于前馈神经网络的复制机制,输出具有对应关系的实体对;通过两阶段排序策略和负采样机制训练模型,并对联合抽取模型效果的进行测试,并依据测试结果调整联合抽取模型。通过本发明专利技术可以实现在非结构化文本中进行特定关系的抽取,并识别出对应的实体,从而利用文本中有价值的信息。从而利用文本中有价值的信息。从而利用文本中有价值的信息。

【技术实现步骤摘要】
基于Transformer模型的实体关系抽取方法和系统


[0001]本专利技术涉及信息抽取
,具体地,涉及一种基于Transformer模型的实体关系抽取方法和系统。

技术介绍

[0002]随着大数据时代的到来,海量的非结构化文本越来越多地出现在互联网。人们希望能够通过计算机来自动获取这些文本中的结构化的信息。实体关系抽取通常分为两个部分:命名实体识别以及关系抽取。命名实体识别的目标是在文本当中识别出对应的命名实体;关系抽取目标是从文本当中提取特定的关系。在文本数据激增的今天,实体关系抽取成为了知识图谱构建的关键步骤,许多研究人员此领域进行了探索。
[0003]专利文献CN112183023A(申请号:CN202011045802.6)公开了一种多关系抽取方法和终端,该方法包括:将待处理句子中的每个词进行向量变换后输入Transformer模型的解码器进行编码,得到编码向量;将预设句子中的每个词进行向量变换,得到预设向量;将所述编码向量与所述预设向量同时输入所述Transformer模型的解码器进行解码,得到输出数据集;所述输出数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer模型的实体关系抽取方法,其特征在于,包括:步骤S1:对非结构化文本进行数据处理,得到实体以及对应关系;步骤S2:根据关系类型,将关系抽取转换成填空的形式;步骤S3:基于span级别的Transformer结构,构建联合抽取模型,在编码器进行实体抽取,在非自回归解码器进行关系抽取;步骤S4:在解码器输入关系模板,基于前馈神经网络的复制机制,输出具有对应关系的实体对;步骤S5:通过两阶段排序策略和负采样机制训练模型,并对联合抽取模型效果的进行测试,并依据测试结果调整联合抽取模型。2.根据权利要求1所述的基于Transformer模型的实体关系抽取方法,其特征在于,所述步骤S1包括:步骤S101:对文本进行分句处理,去除重复的句子;步骤S102:统计文本中出现的关系或者实体的类别,并进行类别映射ID的字典构建;步骤S103:对头实体和尾实体开始与结束的位置进行标记,获取对应的实体名称以及类别;步骤S104:对头实体和尾实体的关系进行映射,获取对应的关系类别。3.根据权利要求1所述的基于Transformer模型的实体关系抽取方法,其特征在于,所述步骤S2包括:步骤S201:将关系转换成预设形式的模板,所述模板包含关系细粒度的语义信息;步骤S202:将标记插入到开始和结束的位置,将关系抽取转换成填空的形式,从而进行头实体和尾实体的提取;步骤S203:将关系模板进行多次复制,实现对头实体、关系、尾实体的抽取。4.根据权利要求1所述的基于Transformer模型的实体关系抽取方法,其特征在于,所述步骤S3包括:步骤S301:将分句后的文本进行WordPiece分词处理,得到目标分词,并将标记插入到句子的开始位置;步骤S302:对头实体和尾实体的位置进行更新,获取分词之后的位置;步骤S303:将分词后的句子输入到Transformer的编码器端,获取对应的向量表示;步骤S304:编码器的输出经过两个前馈神经网络,获取到的一个结果用于命名实体识别,另一个结果用于Transformer的解码器进行关系抽取。5.根据权利要求1所述的基于Transformer模型的实体关系抽取方法,其特征在于,所述步骤S4包括:步骤S401:载入编码器的输出,作为注意力机制计算的依据;步骤S402:将关系模板分词后,输入到Transformer的解码器;步骤S403:通过Transformer解码器的向量表示,基于复制机制进行头实体和尾实体提取;步骤S404:将输入解码器的关系和输出的实体对进行组合,完成包括头实体、关系和尾实体的三元组的获取与构建。6.根据权利要求1所述的基于Transformer模型的实体关系抽取方法,其特征在于,所
述步骤S5包括:步骤S501:依据实体对在原文中的位置,对实体对进行两阶段排序;步骤S502:采用负采样机制,若关系出现在对应的原文中,则把它选为解码器输入;若不在原文中,则以预设概率选为解码器输入;步骤S503:利用测试数据对模型效果进行测试,统计模型的准确率、召回率和F1指标,并加以保存;步骤S504:修改包括模型学习率、迭代次数的超参数,...

【专利技术属性】
技术研发人员:李哲傅洛伊王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1