当前位置: 首页 > 专利查询>复旦大学专利>正文

融合注意力机制和片段排列的实体关系联合抽取方法技术

技术编号:34177613 阅读:14 留言:0更新日期:2022-07-17 12:18
本发明专利技术属于计算机自然语言处理技术领域,具体为一种融合注意力机制和片段排列的实体关系联合抽取方法。该方法的步骤包括:输入文本,将输入的文本转化为词向量;基于片段排列的方式枚举所有可能的候选片段;将所有的候选片段输入到注意力机制的神经网络模型,根据注意力得分进行剪枝,来减少实体负样本的数量;进行命名实体识别和关系抽取。本发明专利技术基于片段排列的方式,能够枚举所有可能的片段,选择的每一个片段都是独立的,可以直接提取片段级别的特征去解决重叠实体问题。同时,针对实体负样本数量过多的问题,本发明专利技术加入了注意力机制,根据注意力的得分,可以有效地删除部分负样本以提高实体关系联合抽取的性能。样本以提高实体关系联合抽取的性能。样本以提高实体关系联合抽取的性能。

【技术实现步骤摘要】
融合注意力机制和片段排列的实体关系联合抽取方法


[0001]本专利技术涉及计算机自然语言处理
,特别涉及一种融合注意力机制和片段排列的实体关系联合抽取方法。

技术介绍

[0002]随着科学技术的发展,越来越多重要的信息以文本的形式出现我们的身边,比如论文资料、报纸新闻、社交聊天以及博客等。这些文本信息存在信息量大、内容繁杂、结构不一致等问题,使得人们很难快速从这些文本信息中获取有用的信息。在这样信息爆炸的现代社会,如何快速有效的从这些信息冗余、结构混乱的文档中抽取出有用的信息,并将这些有用信息以固定形式存储,以便后续用户能够精准和快速对这些信息进行利用已经成为亟需解决的挑战。面对这个挑战,人们提出了信息抽取。而实体和关系抽取是信息抽取的关键任务之一,近些年来受到学术界和工业界的广泛关注。它可以为自动问答、信息检索、知识库填充、知识推理等下游任务提供支持。
[0003]命名实体识别和关系抽取的研究方法主要分为两大类:流水线方法和联合抽取方法。流水线方法通常需要训练两个模型,一个用于命名实体识别,另一个用于关系抽取。联合抽取方法是将命名实体识别和关系抽取这两个任务联合建模,要么将它们投影到结构化预测框架中,要么通过共享表示执行多任务学习。虽然流水线方法易于实现,这两个抽取模型的灵活性高,实体抽取模型和关系抽取模型可以使用独立的数据集,并不需要同时标注实体和关系的数据集。但流水线方法忽略了这两个任务之间的内在联系和依赖关系,实体抽取的错误会影响下一步关系抽取的性能。

技术实现思路

[0004]本专利技术是为解决上述问题而提出的,目的在于提供一种准确的、适应性强的融合注意力机制和片段排列的实体关系联合抽取方法,本专利技术采用了如下技术方案:
[0005]本专利技术提供了一种融合注意力机制和片段排列的实体关系联合抽取方法,其特征在于,包括以下步骤:步骤S1,输入文本句子并对所述文本句子进行标记解析;步骤S2,基于所述标记解析,利用预训练语言模型进行编码,从而获得所述输入文本的词向量;步骤S3,基于所述词向量,利用片段排列的方式枚举所有的候选片段;步骤S4,将所述候选片段输入注意力机制的神经网络模型,并获取所述各个候选片段的注意力得分;步骤S5,基于所述注意力得分,将所述候选片段排成有序队列;步骤S6,保留所述有序队列的前列候选片段,并删除剩余所述候选片段;步骤S7,将所述保留下来的候选片段输入实体分类器进行实体类型的预测,并获得预测为真的实体片段;步骤S8,将所述预测为真的实体片段两两匹配,获得每对所述实体片段的关系表示,并将所述关系表示输入关系分类器进行预测,从而获得每对所述实体片段之间的关系类型。
[0006]本专利技术提供的融合注意力机制和片段排列的实体关系联合抽取方法,还可以具有这样的技术特征,其中,步骤S1中的对所述输入文本句子进行标记解析是指将所述文本句
子解析成自然语言处理最基本的单元。
[0007]本专利技术提供的融合注意力机制和片段排列的实体关系联合抽取方法,还可以具有这样的技术特征,其中,步骤S5中将所述候选片段排成有序队列是按照所述注意力得分从大到小的顺序进行排列的。
[0008]本专利技术提供的融合注意力机制和片段排列的实体关系联合抽取方法,还可以具有这样的技术特征,其中,步骤S6所述保留前列片段的个数计算公式如下:n=λN,式中,N为所述候选片段的总数量,λ为保留因子的阈值。
[0009]本专利技术提供的融合注意力机制和片段排列的实体关系联合抽取方法,还可以具有这样的技术特征,其中,步骤S7所述实体分类器和步骤S8所述关系分类器均为深度神经网络。
[0010]专利技术作用与效果
[0011]根据本专利技术的融合注意力机制和片段排列的实体关系联合抽取方法,将输入的文本转化为词向量,并基于片段排列的方式枚举所有可能的候选片段,通过将所有的候选片段输入到注意力机制的神经网络模型,根据注意力得分进行剪枝,来减少实体负样本的数量,从而进行命名实体识别和关系抽取。本专利技术基于片段排列的方式,能够枚举所有可能的片段,选择的每一个片段都是独立的,可以直接提取片段级别的特征去解决重叠实体问题。针对实体负样本数量过多的问题,本专利技术还加入了注意力机制,根据注意力的得分,可以有效地删除部分负样本以提高实体关系联合抽取的性能。
附图说明
[0012]图1是本专利技术实施例中融合注意力机制和片段排列的实体关系联合抽取方法的示意流程图;
[0013]图2是本专利技术实施例融合注意力机制和片段排列的实体关系联合抽取方法的原理示意图。
具体实施方式
[0014]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本专利技术的融合注意力机制和片段排列的实体关系联合抽取方法作具体阐述。
[0015]<实施例>
[0016]图1是本专利技术实施例中融合注意力机制和片段排列的实体关系联合抽取方法的示意流程图;
[0017]图2是本专利技术实施例的示意图。
[0018]如图1所示,融合注意力机制和片段排列的实体关系联合抽取方法,主要包括如下步骤:
[0019]步骤S1,输入文本句子并对所述文本句子进行标记解析;
[0020]本实施例中,以文本句子:Joe Biden is the President of the United States.为例,将将文本句子解析成自然语言处理最基本的单元,如图2所示;具体地,将文本句子“Joe Biden is the President of the United States.”分割成

Joe



Biden

、、

is



the



President



of



the



United



States



.

等自然语言处理最基本的单元。
[0021]步骤S2,基于所述标记解析,利用预训练语言模型进行编码,从而获得所述输入文本的词向量;
[0022]本实施例中,将标记输入预训练语言模型,获得每个标记的词向量,如图2所示;具体地,将标记解析后的标记:

Joe



Biden



is



the



President



of



the



...

【技术保护点】

【技术特征摘要】
1.一种融合注意力机制和片段排列的实体关系联合抽取方法,其特征在于,包括以下步骤:步骤S1,输入文本句子并对所述文本句子进行标记解析;步骤S2,基于所述标记解析,利用预训练语言模型进行编码,从而获得所述输入文本的词向量;步骤S3,基于所述词向量,利用片段排列的方式枚举所有的候选片段;步骤S4,将所述候选片段输入注意力机制的神经网络模型,并获取所述各个候选片段的注意力得分;步骤S5,基于所述注意力得分,将所述候选片段排成有序队列;步骤S6,保留所述有序队列的前列候选片段,并删除剩余所述候选片段;步骤S7,将所述保留下来的候选片段输入实体分类器进行实体类型的预测,并获得预测为真的实体片段;步骤S8,将所述预测为真的实体片段两两匹配,获得每对所述实体片段的关系表示,并将所述关系表示输入关系分类器进行预测,从而获得每对所述实体片段之...

【专利技术属性】
技术研发人员:张文强张成龙王昊奋
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1