当前位置: 首页 > 专利查询>复旦大学专利>正文

融合注意力机制和片段排列的实体关系联合抽取方法技术

技术编号:34177613 阅读:23 留言:0更新日期:2022-07-17 12:18
本发明专利技术属于计算机自然语言处理技术领域,具体为一种融合注意力机制和片段排列的实体关系联合抽取方法。该方法的步骤包括:输入文本,将输入的文本转化为词向量;基于片段排列的方式枚举所有可能的候选片段;将所有的候选片段输入到注意力机制的神经网络模型,根据注意力得分进行剪枝,来减少实体负样本的数量;进行命名实体识别和关系抽取。本发明专利技术基于片段排列的方式,能够枚举所有可能的片段,选择的每一个片段都是独立的,可以直接提取片段级别的特征去解决重叠实体问题。同时,针对实体负样本数量过多的问题,本发明专利技术加入了注意力机制,根据注意力的得分,可以有效地删除部分负样本以提高实体关系联合抽取的性能。样本以提高实体关系联合抽取的性能。样本以提高实体关系联合抽取的性能。

【技术实现步骤摘要】
融合注意力机制和片段排列的实体关系联合抽取方法


[0001]本专利技术涉及计算机自然语言处理
,特别涉及一种融合注意力机制和片段排列的实体关系联合抽取方法。

技术介绍

[0002]随着科学技术的发展,越来越多重要的信息以文本的形式出现我们的身边,比如论文资料、报纸新闻、社交聊天以及博客等。这些文本信息存在信息量大、内容繁杂、结构不一致等问题,使得人们很难快速从这些文本信息中获取有用的信息。在这样信息爆炸的现代社会,如何快速有效的从这些信息冗余、结构混乱的文档中抽取出有用的信息,并将这些有用信息以固定形式存储,以便后续用户能够精准和快速对这些信息进行利用已经成为亟需解决的挑战。面对这个挑战,人们提出了信息抽取。而实体和关系抽取是信息抽取的关键任务之一,近些年来受到学术界和工业界的广泛关注。它可以为自动问答、信息检索、知识库填充、知识推理等下游任务提供支持。
[0003]命名实体识别和关系抽取的研究方法主要分为两大类:流水线方法和联合抽取方法。流水线方法通常需要训练两个模型,一个用于命名实体识别,另一个用于关系抽取。联合抽取方法是将命本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合注意力机制和片段排列的实体关系联合抽取方法,其特征在于,包括以下步骤:步骤S1,输入文本句子并对所述文本句子进行标记解析;步骤S2,基于所述标记解析,利用预训练语言模型进行编码,从而获得所述输入文本的词向量;步骤S3,基于所述词向量,利用片段排列的方式枚举所有的候选片段;步骤S4,将所述候选片段输入注意力机制的神经网络模型,并获取所述各个候选片段的注意力得分;步骤S5,基于所述注意力得分,将所述候选片段排成有序队列;步骤S6,保留所述有序队列的前列候选片段,并删除剩余所述候选片段;步骤S7,将所述保留下来的候选片段输入实体分类器进行实体类型的预测,并获得预测为真的实体片段;步骤S8,将所述预测为真的实体片段两两匹配,获得每对所述实体片段的关系表示,并将所述关系表示输入关系分类器进行预测,从而获得每对所述实体片段之...

【专利技术属性】
技术研发人员:张文强张成龙王昊奋
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1