一种基于序列标记策略的自然语言关系抽取方法技术

技术编号:30154310 阅读:17 留言:0更新日期:2021-09-25 15:04
本发明专利技术公开了一种基于序列标记策略的自然语言联合关系提取方法,其特点是采用序列标记策略的模型方法,将关系提取转变为序列标签,所述模型为输入层、预训练模型层、识别层和序列标记层构成的联合关系提取模型,所述标记策略在预测关系三元组前推断出句子序列中每个位置的关系数量和实体数量;所述模型的实体识别和关系分类分别由主体实体抽取模块和关系抽取模块完成,且两模块都引入了多头注意力机制,可以捕捉句子中有价值的信息以及任意位置间的关系特征。本发明专利技术与现有技术相比具有进一步提高关系提取模型的准确率,有效解决了实体重叠的问题,效果优于其它方法。效果优于其它方法。效果优于其它方法。

【技术实现步骤摘要】
一种基于序列标记策略的自然语言关系抽取方法


[0001]本专利技术涉及自然语言处理中关系抽取
,尤其是一种基于序列标记策略的自然语言关系抽取方法。

技术介绍

[0002]随着信息化技术的高速发展,互联网上各个领域的数据量呈爆炸式增长。如何从海量的数据中提取到有价值的信息,从而提高各行业的效率,为人们提供智能、边界的服务。关系实体抽取作为自然语言处理中的基础任务,能够从无结构的文本中提取出相关的知识,以实体关系三元组的形成呈现。例如,对句子“卓别林在摩登时代中扮演一个工人”进行关系抽取,最终得到的关系三元组为[卓别林,参演,摩登时代],其中“卓别林”和“摩登时代”为主体实体和客体实体,“参演”则是两实体之间存在的关系。关系抽取的研究成果可以应用到多个领域中,如知识库构建、智能信息检索、问答系统开发等。
[0003]早期的关系提取模型使用的是pipeline的方法,将关系提取中的两个步骤拆分成两个独立的任务:1)利用神经网络将句子中的实体识别出来;2)提取已识别的实体对之间的关系。Pipeline方法利用两个独立的部分完成实体提取任务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于序列标记策略的自然语言联合关系提取方法,其特征在于采用序列标记策略的模型方法,将关系提取转变为序列标签,所述模型为输入层、预训练模型层、识别层和序列标记层构成的联合关系提取模型;所述输入层对数据进行预处理,去除无效数据和脏数据;所述预训练模型层预训练模型为模型的不同模块所共享;所述识别层由主体实体识别模块和关系识别模块组成;所述序列标记层将关系提取任务被转换为序列标注任务,对句子中的每个单词进行标记。2.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述序列标记策略为在序列标记阶段,模型预测出句子中每个位置的的实体数量,以及每个实体存在的关系数量,如果被标记为0,则表明该位置不是实体也不存在任何关系;反之,如果标记为n>0,则表明该位置是一个实体,在关系模块中表示存在n种关系。3.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述联合关系提取模型将关系提取转变为序列标签,具体包括以下步骤:步骤一:利用WordPiece将句子进行分词,得到一...

【专利技术属性】
技术研发人员:胡文心陈少泽蔡建华郑巍
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1