【技术实现步骤摘要】
一种基于关系分解的端到端实体关系联合抽取方法及系统
[0001]本专利技术涉及深度学习与自然语言处理技术,具体涉及一种基于关系分解的端到端实体关系联合抽取方法及系统。
技术介绍
[0002]三元组抽取作为信息抽取中的重要组成部分,它是从一组非结构化文本中以(头实体,关系,尾实体)的形式获取结构化的知识,也叫做实体关系抽取。这是构建知识图谱的关键任务之一,是其他相关自然语言处理任务的重要基础,如:机器翻译,文本摘要,推荐系统等。
[0003]早期的抽取方法大多采用基于流水线的方式来进行实体关系抽取,这类方法将抽取任务视为两个独立的子任务,分别是命名实体识别和关系分类。这种方法灵活性高,简化了处理流程,但也存在缺点,包括:误差累积、实体冗余和交互缺失。
[0004]为了解决流水线抽取方式的缺陷,实体关系联合提取使用一个模型来同时提取实体和关系。最初的联合抽取方法大多是基于特征的模型,这些模型需要复杂的预处理过程,并依赖于特征提取工具,不仅工序繁杂,而且容易引入其他错误。
[0005]为了减少人工进行特征工 ...
【技术保护点】
【技术特征摘要】
1.一种基于关系分解的端到端实体关系联合抽取方法,其特征在于,包括以下步骤:数据预处理:将待抽取实体关系的句子根据BERT所要求的格式进行转换,并转化成为向量的形式,作为BERT模型的输入;同时将三元组标签转化为向量的形式;分别标注出句子中的关系、头实体和尾实体;模型训练:将BERT模型输出的文本向量,与注意力机制生成的句向量合并得到句子的最终向量表示,通过sigmoid函数进行关系分类,识别出句子中的关系;并将获取的关系特征与句子特征相融合进行头尾实体识别;结果解码:对不同关系类别下所识别的实体标签进行解码,并将其与关系相结合,从而得到句子中所存在的实体关系三元组。2.根据权利要求1所述的基于关系分解的端到端实体关系联合抽取方法,其特征在于,数据预处理中的每个标签包含:句子所包含的关系类型,以及对应的关系类型下的实体在句子中的位置;其中,根据每个关系类型生成两组句子标注序列,分别表示头实体和尾实体在三元组中的位置。3.根据权利要求2所述的基于关系分解的端到端实体关系联合抽取方法,其特征在于,若关系类型为预定义关系类型中的一种,按照0和1两种标签进行表示;若当前关系存在于句子中,则在对应关系下标中标注为1,否则为0;所述对应关系类型下的实体在句子中的位置,根据头尾实体对应两个不同的标注序列,用0或者1或者2来表示,其中0表示当前位置上的词不是实体的一部分,1表示其为实体的起始位置,2表示其为实体的结束位置。4.根据权利要求1所述的基于关系分解的端到端实体关系联合抽取方法,其特征在于,所述模型训练的具体过程包括:S21:将数据预处理阶段得到的文本向量表示输入到BERT模型中,采用基于transformer结构的BERT模型进行编码,学习句子中每个词的上下文信息;S22:对BERT输出的词向量进行全局平均池化,得到句子级向量表示;引入注意力机制学习对句子分类器具有关键作用的词表示,将其和经过全局平均池化后得到的句子级向量表示进行合并,得到句子的最终向量表示;S23:根据句子的最终向量表示,通过sigmoid函数进行多关系分类,识别句子中所包含的关系;S24:在得到句子中所包含的关系类型后,随机选取其中的一...
【专利技术属性】
技术研发人员:张璇,高宸,杜鲲鹏,农琼,马秋颖,袁子豪,
申请(专利权)人:云南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。