当前位置: 首页 > 专利查询>中山大学专利>正文

文本关系抽取模型的训练方法、装置及可读存储介质制造方法及图纸

技术编号:20681263 阅读:35 留言:0更新日期:2019-03-27 18:59
本发明专利技术公开了一种文本关系抽取模型的训练方法,包括以下步骤:计算所述字向量与所述实体对的向量之间的位置信息,并根据所述位置信息生成位置向量;将所述字向量与所述位置向量拼接,生成联合字向量;获取所述实体对的向量对应的关系类别向量;根据所述关系类别向量和所述联合字向量计算所述字向量的注意力权重,并根据所述注意力权重和所述联合字向量确定所述训练文本的特征向量,基于所述训练文本的特征向量采用约束损失函数训练所述文本关系抽取模型的参数。本发明专利技术还公开了一种文本关系抽取模型的训练装置及计算机可读存储介质。本发明专利技术实现了更细粒度下实体关系的识别,改善了模型抽取实体关系的效果。

【技术实现步骤摘要】
文本关系抽取模型的训练方法、装置及可读存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种文本关系抽取模型的训练方法、装置及计算机可读介质。
技术介绍
实体关系抽取是自然语言处理任务中一个重要研究领域,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。通过实体关系抽取可以构建知识图谱或本体知识库,为自动问答系统提供数据支持,同时实体关系抽取也为其他自然语言处理技术提供理论支持。在关系抽取中通常面临同一句话中包含多类实体,每两类实体间也包含多种关系,对于这种类型的文本关系分类通常采用通过添加实体类型作为特征来训练一个模型处理所有类别关系。例如,通过训练好的词向量和位置向量特征,利用双向LSTM编码实体的上下文信息,然后输出标记实体对应位置的向量,并将其输入至CNN神经网络,以输出两个实体名词对应的语义信息,最终输入至分类器中进行分类。但是该专利在卷积层只利用了实体词对应位置中双向LSTM的隐藏层向量,往往会丢失一些语义信息,同时只适合抽取粗粒度下的实体关系抽取任务,并没有进一步考虑到细粒度下实体本文档来自技高网...

【技术保护点】
1.一种文本关系抽取模型的训练方法,其特征在于,所述文本关系抽取模型的训练方法包括以下步骤:获取训练文本中实体对的向量及所述训练文本中每个字的字向量;计算所述字向量与所述实体对的向量之间的位置信息,并根据所述位置信息生成位置向量;将所述字向量与所述位置向量拼接,生成联合字向量;获取所述实体对的向量对应的关系类别向量;根据所述关系类别向量和所述联合字向量计算所述字向量的注意力权重,并根据所述注意力权重和所述联合字向量确定所述训练文本的特征向量;基于所述训练文本的特征向量采用约束损失函数训练所述文本关系抽取模型的参数。

【技术特征摘要】
1.一种文本关系抽取模型的训练方法,其特征在于,所述文本关系抽取模型的训练方法包括以下步骤:获取训练文本中实体对的向量及所述训练文本中每个字的字向量;计算所述字向量与所述实体对的向量之间的位置信息,并根据所述位置信息生成位置向量;将所述字向量与所述位置向量拼接,生成联合字向量;获取所述实体对的向量对应的关系类别向量;根据所述关系类别向量和所述联合字向量计算所述字向量的注意力权重,并根据所述注意力权重和所述联合字向量确定所述训练文本的特征向量;基于所述训练文本的特征向量采用约束损失函数训练所述文本关系抽取模型的参数。2.如权利要求1所述的文本关系抽取模型的训练方法,由两个实体组成所述实体对,实体的向量包括第一实体的向量及第二实体的向量,其特征在于,所述计算所述字向量与所述实体对的向量之间的位置信息,并根据所述位置信息生成位置向量的步骤包括:获取所述字向量与所述第一实体的向量之间的第一距离,以及所述字向量与所述第二实体的向量之间的第二距离;根据所述第一距离和所述第二距离生成位置向量。3.如权利要求1所述的文本关系抽取模型的训练方法,其特征在于,所述根据所述关系类别向量和所述联合字向量计算所述字向量的注意力权重,并根据所述注意力权重和所述联合字字向量确定所述训练文本的特征向量的步骤包括:计算各个所述联合字向量与所述关系类别向量的余弦相似度;将所述余弦相似度通过卷积神经网络的处理得到各个所述联合字向量关于关系类别向量的注意力得分;对所述注意力得分进行最大池化操作,得到最大池化后的注意力得分;将所述最大池化后的注意力得分进行归一化处理,得到各个所述联合字向量的注意力权重;将所述注意力权重乘以对应的所述联合字向量得到所述训练文本的特征向量。4.如权利要求1所述的文本关系抽取模型的训练方法,其特征在于,所述基于所述训练文本的特征向量采用约束损失函数训练所述文本关系抽取模型的参数的步骤包括:根据当前所述训练文本的特征向量和关系类别矩阵得到所述训练文本的关系类别得分,其中,所述关系类别矩阵为待训练的参数矩阵;将所述训练训练文本的关系类别得分和所述关系类别矩阵传递到...

【专利技术属性】
技术研发人员:任江涛高爽超
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1