实体关系抽取模型训练方法及装置制造方法及图纸

技术编号:30375805 阅读:18 留言:0更新日期:2021-10-16 18:05
本公开的实施例提供了一种实体关系抽取模型训练方法及装置。所述方法包括:获取训练语料的实体以及实体标签;通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。以此方式,可利用不同实体关系抽取方式抽取出的能够互相验证、互相补充实体关系所形成的联合标签对实体关系抽取模型进行更准确、更全面的训练,便于之后能够利用训练出的实体关系抽取模型更加高效、准确地抽取训练语料中的实体关系。实体关系。实体关系。

【技术实现步骤摘要】
实体关系抽取模型训练方法及装置


[0001]本公开涉及信息
,尤其涉及实体关系抽取模型训练方法、装置、设备和计算机可读存储介质


技术介绍

[0002]目前为了提取语料中的有效信息,很多情况下,都需要对语料中的实体关系进行抽取,而现阶段实体关系的抽取方式主要包括三种:一是以无监督为主的自动抽取(Auto Extraction),通常在没有确定关系标签的条件下,根据句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语,而这种抽取方式仍然依赖于初始种子和语料库的质量,而且需要人工筛选低频的实体对,非常麻烦,一般很少使用;二是以有监督为主的关系分类,即将关系抽取视为一种分类任务,事先预定义有限个关系标签,并对语料进行人工标注,然后利用分类模型训练抽取关系,而这种方式过度依赖于标注语料的质量和数量,且现实中已经标注的语料仍然只占少数,很多军工情报等数据难以大量获取关系,从而使得可分类实体关系的分类模型很有限,能够分类的实体关系自然也很有限;三是基于远程监督的实体关系抽取方法,其主要思想是通过将大量的无标注语料与由大量实体对和实体关系构成的知识库对齐,以确定无标注语料中的实体关系,但现阶段知识库大量缺失,使得能够实现实体对齐的语料数量过少,从而造成了这些实体对的关系抽取训练不充分,进而影响整个实体关系抽取模型的性能。
[0003]因而,如何综合上述不同实体关系抽取方式的优缺点获得更有效的实体关系抽取模型以便之后可更加高效、准确地抽取语料中的实体关系成为亟待解决的问题。

技术实现思路

>[0004]本公开提供了一种实体关系抽取模型训练方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种实体关系抽取模型训练方法。该方法包括:获取训练语料的实体以及实体标签;通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。
[0006]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,包括:将所述训练语料的实体与语料知识库进行实体对齐,以确定所述训练语料中的第一实体关系;利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语
料中的第二实体关系;若所述第一实体关系与所述第二实体关系相匹配,则根据所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系。
[0007]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语料中的第二实体关系,包括:将所述训练语料中实体进行向量化,以获得所述训练语料中实体的特征向量;将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系。
[0008]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述实体关系分类器包括多个SVM分类器;所述将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系,包括:将所述训练语料中实体的特征向量依次分别输入至多个SVM分类器中进行实体关系分类,直至分类出的实体关系的概率大于预设概率时停止分类,并将大于所述预设概率的实体关系确定为所述第二实体关系;或者确定所述训练语料中实体所属的字符类别;根据所述字符类别,从所述多个SVM分类器中选择对应的分类器;将所述训练语料中实体的特征向量输入至所述对应的分类器中进行实体关系分类,以确定所述第二实体关系。
[0009]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述若所述第一实体关系与所述第二实体关系相匹配,则根据所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系,包括:若所述第一实体关系与所述第二实体关系的近似度达到预设近似度,则将所述第一实体关系和所述第二实体关系中的至少一项确定为所述训练语料中的实体关系。
[0010]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,还包括:若所述训练语料的实体与所述语料知识库无法进行实体对齐,则将所述第二实体关系确定为所述训练语料中的实体关系。
[0011]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签,包括:在抽取所述训练语料中的实体关系时,确定所述训练语料中实体的相对位置;根据所述实体标签、所述实体关系以及所述相对位置,生成所述联合标签。
[0012]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取训练语料的实体标签,包括:获取所述训练语料的词向量或字符向量;将所述词向量或所述字符向量输入至预先训练好的序列标注模型中,以确定所述训练语料的目标标签序列,所述目标标签序列由所述训练语料中各实体的标签构成。
[0013]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述词向量和所述字符向量输入至预先训练好的序列标注模型中,以确定所述训练语料的目标标签序列,包括:将所述词向量或所述字符向量输入至序列标注模型的BiLSTM层,以获得所述训练语料中每个词所分配的所有标签各自的标签得分;将所述训练语料中每个词所分配的所有标签各自的标签得分输入至所述序列标注模型的CRF层中,以获得所述训练语料中的至少一个标签序列及对应的概率;输出所述至少一个标签序列中对应的概率最高的标签序列作为所述目标标签序列。
[0014]根据本公开的第二方面,提供了一种实体关系抽取模型训练装置。该装置包括:获取模块,用于获取训练语料的实体以及实体标签;抽取模块,用于通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;生成模块,用于根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;训练模块,用于根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。
[0015]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0016]根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。
[0017]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0018]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体关系抽取模型训练方法,其特征在于,包括:获取训练语料的实体以及实体标签;通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系;根据所述实体标签和所述实体关系,生成所述训练语料的一个或多个联合标签;根据所述训练语料以及所述一个或多个联合标签对初始实体关系抽取模型进行训练,以获得目标实体关系抽取模型。2.根据权利要求1所述的方法,其特征在于,所述通过多种实体关系抽取方式联合抽取所述训练语料中的实体关系,包括:将所述训练语料的实体与语料知识库进行实体对齐,以确定所述训练语料中的第一实体关系;利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语料中的第二实体关系;若所述第一实体关系与所述第二实体关系相匹配,则根据所述第一实体关系和所述第二实体关系确定所述训练语料中的实体关系。3.根据权利要求2所述的方法,其特征在于,所述利用实体关系分类器对所述训练语料中的实体关系进行分类,以确定所述训练语料中的第二实体关系,包括:将所述训练语料中实体进行向量化,以获得所述训练语料中实体的特征向量;将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系。4.根据权利要求3所述的方法,其特征在于,所述实体关系分类器包括多个SVM分类器;所述将所述训练语料中实体的特征向量输入至所述实体关系分类器中进行实体关系分类,以确定所述第二实体关系,包括:将所述训练语料中实体的特征向量依次分别输入至多个SVM分类器中进行实体关系分类,直至分类出的实体关系的概率大于预设概率时停止分类,并将大于所述预设概率的实体关系确定为所述第二实体关系;或者确定所述训练语料中实体所属的字符类别;根据所述字符类别,从所述多个SVM分类器中选择对应的分类器;将所述训练语料中实体的特征向量输入至所述对应的分类器中进行实体关系分类,以确定所述第二实体关系。5.根...

【专利技术属性】
技术研发人员:刘禹汐姜青涛侯立旺戴希贝彭增印崔利娜
申请(专利权)人:北京道达天际科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1