一种基于词增强的实体关系抽取方法及装置制造方法及图纸

技术编号:39047144 阅读:14 留言:0更新日期:2023-10-10 12:00
本发明专利技术公开了一种基于词增强的实体关系抽取方法及装置,涉及语言处理领域。所述方法包括:获取句子实例;对句子实例进行编码,得到句子编码;利用句子编码对句子实例表达的关系进行识别,得到关系标签,根据句子实例的关系标签生成对应的关系表示;将关系表示与句子实例进行拼接,通过词增强模型进行识别,得到句子实例中的主体及客体;将关系标签、主体和客体组合得到所述句子实例的关系三元组。相较于现有技术,本发明专利技术提出一种新的实体关系抽取方法,计算复杂度低,计算资源占用率低。计算资源占用率低。计算资源占用率低。

【技术实现步骤摘要】
一种基于词增强的实体关系抽取方法及装置


[0001]本专利技术涉及语言处理
,更具体地,涉及一种基于词增强的实体关系抽取方法及装置。

技术介绍

[0002]目前,常见的NLP(Natural Language Processing,自然语言处理)任务中,知识图谱(Knowledge Graph)作为一种特殊的图数据在各个领域都有着广泛的应用,其本身是一种具有极强规范性和语义表示能力的图网络,这种语义结构能够对现实世界的实体、概念、属性以及它们之间的关系进行建模,相关技术涵盖知识抽取、知识集成、知识管理和知识应用等各个环节。构建知识图谱的关键步骤在于实体识别与关系抽取。实体识别要解决的是对给定文本依据语义提取出句子中存在的命名实体,关系抽取则是提取出句子中出现的关系三元组,其结构一般为<subject,relation,object>(<主体,关系,客体>)。
[0003]传统的关系抽取方法一般将命名实体识别作为上游任务,即将实体识别预处理后的句子再提取关系,这种方法的缺点是计算资源的过度浪费,计算效率低下。

技术实现思路

[0004]本专利技术为克服上述现有技术所述的NLP任务中采用传统的关系抽取方法存在浪费计算资源、计算效率低下的缺陷,提供一种基于词增强的实体关系抽取方法及装置。
[0005]为解决上述技术问题,本专利技术的技术方案如下:
[0006]第一方面,一种基于词增强的实体关系抽取方法,包括:
[0007]获取句子实例;
[0008]通过预训练语言模型对所述句子实例进行编码,得到句子编码;
[0009]利用所述句子编码对所述句子实例表达的关系进行识别,得到所述句子实例的关系标签,根据所述句子实例的关系标签生成对应的关系表示;
[0010]将所述关系表示与所述句子实例进行拼接,通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体;
[0011]将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。
[0012]第二方面,一种基于词增强的实体关系抽取装置,用于实现第一方面所述的方法,包括:
[0013]句子编码模块,用于搭载预训练语言模型,还用于获取句子实例并进行编码,得到句子编码;
[0014]关系抽取模块,用于利用所述句子编码对句子实例表达的关系进行识别,得到所述句子实例的关系标签;还用于根据所述关系标签生成对应的关系表示;
[0015]实体识别模块,用于搭载词增强模型,将所述关系表示与所述句子实例进行拼接后输入词增强模型中,得到所述句子实例中的主体及客体,结合关系标签输出所述句子实例的关系三元组。
[0016]第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述方法中的步骤。
[0017]第四方面,一种计算机存储介质,所述计算机存储介质上存储有计算机指令,所述指令在计算机上执行时,使得所述计算机执行第一方面所述方法的步骤。
[0018]与现有技术相比,本专利技术技术方案的有益效果是:
[0019]本专利技术提出一种新的实体关系抽取方法及装置,先对句子表达的关系进行识别,在此基础上抽取检测出的关系标签对应的主客体,进而生成关系三元组。相较于传统的关系抽取方法先进行实体识别、再基于实体对抽取关系,计算复杂度低,计算资源占用率低。
附图说明
[0020]图1为实施例1中实体关系抽取方法的流程示意图;
[0021]图2为实施例1中Flat模型结构示意图;
[0022]图3为实施例2中实体关系抽取方法的流程示意图;
[0023]图4为实施例3中实体关系抽取装置的结构示意图;
[0024]图5为实施例4中计算机设备的硬件实体示意图。
具体实施方式
[0025]附图仅用于示例性说明,不能理解为对本专利的限制;
[0026]为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0027]对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0028]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0029]实施例1
[0030]本实施例提出一种基于词增强的实体关系抽取方法,参阅图1,包括:
[0031]获取句子实例;
[0032]通过预训练语言模型对所述句子实例进行编码,得到句子编码;
[0033]利用所述句子编码对所述句子实例表达的关系进行识别,得到所述句子实例的关系标签,根据所述句子实例的关系标签生成对应的关系表示;
[0034]将所述关系表示与所述句子实例进行拼接,通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体;
[0035]将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。
[0036]相较于传统的pipeline类实体关系抽取方法——先进行实体识别、再基于实体对抽取关系,本实施例采用了端到端方法,先对句子表达的关系进行识别,在此基础上抽取检测出的关系对应的主客体,解析生成对应文本中的关系三元组,其计算复杂度低,计算资源占用率低,还减小了两阶段任务的类先验概率,可广泛应用于知识图谱搭建和后续NLP任务的完成以及文本的结构化等方面。
[0037]该实施例基于关系抽取的第三范式进行联合抽取,即实体识别是基于所识别到的
句子级别关系做出的token级实体判断。且该实施例中,在实体识别阶段,根据识别出的句子级别关系抽取实体,这可以看作跨度标注(span tagging)任务,句子中的实体往往以一个连续的跨度形式存在。
[0038]本领域技术人员应当理解,在得到所述句子实例的关系标签,和主体及客体后,经组合即为对应句子实例的关系三元组<subject,relation,object>。
[0039]在一些示例中,采用计算机程序实现所述关系标签和实体的组合;所述计算机程序设有缓存机制,用于存储关系标签、主体和客体。
[0040]在一优选实施例中,所述预训练语言模型的训练过程,包括:
[0041]构建初始预训练语言模型;
[0042]获取至少一个句包,所述句包中包括标注有相同关系标签的句子实例;
[0043]将所述句包输入预训练语言模型,对所述句包内的句子实例进行编码,得到训练用的句子编码;
[0044]对所述训练用的句子编码进行加权编码,生成用于表示同一句包中句子实例共同特征的句包编码;
[0045]将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,利用融合句包编码后的训练用的句子编码对句子实例表达的关系进行识别,根据识别结果对所述初始预训练语言模型进行参数更新,得到所述预训练语言模型。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词增强的实体关系抽取方法,其特征在于,包括:获取句子实例;通过预训练语言模型对所述句子实例进行编码,得到句子编码;利用所述句子编码对所述句子实例表达的关系进行识别,得到所述句子实例的关系标签,根据所述句子实例的关系标签生成对应的关系表示;将所述关系表示与所述句子实例进行拼接,通过词增强模型对拼接后的数据进行识别,得到所述句子实例中的主体及客体;将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。2.根据权利要求1所述的一种基于词增强的实体关系抽取方法,其特征在于,所述预训练语言模型的训练过程,包括:构建初始预训练语言模型;获取至少一个句包,所述句包中包括标注有相同关系标签的句子实例;将所述句包输入预训练语言模型,对所述句包内的句子实例进行编码,得到训练用的句子编码;对所述训练用的句子编码进行加权编码,生成用于表示同一句包中句子实例共同特征的句包编码;将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,利用融合句包编码后的训练用的句子编码对句子实例表达的关系进行识别,根据识别结果对所述初始预训练语言模型进行参数更新,得到所述预训练语言模型。3.根据权利要求2所述的一种基于词增强的实体关系抽取方法,其特征在于,所述将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合,具体为:基于匹配方法将句包编码融入句包中句子实例的对应训练用的句子编码;其中,所述匹配方法表达式为:M(x
i
,B
j
)=W
m
x
i
+m(x
i
,B
j
)E
bag
(B
j
)+b
m
式中,M(x
i
,B
j
)表示融合句包编码后的训练用的句子编码;B
j
表示第j个句包;x
i
∈B
j
,表示句包中的第i个句子实例;W
m
,b
m
表示可学习参数;E
bag
(B
j
)表示句包编码;m(x
i
,B
j
)表示匹配度分数,其表达式为:m(x
i
,B
j
)=σ(x
i
W
m
E
bag
(B
j
)+b
m
)式中,σ(
·
)表示sigmoid函数。4.根据权利要求2或3所述的一种基于...

【专利技术属性】
技术研发人员:王哲陈子骁庄光庭康操
申请(专利权)人:阿维塔科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1