一种基于词增强的实体关系抽取方法及装置制造方法及图纸

技术编号：39047144 阅读：14 留言：0更新日期：2023-10-10 12:00

本发明专利技术公开了一种基于词增强的实体关系抽取方法及装置，涉及语言处理领域。所述方法包括：获取句子实例；对句子实例进行编码，得到句子编码；利用句子编码对句子实例表达的关系进行识别，得到关系标签，根据句子实例的关系标签生成对应的关系表示；将关系表示与句子实例进行拼接，通过词增强模型进行识别，得到句子实例中的主体及客体；将关系标签、主体和客体组合得到所述句子实例的关系三元组。相较于现有技术，本发明专利技术提出一种新的实体关系抽取方法，计算复杂度低，计算资源占用率低。计算资源占用率低。计算资源占用率低。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词增强的实体关系抽取方法及装置

[0001]本专利技术涉及语言处理
，更具体地，涉及一种基于词增强的实体关系抽取方法及装置。

技术介绍

[0002]目前，常见的NLP(Natural Language Processing，自然语言处理)任务中，知识图谱(Knowledge Graph)作为一种特殊的图数据在各个领域都有着广泛的应用，其本身是一种具有极强规范性和语义表示能力的图网络，这种语义结构能够对现实世界的实体、概念、属性以及它们之间的关系进行建模，相关技术涵盖知识抽取、知识集成、知识管理和知识应用等各个环节。构建知识图谱的关键步骤在于实体识别与关系抽取。实体识别要解决的是对给定文本依据语义提取出句子中存在的命名实体，关系抽取则是提取出句子中出现的关系三元组，其结构一般为<subject,relation,object>(<主体，关系，客体>)。
[0003]传统的关系抽取方法一般将命名实体识别作为上游任务，即将实体识别预处理后的句子再提取关系，这种方法的缺点是计算资源的过度浪费，计算效率低下。

技术实现思路

[0004]本专利技术为克服上述现有技术所述的NLP任务中采用传统的关系抽取方法存在浪费计算资源、计算效率低下的缺陷，提供一种基于词增强的实体关系抽取方法及装置。
[0005]为解决上述技术问题，本专利技术的技术方案如下：
[0006]第一方面，一种基于词增强的实体关系抽取方法，包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种基于词增强的实体关系抽取方法，其特征在于，包括：获取句子实例；通过预训练语言模型对所述句子实例进行编码，得到句子编码；利用所述句子编码对所述句子实例表达的关系进行识别，得到所述句子实例的关系标签，根据所述句子实例的关系标签生成对应的关系表示；将所述关系表示与所述句子实例进行拼接，通过词增强模型对拼接后的数据进行识别，得到所述句子实例中的主体及客体；将所述关系标签、所述主体和所述客体组合为所述句子实例的关系三元组。2.根据权利要求1所述的一种基于词增强的实体关系抽取方法，其特征在于，所述预训练语言模型的训练过程，包括：构建初始预训练语言模型；获取至少一个句包，所述句包中包括标注有相同关系标签的句子实例；将所述句包输入预训练语言模型，对所述句包内的句子实例进行编码，得到训练用的句子编码；对所述训练用的句子编码进行加权编码，生成用于表示同一句包中句子实例共同特征的句包编码；将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合，利用融合句包编码后的训练用的句子编码对句子实例表达的关系进行识别，根据识别结果对所述初始预训练语言模型进行参数更新，得到所述预训练语言模型。3.根据权利要求2所述的一种基于词增强的实体关系抽取方法，其特征在于，所述将所述句包编码和对应句包中句子实例的所述训练用的句子编码进行融合，具体为：基于匹配方法将句包编码融入句包中句子实例的对应训练用的句子编码；其中，所述匹配方法表达式为：M(x
i
，B
j
)＝W
m
x
i
+m(x
i
，B
j
)E
bag
(B
j
)+b
m
式中，M(x
i
，B
j
)表示融合句包编码后的训练用的句子编码；B
j
表示第j个句包；x
i
∈B
j
，表示句包中的第i个句子实例；W
m
，b
m
表示可学习参数；E
bag
(B
j
)表示句包编码；m(x
i
，B
j
)表示匹配度分数，其表达式为：m(x
i
，B
j
)＝σ(x
i
W
m
E
bag
(B
j
)+b
m
)式中，σ(
·
)表示sigmoid函数。4.根据权利要求2或3所述的一种基于...

【专利技术属性】
技术研发人员：王哲，陈子骁，庄光庭，康操，
申请(专利权)人：阿维塔科技重庆有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人