一种实体关系联合抽取方法、装置、存储介质及终端制造方法及图纸

技术编号:34385631 阅读:46 留言:0更新日期:2022-08-03 21:07
本发明专利技术公开了一种实体关系联合抽取方法,方法包括:获取待抽取的目标文本数据;将目标文本数据输入预先训练的实体关系联合抽取模型中;实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;预先训练的实体关系联合抽取模型训练过程包括,将BERT编码层输出的字符表示向量输入CRF层得到第一交叉熵损失值;根据每个字符的拼接向量输入sigmoid得分层得到第二交叉熵损失值;每个字符的拼接向量是由CRF层输出的字符的实体预测标签与BERT编码层输出的字符表示向量拼接的;输出目标文本数据对应的实体参数和关系参数。本申请可提升关系抽取任务的准确性,模型能自动学习两个任务的相关信息,也能有效减小因流水线工作导致的累积误差,提升模型抽取准确度。提升模型抽取准确度。提升模型抽取准确度。

【技术实现步骤摘要】
一种实体关系联合抽取方法、装置、存储介质及终端


[0001]本专利技术涉及信息处理
,特别涉及一种实体关系联合抽取方法、装 置、存储介质及终端。

技术介绍

[0002]知识图谱是指以图的形式描述客观世界中的概念、实体、事件及其之间关 系的知识库。随着人工智能技术的不断发展,知识图谱在语义搜索、问答系统、 推荐系统等领域得到广泛应用。关系抽取技术是知识图谱建设的核心环节,直 接影响知识图谱构建的规模和质量。关系抽取(RelationExtraction)是信息抽 取的关键内容,旨在发现现实世界实体(Entity)间的语义关系。近些年来,该 项技术被广泛应用在许多机器学习和自然语言处理任务中。
[0003]在现有的技术方案中,目前普遍使用的实体关系抽取方案主要是基于流水 线的技术路线实现,即先通过算法模型1进行命名实体识别,在已有实体标注 的基础上通过模型2进行实体关系抽取。例如申请编号为201510082318.3的发 明专利《训练命名实体识别模型的方法、命名实体识别方法及装置》通过训练 循环神经网络进行命名实体识别。申请编号为20本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于,所述方法包括:获取待抽取的目标文本数据;将所述目标文本数据输入预先训练的实体关系联合抽取模型中;其中,所述实体关系联合抽取模型包括BERT编码层、CRF层和sigmoid得分层;所述预先训练的实体关系联合抽取模型训练过程包括,将所述BERT编码层输出的字符表示向量输入所述CRF层得到第一交叉熵损失值;根据每个字符的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值;所述每个字符的拼接向量是由所述CRF层输出的字符的实体预测标签与所述BERT编码层输出的字符表示向量拼接的;输出所述目标文本数据对应的实体参数和关系参数。2.根据权利要求1所述的方法,其特征在于,所述预先训练的实体关系联合抽取模型训练过程还包括:创建实体关系联合抽取模型;获取并预处理原始数据,生成训练语料;将所述训练语料输入所述实体关系联合抽取模型中,得到第一交叉熵损失值和第二交叉熵损失值;根据所述第一交叉熵损失值和所述第二交叉熵损失值生成预先训练的实体关系联合抽取模型。3.根据权利要求2所述的方法,其特征在于,所述获取并预处理原始数据,生成训练语料,包括:获取原始数据;将所述原始数据转化为计算机可处理的结构化数据;剔除所述结构化数据中的冗余数据,得到最终的结构化数据;构建领域知识模型;其中,所述领域知识模型至少包括本体类别、本体属性以及本体间关系;根据所述本体类别、本体属性以及本体间关系对最终的结构化数据进行数据标注,得到标注后的数据;将标注后的数据按照预设比例进行划分,得到训练语料。4.根据权利要求2所述的方法,其特征在于,所述将所述训练语料输入所述实体关系联合抽取模型中,包括:将所述训练语料输入所述BERT编码层中,得到每个字符的表示向量。5.根据权利要求1所述的方法,其特征在于,所述根据每个字符的拼接向量输入所述sigmoid得分层得到第二交叉熵损失值,包括:sigmoid得分层将所述每个字符的拼接向量进行排列组合,生成多组字符的拼接向量;sigmoid得分层确定第一关系,根据所述第一关系计算每组字符的拼接...

【专利技术属性】
技术研发人员:刘旭生陈勇达徐斌刘芳张烁孙荣韩维杨睿徐胤刘一凡
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1