一种实体与关系并行抽取模型及其构建方法、装置及应用制造方法及图纸

技术编号:36166670 阅读:20 留言:0更新日期:2022-12-31 20:16
本申请提出了一种实体与关系并行抽取模型及其构建方法、装置及应用,包括以下步骤:将所述训练样本送入实体与关系并行抽取模型中,所述训练样本先经过所述并联模组得到共享信息;将所述共享信息输入到所述实体模组中到每一所述训练样本中的实体预测标签;将所述共享信息输入到所述实体关系模组中,获取每一所述训练样本中的每一字或词的多个实体关系,再对所述每一实体词汇的标签与对应的多个实体关系分别进行相对位置与内容上的关联度计算,得到每一实体的关联度矩阵,根据关联度矩阵得到实体关系预测结果。本方案将实体模组与实体关系模组合并为一个模型,并结合语义信息与实体相对位置信息进行实体关系预测,提高预测准确率。率。率。

【技术实现步骤摘要】
一种实体与关系并行抽取模型及其构建方法、装置及应用


[0001]本申请涉及信息抽取领域,特别是涉及一种实体与关系并行抽取模型及其构建方法、装置及应用。

技术介绍

[0002]信息抽取是一种从现存的电子信息当中抽取到结构化的数据,一般涉及到两个抽取模型,分别为实体抽取模型与关系抽取模型,实体抽取模型也叫命名实体识别,在信息抽取中扮演重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等,实体抽取任务有两个关键词,为找到命名实体、对命名实体进行分类,实体抽取模型的输入通常为数据治理过的电子文本,这里的数据治理主要指圆角转半角文本长度限制。如“系列赛进行到这个阶段,浙江广厦男篮的表现,让大家在每场比赛都能看到亮点”中,“浙江广厦男篮”是组织实体名。
[0003]所述关系抽取模型能够自动识别实体之间具有的某种语义关系,根据参与实体的多少可以分为二元关系抽取(两个实体)和多远关系抽取(三个及以上实体),抽取数据源通常有三种,分别为:1.面向结构化文本的关系抽取,包括表格文档、XML文档、数据库数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体与关系并行抽取模型的构建方法,其特征在于,包括以下步骤:获取至少一已标记实体词汇以及实体关系的城管事件文本作为训练样本,利用所述训练样本训练实体与关系并行抽取模型,所述实体与关系并行抽取模型包括拼接模组和并联模组,所述并联模组由实体模组和实体关系模组并联组成;将所述训练样本输入到所述拼接模组中,所述拼接模组分别对所述训练样本进行特征提取,得到样本特征和样本语义特征,将所述样本特征与样本语义特征进行拼接得到拼接特征,根据所述拼接特征计算每一所述训练样本中各个字或词之间的注意力值,根据所述注意力值对所述拼接特征进行深层次语义关系的抽取得到共享信息;将所述共享信息输入到所述实体模组中,所述实体模组对根据所述共享信息进行实体词汇标签的预测后得到预测实体词汇标签信息,对所述预测实体词汇标签信息进行评分得到评分信息,再根据所述评分信息筛选出评分最高的结果得到每一所述训练样本中的实体预测标签;将所述共享信息以及所述实体预测标签输入到所述实体关系模组中,所述实体关系模组根据所述共享信息和所述实体预测标签得到每一实体的关联度矩阵,根据所述每一实体的关联度矩阵得到实体关系预测结果。2.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法,其特征在于,所述拼接模组由特征提取层、多重注意力层、语义分析层串联组成,所述训练样本输入到所述特征提取层进行特征提取,得到样本特征和样本语义特征,每一所述样本特征中包含每一字或词的内容特征向量和位置特征向量,对所述样本特征和所述样本语义特征进行拼接后送入所述多重注意力层中对各个字或词之间进行内容与内容、内容与位置、位置与内容、位置与位置的注意力计算,并将其求和得到每一训练样本的多个注意力值,将每一训练样本中的多个注意力值和所述拼接特征输入到所述语义分析层,所述语义分析层对其进行深层次语义信息的抽取后得到共享信息。3.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法,其特征在于,所述实体模组由实体信息保留层、评分层、条件随机场层串联组成,所述实体信息保留层对所述共享信息中的训练样本进行实体位置与标签的预测,得到预测实体词汇标签信息,所述预测实体词汇标签信息输入到所述评分层,所述评分层对所述预测实体词汇标签信息进行评分,得到评分信息,所述条件随机场层对所述评分信息进行筛选,得到所述共享信息中每一训练样本的实体预测标签。4.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法,其特征在于,将所述共享信息输入到所述实体关系模组中,所述实体关系模组对所述共享信息进行关系提取,获取每一所述训练样本中的每一字或词的多个实体关系信息,再对所述每一实体预测标签与对应的多个实体关系信息分别进行相对位置与内容上的关联度计算,得到实体关联度向量与实体关系关联度向量,将所述实体关联度向量与所述实体关系关联度向量进行拼接得到每一实体的关联度矩阵,对每一实体的关联度矩阵进行评分后得到实体关系预测结果。5.根据权利要求4所述的一种实体与关系并行抽取模型的构建方法,所述实体关系模组由关系信息保留层、实体与关系组合层、评分层串联组成,所述关系信息保留层对所述共享信息中的关系关键词进行提取,得到关系信息,所述实体与关系组合层接收所述实体预
测标签与所述关系信息,对所述各个实体预测标签进行相对位置特征与内容特征的关联度向量计算并进行拼接得到实体关联度向量,对所述各个关系信息进行相对位置特征与内容特征的关联度向量计算并进行拼接得到实体关系关联度向量,将所述实体关联度向量与所述实体关系关联度向量进行拼接得到关联度矩阵,所述评分层对所述关联度矩阵进行评分,通过所述关联度矩阵计算训练样本中各个实体之间的关系。6.根据权利要求5所述的一种实体与关系并行抽取模型的构建方法,其特征在于,所述评...

【专利技术属性】
技术研发人员:毛云青卓家雨张香伟彭大蒙梁艺蕾
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1