基于神经网络的实体关系联合抽取方法与装置制造方法及图纸

技术编号:30319923 阅读:82 留言:0更新日期:2021-10-09 23:30
本发明专利技术公开了基于神经网络的实体关系联合抽取方法与装置。本发明专利技术首先利用单层Transformer网络融合预训练的ERNIE字向量、CWV词向量以及词语的相对位置信息;其次,对握手标注策略进行改进,引入向量化的实体类型标签,以充分利用实体类型信息;然后,通过标注解码方法获得句子中的候选实体关系三元组;最后,利用UCL国家标准能够高效组织内容、有效关联信息的特点,使用UCL标引文章、句子、实体及关系。本发明专利技术既能够在句子上直接抽取实体关系三元组,避免冗余实体、嵌套实体、重叠关系等问题,也能够利用少量标注数据对实体关系进行快速校验,还能够客观、规范地标引数据。规范地标引数据。规范地标引数据。

【技术实现步骤摘要】
基于神经网络的实体关系联合抽取方法与装置


[0001]本专利技术涉及基于神经网络的实体关系联合抽取方法与装置,属于互联网与人工智能


技术介绍

[0002]随着互联网行业的不断发展,互联网中的数据正以指数级的速度持续增长,其中蕴含了丰富的知识和信息。通过实体关系联合抽取方法从无结构的文本数据中抽取结构化的实体及关系信息,并合理、高效地组织结构化的信息,才能更充分地挖掘以及利用文本中相互关联的信息,进而实现内容治理。在传统的关系抽取中,命名实体识别总是作为关系抽取任务的前导任务,即关系抽取在命名实体识别任务的基础上进行。分离两个任务使得两个模型相互独立,具有便捷性和灵活性,但也存在一些问题。分离的“流水线”式进行命名实体识别和关系抽取存在以下问题:命名实体识别任务产生的误差将被传播到关系抽取任务形成累积误差、命名实体识别可能会产生不属于任何关系的冗余实体加重关系抽取任务的计算量、分离两个任务会削弱任务之间的相互作用且难以快速高效地抽取新闻文本中的语义信息。

技术实现思路

[0003]针对现有技术中存在的问题与不足,本专利技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于神经网络的实体关系联合抽取方法,其特征在于,包括如下步骤:步骤1,词语信息融合使用预训练语言模型ERNIE在训练时对实体和短语进行随机掩码,同时,引入中文预训练词向量CWV,将词语信息通过Transformer编码到句子的字向量中;步骤2,进行握手标注使用握手标注策略对句子进行标注,同时标注实体对和描述实体对的关系,将握手标注策略中实体头尾字符对的标注向量化,使用模长表示实体存在的概率,而向量的方向则代表不同的实体类型;步骤3,解码握手标注解码标注矩阵展平的实体内头尾字符标注序列,首先得到句子中所包含的命名实体,使用句子序列中实体的头字符的位置作为键、实体片段列表作为值来构造实体字典Dict;其次,得到的字符对存入集合Set中;然后将解码得到的字符对中的主、客实体头字符分别关联Dict中的相应的实体值;最后在集合Set中查询上一步中由字符对关联得到的实体对是否存在,进而得到句子中所有的实体关系三元组<主实体,谓词,客实体>;步骤4,使用UCL国家标准进行标引将新闻网页和文本中句子作为标引对象,利用关联UCL字段在新闻网页和从该网页提取的文本句子之间建立联系,将句子的握手标注矩阵存储进MySQL数据库,将索引存储在句子的UCL标签的关联UCL字段中,在握手标注矩阵中编码了句子的实体及关系信息。2.根据权利要求1所述的基于神经网络的实体关系联合抽取方法,其特征在于,所述步骤1具体包括如下过程:预训练语言模型ERNIE在训练时对实体和短语进行随机掩码,使用Transformer作为基本编码器,利用自注意力机制捕获文本句中每个Token的上下文信息,生成词嵌入向量,也需要使用[CLS]和[SEP]作为分隔符,ERNIE将实体和短语级别知识集成到语言表示中,分三个学习阶段对文本句进行掩码;使用仿射机制将向量维度统一转换为D
emb
,计算如下:,计算如下:其中,表示矩阵的拼接操作,L是句子长度,即句子中的中文字符数量,N是句子中含有的词语数量,包括嵌套的词语,和是两个可学习的参数矩阵;Transformer编码器由多头自注意力层和前馈网络层组成,每层都使用了残差连接和正则化,多头自注意力机制的头数目为H,输出由H头自注意力的输出拼接而成,多头自注意力的输出计算如下:[Q,K,V]=E[W
Q
,W
K
,W
V
]
ꢀꢀꢀꢀ
(4)
MultiHead(Q,K,V)=[head1;head2;

;head
h
]W
Mn
ꢀꢀꢀꢀ
(7)其中,E是句子中字向量与词向量在句子长度方向上的拼接向量,[X,Y]表示矩阵的层叠操作,矩阵Sim由Sim
i,j
组成,W
MH
为参数矩阵;Q、K、V分别表示注意力机制的查询向量、键向量、值向量,W
Q
、W
K
、W
V
是相应的参数矩阵,矩阵Sim由Sim
i,j
组成,d
k
表示键向量的维度,Q
i
表示查询向量的第i个分量,K
j
表示键向量的第j个分量;使用基于片段的相对距离编码字词位置信息,对于句子中的两个字符片段x
i
和x
j
,它们之间存在三种位置关系:相离、相交和包含,以上三种位置关系由两个片段的头尾字符位置决定,四种可以用于表示片段相对位置关系的相对距离计算如下:决定,四种可以用于表示片段相对位置关系的相对距离计算如下:决定,四种可以用于表示片段相对位置关系的相对距离计算如下:决定,四种可以用于表示片段相对位置关系的相对距离计算如下:其中,head[i]和tail[i]分别表示片段x
i
在句子中的头尾位置,表示片段x
i
的头字符和片段x
j
的头字符距离,和表示相同含义;利用上述四种相对距离计算的片段相对位置编码计算如下:片段相对位置编码计算如下:片段相对位置编码计算如下:其中,d是位置系数,d
model
是模型的位置向量维度,k是字符位置编码向量的维度索引,W
r
表示用于降维的参数矩阵;对多头自注意力机制中的相似度计算进行改进,改进后的相似度计算如下:其中,和都是可学习的参数向量,使用替代式中的Sim
i,j
以实现在多头自注意力层引入相对位置;词语信息融合模块的输出是融合了预训练词语信息的字向量CHARs,计算如下:Z=MultiHead(Q,K,V)
ꢀꢀꢀꢀ
(...

【专利技术属性】
技术研发人员:杨鹏程昌虎谢亮亮方海生
申请(专利权)人:浙江华巽科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1