【技术实现步骤摘要】
实体关系联合抽取方法及电子设备
[0001]本申请涉及自然语言处理技术,特别涉及实体关系联合抽取方法及电子设备。
技术介绍
[0002]实体关系抽取是从非结构化文本中自动抽取出主实体和客实体之间的关系。这里,非结构化文本是由一些具体的单位构成。这里的具体单位例如为句子、段落、篇章等,或者为一些小的单位比如字、词、词组等。
[0003]目前常用的实体关系联合抽取方法,往往只关注中文汉字的字形特征之间的相似性,没有充分考虑实体之间的关联信息,实体关系抽取结果不准确。
技术实现思路
[0004]本申请提供了实体关系联合抽取方法及电子设备,以提高实体关系抽取结果的准确度。
[0005]本申请实施例提供了一种实体关系联合抽取方法,该方法应用于电子设备,包括:
[0006]依据目标文本、以及外部知识信息确定第一特征向量;所述外部知识信息是在已配置的知识库中获得的与目标文本相匹配的信息;所述第一特征向量通过融合所述目标文本和外部知识信息的特征信息得到;
[0007]将基于所述目标文本得到的句 ...
【技术保护点】
【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于,该方法应用于电子设备,包括:依据目标文本、以及外部知识信息确定第一特征向量;所述外部知识信息是在已配置的知识库中获得的与目标文本相匹配的信息;所述第一特征向量通过融合所述目标文本和外部知识信息的特征信息得到;将基于所述目标文本得到的句子依存分析树转化为邻接矩阵,将所述邻接矩阵和编码输出结果输入至图注意力神经网络得到第二特征向量;所述句子依存分析树用于表征所述目标文本的句子结构,所述编码输出结果是对输入特征进行编码处理得到的,所述输入特征据所述目标文本的分词结果和词性识别结果确定;预测所述目标文本中的潜在三元组;每一潜在三元组中包括潜在关系、潜在关系对应的一个主实体和一个客实体;基于所述第一特征向量和所述第二特征向量并通过已训练的全局主客实体对约束矩阵生成模型,预测目标文本对应的全局主客实体对约束矩阵;全局主客实体对约束矩阵表征了目标文本中主实体和客实体之间的对应关系;利用所述全局主客实体对约束矩阵从潜在三元组中提取目标三元组。2.根据权利要求1所述的方法,其特征在于,所述外部知识信息通过以下步骤获得:按顺序遍历目标文本中的每一字,将遍历到的字确定为当前字,在已配置的知识库中匹配出包含当前字的词,将知识库中包含当前字的词确定为当前字对应的匹配词;若当前字不为目标文本中的最后一个字,则继续按顺序遍历目标文本中的每一字,返回将遍历到的字确定为当前字的步骤,将所述目标文本中各字对应的匹配词确定为所述外部知识信息。3.根据权利要求1所述的方法,其特征在于,所述依据目标文本、以及外部知识信息确定第一特征向量包括:将所述外部知识信息按照顺序拼接在所述目标文本的指定位置,得到参考文本;采用基于注意力机制的模型Transformer作为编码器对所述参考文本进行编码处理得到编码特征向量;以掩码mask的方式对所述编码特征向量进行裁剪得到所述第一特征向量,所述第一特征向量的长度与所述目标文本的长度匹配。4.根据权利要求1所述的方法,其特征在于,所述输入特征至少包括:对所述目标文本进行分词处理得到的分词结果对应的分词向量,对所述目标文本进行词性识别得到的词性识别结果对应的词性向量;所述句子依存分析树是基于所述分词结果得到的。5.根据权利要求1所述的方法,其特征在于,所述预测所述目标文本中的潜在三元组包括:采用多标签二分类任务的方式预测所述目标文本中的潜在关系;针对每一潜在关系,从所述目标文本中识别出该潜在关系对应的至少一个主实体和至少一个客实体,得到潜在三元组。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征向量和所述第二特征向量并通过已训练的全局主客实体对约束矩阵生成模型,预测所述目标文本对应的全局主客实体对约束矩阵包括:
将第二特征向量转换为与所述第一特征向量具有相同维度的第三特征向量;将所述第三特征向量与所述第一特征向量进行拼接,得到第四特征向量...
【专利技术属性】
技术研发人员:高大林,姜伟浩,陈诚,龙铭刚,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。