实体关系的处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:26377622 阅读:24 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供一种实体关系的处理方法、装置、设备及计算机可读存储介质。本发明专利技术实施例由于利用了少量的标注数据即不常见的一些实体关系类别下的少量标注样本,并且增加了更加细粒度的分段特征来表征待处理的文本,使得能够基于不常见的实体关系的少量标注样本准确地预测出文本中所存在的不常见的实体关系,从而提高了少量不常见的实体关系的识别准确率。

【技术实现步骤摘要】
实体关系的处理方法、装置、设备及计算机可读存储介质
本专利技术涉及实体关系识别技术,尤其涉及一种实体关系的处理方法、装置、设备及计算机可读存储介质。
技术介绍
有效的实体关系识别算法可以帮助机器理解自然语言的内部结构,同时也是拓展知识库或者补全知识图谱的重要手段。现有的实体关系识别算法的共同缺陷是对大量标注数据的高度依赖。因此,以上的算法往往只能在大量常见的实体关系上产生较高的识别准确率,而在一些少量不常见的实体关系上则只能得到较低的识别准确率。因此,亟需提供一种实体关系的处理方法,用以提高少量不常见的实体关系的识别准确率。
技术实现思路
本专利技术的多个方面提供一种实体关系的处理方法、装置、设备及计算机可读存储介质,用以提高少量不常见的实体关系的识别准确率。本专利技术的一方面,提供一种实体关系的处理方法,包括:利用第一神经网络,对待处理的文本进行特征提取处理,以获得所述文本的初始特征向量;将所述文本进行分段处理,以获得所述文本的至少两个分段;利用至少一个第二神经网络,对所本文档来自技高网...

【技术保护点】
1.一种实体关系的处理方法,其特征在于,包括:/n利用第一神经网络,对待处理的文本进行特征提取处理,以获得所述文本的初始特征向量;/n将所述文本进行分段处理,以获得所述文本的至少两个分段;/n利用至少一个第二神经网络,对所述文本的至少两个分段中每个分段进行特征提取处理,以获得所述文本的每个分段的特征向量;/n根据所述文本的初始特征向量和所述文本的每个分段的特征向量,获得所述文本的优化特征向量;/n根据至少两个第一实体关系类别中每个第一实体关系类别的优化特征向量和所述文本的优化特征向量,利用第三神经网络,获得所述文本中所存在的第一实体关系类别。/n

【技术特征摘要】
1.一种实体关系的处理方法,其特征在于,包括:
利用第一神经网络,对待处理的文本进行特征提取处理,以获得所述文本的初始特征向量;
将所述文本进行分段处理,以获得所述文本的至少两个分段;
利用至少一个第二神经网络,对所述文本的至少两个分段中每个分段进行特征提取处理,以获得所述文本的每个分段的特征向量;
根据所述文本的初始特征向量和所述文本的每个分段的特征向量,获得所述文本的优化特征向量;
根据至少两个第一实体关系类别中每个第一实体关系类别的优化特征向量和所述文本的优化特征向量,利用第三神经网络,获得所述文本中所存在的第一实体关系类别。


2.根据权利要求1所述的方法,其特征在于,所述根据至少两个第一实体关系类别中每个第一实体关系类别的优化特征向量和所述文本的优化特征向量,利用第三神经网络,获得所述文本中所存在的第一实体关系类别之前,还包括:
利用所述第一神经网络,对所述每个第一实体关系类别下的每个第一样本进行特征提取处理,以获得所述每个第一样本的初始特征向量;
将所述每个第一样本进行分段处理,以获得所述每个第一样本的至少两个分段;
利用所述至少一个第二神经网络,对所述每个第一样本的至少两个分段中每个分段进行特征提取处理,以获得所述每个第一样本的每个分段的特征向量;
根据所述每个第一样本的初始特征向量和所述每个第一样本的每个分段的特征向量,获得所述每个第一样本的优化特征向量;
根据所述每个第一样本的优化特征向量,获得所述每个第一实体关系类别的优化特征向量。


3.根据权利要求1所述的方法,其特征在于,所述分段处理的结果包括首实体、尾实体和第一上下文,其中,所述第一上下文包括所述首实体与所述尾实体之间的内容。


4.根据权利要求3所述的方法,其特征在于,所述分段处理的结果还包括第二上下文和第三上下文中的至少一项,其中,所述第二上下文包括所述首实体之前的内容,所述第三上下文包括所述尾实体之后的内容。


5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述方法还包括:
利用至少两个第二实体关系类别下每个第二样本,进行模型训练处理,以获得所述第一神经网络、所述至少一个第二神经网络和所述第三神经网络。


6.根据权利要求5所述的方法,其特征在于,所述利用至少两个第二实体关系类别下每个第二样本,进行模型训练,包括:
利用交叉熵损失函数和三元组损失函数中的至少一项,对所述第一神经网络、所述至少一个第二神经网络和所述第三神经网络进行参数优化处理。


7.根据权利要求6所述的方法,其特征在于,所述利用交叉熵损失函数,对所述第一神经网络、所述至少一个第二神经网络和所述第三神经网络进行参数优化处理,包括:
利用交叉熵损失函数,对所述每个第二实体关系类别下的每个第二样本中预测的实体关系类别与该第二样本中标注的实体关系类别之间的差值进行最小化约束。


8.根据权利要求6所述的方法,其特征在于,所述三元组损失函数,对所述第一神经网络、所述至少一个第二神经网络和所述第三神经网络进行参数优化处理,包括:
利用三元组损失函数,对至少一个三元组中每个三元组中的基础样本的优化特征向量与该三元组中的正样本的优化特征向量之间的第一距离,与,所述基础样本的优化特征向量与该三元组中的负样本的优化特征向量之间的第二距离,之间的差值进行约束;其中,所述每个三元组由一个基础样本、一个正样本和一个负样本组成,所述每个三元组中的样本为从至少两个第二实体关系类别中每个第二实体关系类别中的样本中抽取,所述基础样本中所存在的实体关系类别与所述正样本中所存在的实体关系类别相同,所述基础样本中所存在的实体关系类别与所述负样本中所存在的实体关系类别不相同。


9.根据权利要求6所述的方法,其特征在于,所述利用交叉熵损失函数和三元组损失函数中的至少一项,对所述第一神经网络、所述至少一个第二神经网络和所述第三神经网络进行参数优化处理,包括:
利用交叉熵损失函数,对所述每个第二实体关系类别下的每个第二样本中预测的实体关系类别与该第二样本中标注的实体关系类别之间的差值进行最小化约束;以及
利用三元组损失函数,对至少一个三元组中每个三元组中的基础样本的优化特征向量与该三元组中的正样本的优化特征向量之间的第一距离,与,所述基础样本的优化特征向量与该三元组中的负样本的优化特征向量之间的第二距离,之间的差值进行约束;其中,所述每个三元组由一个基础样本、一个正样本和一个负样本组成,所述每个三元组中的样本为从至少两个第二实体关系类别中每个第二实体关系类别中的样本中抽取,所述基础样本中所存在的实体关系类别与所述正样本中所存在的实体关系类别相同,所述基础样本中所存在的实体关系类别与所述负样本中所存在的实体关系类别不相同。


10.一种实体关系的...

【专利技术属性】
技术研发人员:范淼白也淇孙明明李平
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1