实体抽取方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:39308175 阅读:25 留言:0更新日期:2023-11-12 15:55
本申请的实施例提供了一种实体抽取方法、装置、计算机可读介质及电子设备,该方法包括:将文本序列转换为包含多个字符编码的特征向量,并分别对特征向量做仿射变换得到第一向量序列和第二向量序列;根据第一向量序列中的第一变换后编码和第二向量序列中的第二变换后编码建立初始预测矩阵;查询预设词典得到所述文本序列中的实体所属类别的类别标识,并根据所述类别标识建立词典匹配矩阵;将初始预测矩阵和词典匹配矩阵融合,得到输出矩阵,并根据所述输出矩阵得到所述文本序列中属于所述指定类别的实体。本申请实施例可以不添加额外的训练数据的前提下,准确地对细分类别下的实体进行抽取。本申请实施例可应用于医疗、法律、金融等各种场景。融等各种场景。融等各种场景。

【技术实现步骤摘要】
实体抽取方法、装置、计算机可读介质及电子设备


[0001]本申请涉及自然语言处理
,具体而言,涉及一种实体抽取方法、装置、计算机可读介质及电子设备。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理的重要任务之一。
[0003]目前,大多数命名实体识别方案仅能够对通用领域的属于较大类别的实体进行抽取,无法准确地对更细分类别下的实体进行抽取,如果需要更准确地对细分类别下的实体进行抽取,需要添加额外的训练数据,成本高。

技术实现思路

[0004]本申请的实施例提供了一种实体抽取方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以在无需添加额外的训练数据的情况下,实现对细分类别下的实体的准确抽取。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0006]根据本申请实施例的一个方面,提供了一种实体抽取方法,所述方法包括:将包含多个字符的文本序列转换为包含多个字符编码的特征向量,并分别对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体抽取方法,其特征在于,所述方法包括:将包含多个字符的文本序列转换为包含多个字符编码的特征向量,并分别对所述特征向量做仿射变换得到第一向量序列和与所述第一向量序列不同的第二向量序列,所述第一向量序列包括与每个字符编码对应的第一变换后编码,所述第二向量序列包括与每个字符编码对应的第二变换后编码;根据所述第一向量序列中的第一变换后编码和所述第二向量序列中的第二变换后编码建立初始预测矩阵,所述初始预测矩阵中的元素为所述文本序列中的候选片段属于指定类别的得分,所述候选片段为所述文本序列中首尾位置与所述元素在所述初始预测矩阵中位置对应的连续子序列;查询预设词典得到所述文本序列中的实体所属类别的类别标识,并根据所述类别标识建立词典匹配矩阵,所述词典匹配矩阵中的元素为目标实体所属类别的类别标识,所述目标实体是所述文本序列中首尾位置与所述元素在所述词典匹配矩阵中位置对应的实体;将所述初始预测矩阵和所述词典匹配矩阵融合,得到输出矩阵,并根据所述输出矩阵得到所述文本序列中属于所述指定类别的实体。2.根据权利要求1所述的实体抽取方法,其特征在于,所述指定类别为多个实体类别中的一个,所述第一向量序列和所述第二向量序列与所述指定类别相对应,在将包含多个字符的文本序列转换为包含多个字符编码的特征向量之后,所述方法还包括:针对每一其他实体类别,分别对所述特征向量做仿射变换得到与所述其他实体类别对应的第一向量序列和第二向量序列;根据各其他实体类别对应的第一向量序列和第二向量序列建立与各其他实体类别对应的初始预测矩阵;将与各其他实体类别对应的初始预测矩阵与所述词典匹配矩阵融合,得到与各其他实体类别对应的输出矩阵,并根据各所述输出矩阵得到所述文本序列中属于各其他实体类别的实体。3.根据权利要求2所述的实体抽取方法,其特征在于,所述方法是在实体抽取模型中实现的,所述实体抽取模型是基于包含多个样本数据的样本集根据预定损失函数训练得到的,所述预定损失函数中包含用于确定样本数据中的候选片段属于各实体类别的得分的打分函数和用于调整所述打分函数输出的得分的权重,其中,在所述打分函数为候选片段在多个实体类别确定的得分大于0的情况下,所述权重为第一数值,在所述打分函数为候选片段在唯一实体类别确定的得分大于0的情况下,所述权重为第二数值,所述第一数值大于所述第二数值。4.根据权利要求1所述的实体抽取方法,其特征在于,所述将所述初始预测矩阵和所述词典匹配矩阵融合,得到输出矩阵,包括:将所述词典匹配矩阵映射至高维矩阵;通过第一全连接层将所述高维矩阵转换为第一变换矩阵;将所述第一变换矩阵与所述初始预测矩阵拼接,得到拼接后矩阵;通过第二全连接层将所述拼接后矩阵转换为第二变换矩阵;通过第三全连接层和激活函数层将所述拼接后矩阵转换为门控矩阵;根据所述门控矩阵从所述第二变换矩阵中提取出附加信息矩阵;
将所述初始预测矩阵和所述附加信息矩阵叠加,得到输出矩阵。5.根据权利要求3所述的实体抽取方法,其特征在于,所述查询预设词...

【专利技术属性】
技术研发人员:朱昆睿
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1