命名实体识别方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:37172514 阅读:22 留言:0更新日期:2023-04-20 22:42
本发明专利技术提供的命名实体识别方法、装置、计算机设备及可读存储介质,包括:通过命名实体识别模型预测待识别文本对应的标签信息矩阵以及标签信息矩阵中每个标签对应的概率,将标签信息矩阵中的词关系标签对应的两个字符确定为一组相邻实体字符,将实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,基于相邻实体字符以及实体头字符和实体尾字符,从待识别文本中提取至少一个命名实体;针对类别不同且嵌套的两个命名实体,将每个命名实体中全部相邻实体字符对应的词关系标签的概率的均值,作为每个命名实体的概率,将概率最大的命名实体保留。本发明专利技术可以基于词关系标签概率准确识别出符合语义的命名实体,提高了识别准确率。识别准确率。识别准确率。

【技术实现步骤摘要】
命名实体识别方法、装置、计算机设备及可读存储介质


[0001]本专利技术涉及自然语言处理
,具体而言,涉及一种命名实体识别方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
[0003]目前,基于模型的命名实体识别方法可以召回实体的开始和结束字符,然后会采用类似SpanNer的启发式解码方式来返回最终实体,但这种解码方式很容易解码出非实体,如果出现重叠实体,这种解码方式召回的实体可能与实际语义不符,所以这种解码方式准确率低,因此对准确识别命名实体是亟待解决的技术问题。

技术实现思路

[0004]本专利技术的目的之一在于提供一种命名实体识别方法、装置、计算机设备及可读存储介质,能够使得识别出本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括:通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率;其中,所述标签用于表征所述待识别文本中任意两个字符的关系类别;所述标签包括词关系标签和实体边界标签;将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体;针对类别不同且嵌套的两个命名实体,将每个所述命名实体中全部所述相邻实体字符对应的所述词关系标签的概率的均值,作为每个所述命名实体的概率,并将概率最大的所述命名实体保留。2.根据权利要求1所述的命名实体识别方法,其特征在于,将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体,包括:从所述标签信息矩阵中,确定所述词关系标签和所述实体边界标签各自对应的纵向位置标识和横向位置标识;在所述待识别文本中,将与所述词关系标签的所述纵向位置标识和横向位置标识一致的字符位置上的字符作为一组所述相邻实体字符,并将与所述实体边界标签的所述纵向位置标识和横向位置标识一致的字符位置上的字符作为一组所述实体头字符和实体尾字符;将位于一组所述实体头字符和实体尾字符之间所述相邻实体字符依次组合,得到一个所述命名实体。3.根据权利要求1所述的命名实体识别方法,其特征在于,通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率,包括:将所述待识别文本的字符序列输入所述命名实体识别模型的特征提取网络,得到每个所述字符对应的语义特征向量;通过所述命名实体识别模型的线性映射层对每个所述语义特征向量进行降维,并将降维后的每个所述特征向量进行位置编码;将位置编码后的每个所述语义特征向量输入到所述命名实体识别模型的双仿射分类器,预测任意两个字符之间的概率;根据预设概率阈值和所述概率的比较结果,确定所述概率对应的两个字符的关系类别,并为所述关系类别设置标签;根据所述字符序列的长度构建矩阵,并在所述矩阵中任意两个字符对应的矩阵位置处填充所述任意两个字符对应的所述标签,得到所述标签信息矩阵。4.根据权利要求1

3任意一项所述的命名实体识别方法,其特征在于,所述命名实体识别模型是通过如下方式训练得到的:获取多个训练样本,并对多个所述训练样本进行数据增强;所述训练样本具有所述实体边界标签和所述词关系标签;将多个所述训练样本分成多个批次,并确定每批次训练样本中所述词关系标签以及每种所述实体边界标签各自的权重;
根据所述每批次训练样本中所述词关系标签以及每种所述实体边界标签各自的权重和所述词关系标签和实体边界标签对应的损失函数,构建所述每批次训练样本对应的总损失函数;将所述每批次训练样本输入到待训练的命名实体识别模型中...

【专利技术属性】
技术研发人员:杨祎聪王锋韩乃霞顾文斌孙勇李晓平
申请(专利权)人:上海恒生聚源数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1