命名实体识别方法、装置及存储介质制造方法及图纸

技术编号:37194560 阅读:12 留言:0更新日期:2023-04-20 22:54
本发明专利技术实施方式公开了一种命名实体识别方法、装置及存储介质。方法包括:将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。本发明专利技术实施方式基于与均值向量的相似度比较,可以对模型无法识别的词进行识别,提高识别准确度。提高识别准确度。提高识别准确度。

【技术实现步骤摘要】
命名实体识别方法、装置及存储介质


[0001]本专利技术实施方式涉及自然语言处理(NLP)
,更具体的说,涉及一种命名实体识别方法、装置及存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER),又称专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词,等等。命名实体一般指的是文本中具有特定意义或者指代性强的实体。命名实体识别是NLP中的基础任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。
[0003]在现有技术中,通常假设训练集具有较完备的类别信息,但是现实的命名实体识别任务中可能出现某种类别没有样本(即零样本)的情形,从而针对该类别难以实现识别。而且,训练集基本是通过设定规则进行标注的,标注过程中可能因失误或规则失效等原因造成标注错误,从而会对命名实体识别导致干扰。另外,在目前中文命名实体识别的相关研究中,普遍存在缺乏中文样本的缺陷。

技术实现思路

[0004]本专利技术实施方式提出一种命名实体识别方法、装置及存储介质。
[0005]本专利技术实施方式的技术方案如下:
[0006]一种命名实体识别方法,包括:
[0007]将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;
[0008]确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;
[0009]将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。
[0010]在示范性实施方式中,所述实体识别模型包含已训练的第一Transformer模型,所述第一Transformer模型包含N个相同的编码器、对应于所述N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;
[0011]所述编码器适配于以并行方式接收所述文本序列,将所述文本序列以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于对所述加权求和结果执行命名实体识别,以获取所述无实体类型的词向量。
[0012]在示范性实施方式中,所述方法还包括所述第一Transformer模型的训练过程,所述训练过程包括:
[0013]获取训练样本,所述训练样本中的词被标注特定实体类型;
[0014]将所述训练样本输入所述第一Transformer以训练所述第一Transformer模型,其中所述第一Transformer模型的模型参数通过所述训练而被配置为使预定的损失函数值低于预设阈值。
[0015]在示范性实施方式中,所述方法还包括:
[0016]将所述训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量;
[0017]确定对应于特定实体类型的词向量的均值向量;
[0018]将所述均值向量包含在所述注册集中。
[0019]在示范性实施方式中,所述将训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量包括:
[0020]将所述训练样本以并行方式输入训练后的所述第一Transformer中的所述N个相同的编码器;其中所述编码器适配于以并行方式接收所述训练样本,将所述训练样本以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于基于所述加权求和结果,确定被标注有所述特定实体类型的词的词向量。
[0021]在示范性实施方式中,所述方法还包括:
[0022]确定预训练样本;
[0023]扰动所述预训练样本;
[0024]利用所述扰动后的训练样本对第二Transformer模型进行预训练;
[0025]将所述预训练后的所述第二Transformer模型中的编码器复制N份,以得到所述N个相同的编码器;
[0026]其中所述扰动包括下列中的至少一个:
[0027]掩膜替换所述预训练样本中的最小单元;随机删除所述预训练样本中的最小单元;乱序变换所述预训练样本中的最小单元。
[0028]在示范性实施方式中,所述预训练样本包括通过中文词表所构建的中文语料。
[0029]一种命名实体识别装置,包括:
[0030]输入模块,用于将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;
[0031]第一确定模块,用于确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;
[0032]第二确定模块,用于将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。
[0033]在示范性实施方式中,所述实体识别模型包含已训练的第一Transformer模型,所述第一Transformer模型包含N个相同的编码器、对应于所述N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;
[0034]所述编码器适配于以并行方式接收所述文本序列,将所述文本序列以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加
权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于对所述加权求和结果执行命名实体识别,以获取所述无实体类型的词向量。
[0035]在示范性实施方式中,所述装置还包括:
[0036]训练模块,用于执行所述第一Transformer模型的训练过程,所述训练过程包括:获取训练样本,所述训练样本中的词被标注特定实体类型;将所述训练样本输入所述第一Transformer以训练所述第一Transformer模型,其中所述第一Transformer模型的模型参数通过所述训练而被配置为使预定的损失函数值低于预设阈值。
[0037]在示范性实施方式中,所述装置还包括:
[0038]注册集确定模块,用于将所述训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量;确定对应于特定实体类型的词向量的均值向量;将所述均值向量包含在所述注册集中。
[0039]在示范性实施方式中,所述注册集确定模块,用于将所述训练样本以并行方式输入训练后的所述第一Transformer中的所述N个相同的编码器;其中所述编码器适配于以并行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。2.根据权利要求1所述的命名实体识别方法,其特征在于,所述实体识别模型包含已训练的第一Transformer模型,所述第一Transformer模型包含N个相同的编码器、对应于所述N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;所述编码器适配于以并行方式接收所述文本序列,将所述文本序列以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于对所述加权求和结果执行命名实体识别,以获取所述无实体类型的词向量。3.根据权利要求2所述的命名实体识别方法,其特征在于,所述方法还包括所述第一Transformer模型的训练过程,所述训练过程包括:获取训练样本,所述训练样本中的词被标注特定实体类型;将所述训练样本输入所述第一Transformer以训练所述第一Transformer模型,其中所述第一Transformer模型的模型参数通过所述训练而被配置为使预定的损失函数值低于预设阈值。4.根据权利要求3所述的命名实体识别方法,其特征在于,所述方法还包括:将所述训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量;确定对应于特定实体类型的词向量的均值向量;将所述均值向量包含在所述注册集中。5.根据权利要求4所述的命名实体识别方法,其特征在于,所述将训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体...

【专利技术属性】
技术研发人员:窦辰晓
申请(专利权)人:贝壳找房北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1