命名实体识别方法技术

技术编号:39800796 阅读:8 留言:0更新日期:2023-12-22 02:31
本申请提供了一种命名实体识别方法

【技术实现步骤摘要】
命名实体识别方法、装置及计算机可读存储介质


[0001]本专利技术涉及机器学习与自然语言处理
(NLP

Natural Language Processing)

,具体涉及一种命名实体识别方法

装置及计算机可读存储介质


技术介绍

[0002]在人工智能领域,信息提取技术是一项不可或缺的重要技术

目前,信息提取技术主要包括三种算法

第一种是基于知识图谱的抽取算法

该抽取算法需要知识库图谱的数据与规则支持

建立知识图谱需要耗费大量人力资源,而最终获得的数据量却并不理想

第二种是基于传统统计机器学习算法的抽取算法,该算法可以使用手动标记的训练数据,应用不同的学习模型,以应对不同的场景,该算法存在人工成本高和推广性差的缺点,使得其在广泛应用时遇到瓶颈

最后一种算法是近年来流行的使用神经网络模型的算法

与传统的机器学习算法相比,使用了大规模的训练数据集的基于神经网络的模型,在自然语言处理任务中展现了优异的性能

[0003]命名实体识别
(NER

Named Entity Recognition)
是自然语言处理中常见的一项任务,命名实体在很多应用中被作为语义表示的基本单元,其使用的范围非常广,因此命名实体识别技术具有重要作用

命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名

地名

机构名

时间和专有名词等

命名实体识别技术起着重要作用,因为命名实体在很多任务中被作为语义表示的基本单元

可见,高精度的命名实体识别方法,在开发高性能翻译,对话,舆情监测,主题跟踪以及语义理解等系统中具有重要意义

[0004]序列标注问题是自然语言中的常见问题,常见的序列标注问题的解决方案包括隐马尔可夫模型
(HMM

Hidden Markov Model)、
最大熵模型和条件随机场
(CRF

Conditional Random Field)
模型等各种序列标注模型

目前,随着深度学习的发展,递归神经网络
(RNN

Recurrent Neural Network)
已经应用于序列标注问题中,简化了序列标注问题的解决

包括命名实体识别的大多数
NLP
问题都可以转化为序列标注问题

[0005]传统的序列标注模型,序列上每个位置都会标注为一个标签,反向传播进行模型优化时的损失函数是基于每个位置的而非整个实体词,且不能解决实体嵌套的问题

基于跨度的命名实体识别方法,通过枚举所有可能的跨度进行分类,模型优化时的损失函数是基于整个实体词的,因此更符合正常的思维模式,且可以解决实体嵌套的问题


技术实现思路

[0006]本申请实施例要解决的技术问题是提供一种命名实体识别方法

装置及计算机可读存储介质,能够提升命名实体识别的性能,降低对样本数据集的要求

[0007]根据本申请的一个方面,至少一个实施例提供了一种命名实体识别方法,包括:
[0008]根据文本跨度遍历待识别文本中的文本元素,得到多个候选实体词;
[0009]针对每个候选实体词,通过以下步骤,识别所述候选实体词所属的分类:
[0010]生成所述候选实体词对应的提示模板,将所述待识别文本与所述提示模板拼接得
到拼接文本,其中,所述提示模板用于提示学习所述候选实体词所属的分类,且所述提示模板包括所述候选实体词和被屏蔽词覆盖的实体分类;
[0011]生成所述拼接文本中的文本元素的向量表示;
[0012]根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示;
[0013]对所述候选实体词的向量表示进行分类,获得所述候选实体词所属的分类

[0014]此外,根据本申请的至少一个实施例,所述根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:
[0015]对所述待识别文本中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第一跨度表示;对所述提示模板中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第二跨度表示;
[0016]根据所述第一跨度表示

第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示

[0017]此外,根据本申请的至少一个实施例,所述根据所述第一跨度表示

第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:
[0018]对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;
[0019]将所述第三跨度表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示

[0020]此外,根据本申请的至少一个实施例,所述根据所述第一跨度表示

第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:
[0021]对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;
[0022]获取所述候选实体词的文本跨度的宽度值对应的向量表示,并将所述第三跨度表示和所述候选实体词的文本跨度的宽度值对应的向量表示拼接,得到第四跨度表示;
[0023]将所述第四跨度表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示

[0024]此外,根据本申请的至少一个实施例,所述拼接文本包括有起始标识符;所述根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:
[0025]对所述待识别文本中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第一跨度表示;对所述提示模板中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第二跨度表示;
[0026]根据所述第一跨度表示

第二跨度表示

所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示

[0027]此外,根据本申请的至少一个实施例,根据所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种命名实体识别方法,其特征在于,包括:根据文本跨度遍历待识别文本中的文本元素,得到多个候选实体词;针对每个候选实体词,通过以下步骤,识别所述候选实体词所属的分类:生成所述候选实体词对应的提示模板,将所述待识别文本与所述提示模板拼接得到拼接文本,其中,所述提示模板用于提示学习所述候选实体词所属的分类,且所述提示模板包括所述候选实体词和被屏蔽词覆盖的实体分类;生成所述拼接文本中的文本元素的向量表示;根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示;对所述候选实体词的向量表示进行分类,获得所述候选实体词所属的分类
。2.
如权利要求1所述的方法,其特征在于,所述根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述待识别文本中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第一跨度表示;对所述提示模板中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第二跨度表示;根据所述第一跨度表示

第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示
。3.
如权利要求2所述的方法,其特征在于,所述根据所述第一跨度表示

第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;将所述第三跨度表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。4.
如权利要求2所述的方法,其特征在于,所述根据所述第一跨度表示

第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;获取所述候选实体词的文本跨度的宽度值对应的向量表示,并将所述第三跨度表示和所述候选实体词的文本跨度的宽度值对应的向量表示拼接,得到第四跨度表示;将所述第四跨度表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。5.
如权利要求1所述的方法,其特征在于,所述拼接文本包括有起始标识符;所述根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述待识别文本中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第一跨度表示;对所述提示模板中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第二跨度表示;根据所述第一跨度表示

第二跨度表示

所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示
。6.
如权利要求5所述的方法,其特征在于,根据所述第一跨度表示

第二跨度表示

所述
起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;将所述第三跨度表示

所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。7.
如权利要求5所述的方法,其特征在于,根据所述第一跨度表示

第二跨度表示

所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;获取所述候选实体词的文本跨度的宽度值对应的向量表示,并将所述第三跨度表示和所述候选实体词的文本跨度的宽度值对应的向量表示拼接,得到第四跨度表示;将所述第四跨度表示

所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。8.
如权利要求
3、4、6
或7所述的方法,其特征在于,所述第一整合处理包括以下处理的任一项:最大池化处理;平均池化处理;所述候选实体词中首尾文本元素的向量表示的拼接;所述第二整合处理包括以下处理的任一项:最大池化处理;平均池化处理
。9.
如权利要求1所述的方法,其特征在于,所述对所述候选实体词的向量表示进行分类,获得所述候选实...

【专利技术属性】
技术研发人员:张永伟董滨姜珊珊丁磊张佳师
申请(专利权)人:株式会社理光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1