【技术实现步骤摘要】
命名实体识别方法、装置及计算机可读存储介质
[0001]本专利技术涉及机器学习与自然语言处理
(NLP
,
Natural Language Processing)
,具体涉及一种命名实体识别方法
、
装置及计算机可读存储介质
。
技术介绍
[0002]在人工智能领域,信息提取技术是一项不可或缺的重要技术
。
目前,信息提取技术主要包括三种算法
。
第一种是基于知识图谱的抽取算法
。
该抽取算法需要知识库图谱的数据与规则支持
。
建立知识图谱需要耗费大量人力资源,而最终获得的数据量却并不理想
。
第二种是基于传统统计机器学习算法的抽取算法,该算法可以使用手动标记的训练数据,应用不同的学习模型,以应对不同的场景,该算法存在人工成本高和推广性差的缺点,使得其在广泛应用时遇到瓶颈
。
最后一种算法是近年来流行的使用神经网络模型的算法
。
与传统的机器学习算法相比,使用了大规模的训练数据集的基于神经网络的模型,在自然语言处理任务中展现了优异的性能
。
[0003]命名实体识别
(NER
,
Named Entity Recognition)
是自然语言处理中常见的一项任务,命名实体在很多应用中被作为语义表示的基本单元,其使用的范围非常广,因此命名实体识别技术具有重要作用
。
命名实体通常指 ...
【技术保护点】
【技术特征摘要】
1.
一种命名实体识别方法,其特征在于,包括:根据文本跨度遍历待识别文本中的文本元素,得到多个候选实体词;针对每个候选实体词,通过以下步骤,识别所述候选实体词所属的分类:生成所述候选实体词对应的提示模板,将所述待识别文本与所述提示模板拼接得到拼接文本,其中,所述提示模板用于提示学习所述候选实体词所属的分类,且所述提示模板包括所述候选实体词和被屏蔽词覆盖的实体分类;生成所述拼接文本中的文本元素的向量表示;根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示;对所述候选实体词的向量表示进行分类,获得所述候选实体词所属的分类
。2.
如权利要求1所述的方法,其特征在于,所述根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述待识别文本中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第一跨度表示;对所述提示模板中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第二跨度表示;根据所述第一跨度表示
、
第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示
。3.
如权利要求2所述的方法,其特征在于,所述根据所述第一跨度表示
、
第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;将所述第三跨度表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。4.
如权利要求2所述的方法,其特征在于,所述根据所述第一跨度表示
、
第二跨度表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;获取所述候选实体词的文本跨度的宽度值对应的向量表示,并将所述第三跨度表示和所述候选实体词的文本跨度的宽度值对应的向量表示拼接,得到第四跨度表示;将所述第四跨度表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。5.
如权利要求1所述的方法,其特征在于,所述拼接文本包括有起始标识符;所述根据所述拼接文本中每个所述候选实体词的文本元素的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述待识别文本中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第一跨度表示;对所述提示模板中的所述候选实体词的文本元素的向量表示进行第一整合处理,得到所述候选实体词的第二跨度表示;根据所述第一跨度表示
、
第二跨度表示
、
所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示
。6.
如权利要求5所述的方法,其特征在于,根据所述第一跨度表示
、
第二跨度表示
、
所述
起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;将所述第三跨度表示
、
所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。7.
如权利要求5所述的方法,其特征在于,根据所述第一跨度表示
、
第二跨度表示
、
所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示,生成所述候选实体词的向量表示,包括:对所述第一跨度表示和第二跨度表示进行第二整合处理,得到第三跨度表示;获取所述候选实体词的文本跨度的宽度值对应的向量表示,并将所述第三跨度表示和所述候选实体词的文本跨度的宽度值对应的向量表示拼接,得到第四跨度表示;将所述第四跨度表示
、
所述起始标识符的向量表示和所述屏蔽词的文本元素的向量表示拼接,得到所述候选实体词的向量表示
。8.
如权利要求
3、4、6
或7所述的方法,其特征在于,所述第一整合处理包括以下处理的任一项:最大池化处理;平均池化处理;所述候选实体词中首尾文本元素的向量表示的拼接;所述第二整合处理包括以下处理的任一项:最大池化处理;平均池化处理
。9.
如权利要求1所述的方法,其特征在于,所述对所述候选实体词的向量表示进行分类,获得所述候选实...
【专利技术属性】
技术研发人员:张永伟,董滨,姜珊珊,丁磊,张佳师,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。