命名实体的识别方法、电子设备及计算机存储介质技术

技术编号:23149944 阅读:24 留言:0更新日期:2020-01-18 13:48
本发明专利技术公开了一种命名实体的识别方法、电子设备及计算机存储介质,该方法包括:获取原始文本中包含的各个文字及其初始字向量,获取原始文本中包含的各个分词及其初始词向量;根据各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量;确定与各个文字的语义字向量相对应的第一实体识别结果,与各个分词的语义词向量相对应的第二实体识别结果;根据第一实体识别结果以及第二实体识别结果识别原始文本中包含的命名实体。该方式能够获取到更加准确的识别结果,避免了因字向量的信息量少所导致的识别错误。

Named entity recognition method, electronic equipment and computer storage medium

【技术实现步骤摘要】
命名实体的识别方法、电子设备及计算机存储介质
本专利技术涉及计算机领域,具体涉及一种命名实体的识别方法、电子设备及计算机存储介质。
技术介绍
在自然语言的处理过程中,经常需要针对语句中包含的命名实体等特定词汇进行识别,以便于针对识别出的特定词汇进行高亮标注或添加注解等处理,从而便于用户阅读。在现有技术中,通常采用如下方案实现:首先,确定语句中包含的各个文字以及与各个文字相对应的字向量;然后,基于各个文字所对应的字向量进行实体识别,从而挖掘文本中的特定词汇。但是,专利技术人在实现本专利技术的过程中发现,现有技术中的上述方案至少存在下述缺陷:由于字向量所包含的信息量较少,无法准确呈现上下文之间的关联关系,因此,单独通过字向量进行识别的方式存在着准确率低下的缺陷。
技术实现思路
鉴于上述问题,本专利技术提供了一种克服上述问题或者至少部分地解决上述问题的命名实体的识别方法、电子设备及计算机存储介质。根据本专利技术的一个方面,提供了一种命名实体的识别方法,包括:获取原始文本中包含的各个文字以及各个文字的初始字向本文档来自技高网...

【技术保护点】
1.一种命名实体的识别方法,包括:/n获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;/n根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;/n确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;/n根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。/n

【技术特征摘要】
1.一种命名实体的识别方法,包括:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。


2.根据权利要求1所述的方法,其中,所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。


3.根据权利要求2所述的方法,其中,所述根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体之后,进一步包括:当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。


4.根据权利要求1-3任一所述的方法,其中,所述方法应用于电子书应用,则所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。


5.根据权利要求1-4任一所述的方法,其中,所述根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量包括:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分...

【专利技术属性】
技术研发人员:柳燕煌
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1