命名实体的识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:33992015 阅读:36 留言:0更新日期:2022-07-02 09:56
本发明专利技术提供了一种命名实体的识别方法、装置及计算机可读存储介质,属于自然语言处理技术领域。所述方法包括:语句识别步骤:识别目标语句中的头单词和命名实体,并识别所述命名实体中的分隔位置,根据所述分隔位置,将每个命名实体分隔为两个实体部分;语句压缩步骤:针对每个包括一个所述头单词与一个所述命名实体的组合,分别根据当前组合中的头单词和命名实体的实体部分,对所述目标语句进行语句压缩处理,得到当前组合对应的压缩语句;迭代判断步骤:判断压缩语句与目标语句是否相同,若相同,则结束当前组合的语句压缩处理;若不同,则将压缩语句作为所述目标语句并返回所述语句识别步骤。本发明专利技术能够提高命名实体的识别效率和识别成功率。和识别成功率。和识别成功率。

【技术实现步骤摘要】
命名实体的识别方法、装置及计算机可读存储介质


[0001]本专利技术涉及自然语言处理(Natural Language Processing,NLP)
,特别是指一种命名实体的识别方法、装置及计算机可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理中常见的一项任务,命名实体在很多应用中被作为语义表示的基本单元,其使用的范围非常广,因此命名实体识别技术具有重要作用。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名(PER)、地名(LOC)、机构名(ORG)、时间、日期、货币和百分比等。命名实体识别技术起着重要作用,因为命名实体在很多任务中被作为语义表示的基本单元。可见,高精度的命名实体识别方法,在开发高性能翻译,对话,舆情监测,主题跟踪以及语义理解等系统中具有重要意义。
[0003]目前文本挖掘技术常用方法有基于特征或基于核函数的模型。基于特征的模型往往需要设计大量的词法,句法和语义的特征,然后通过支持向量机(Support Vecto本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体的识别方法,其特征在于,包括:语句识别步骤:识别目标语句中的头单词和命名实体,并识别所述命名实体中的分隔位置,根据所述分隔位置,将每个命名实体分隔为两个实体部分;语句压缩步骤:针对每个包括一个所述头单词与一个所述命名实体的组合,分别根据当前组合中的头单词和命名实体的实体部分,对所述目标语句进行语句压缩处理,得到当前组合对应的压缩语句;迭代判断步骤:判断所述压缩语句与所述目标语句是否相同,若相同,则结束当前组合的语句压缩处理;若不同,则将所述压缩语句作为所述目标语句并返回所述语句识别步骤。2.根据权利要求1所述的识别方法,其特征在于,所述根据当前组合中的头单词和命名实体的实体部分,对所述目标语句进行语句压缩处理包括:在当前组合中的头单词包含在当前组合的命名实体中时,将所述目标语句中未包含有当前组合中的头单词的实体部分删除,得到第一语句;以及,在当前组合中的头单词未包含在当前组合的命名实体中时,直接将所述目标语句作为第一语句;去除所述第一语句中与当前组合中的头单词不相关的词,得到压缩后的压缩语句。3.根据权利要求2所述的识别方法,其特征在于,所述去除所述第一语句中与当前组合中的头单词不相关的词,得到压缩后的压缩语句,包括:针对所述第一语句中的每个词,分别将该词的词向量、当前组合中的头单词的词向量和位置向量进行拼接,得到每个词对应的拼接向量;将所述第一语句中的每个词对应的拼接向量,输入至一注意力机制网络,预测所述第一语句中与当前组合中的头单词不相关的词,并从所述第一语句中删除,得到压缩后的压缩语句。4.根据权利要求3所述的识别方法,其特征在于,在所述语句识别步骤中,使用一连续命名实体识别模型,识别目标语句中的命名实体;使用第一序列标注网络,识别所述目标语句中的头单词;使用第二序列标注网络,识别所述命名实体中的分隔位置;其中,所述第一序列标注网络和第二序列标注网络分别包括有一个多层感知器网络和softmax输出层。5.根据权利要求4所述的识别方法,其特征在于,在结束所有组合的处理之后,所述方法还包括:根据所述语句识别步骤识别出的命名实体以及预先标注的所述目标语句中的命名实体,对包括所述第一序列标注网络、第二序列标注网络和注意力机制网络的缩句网络模型进行训练,得到一能够识别不连续命名实体的缩句网络模型。6.根据权利要求5所述的识别方法,其特征在于,还包括:利用所述连续命名实体识别模型和缩句网络模型,对待识别语句进行识别,识别所述待识别语句中的连续命名实体和/或不连续命名实体。7.一种命名实体的识别装置,其特征在于,包括:语句识别模块,用于识别目标语句中的头单词和命名实体,并识别所述命名实体中的分隔位置,根据所述分隔位置,将每个命名实体分隔为两个实体部分;语句压缩模块,用于针对每个包括一个所述头单词与一个所述命名实体的组合,分别
根据当前组合中的头单词和命名实体的实体部分,对所述目标语句进行语句压缩处理,得到当前组合对应的压缩语句;迭代判断模块,用于判断所述压缩语句与所述目标语句是否相...

【专利技术属性】
技术研发人员:廖澍锴姜珊珊丁磊董滨
申请(专利权)人:株式会社理光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1