一种人名识别方法和装置制造方法及图纸

技术编号:18083825 阅读:18 留言:0更新日期:2018-05-31 12:22
本发明专利技术公开了一种人名识别方法,包括:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。本发明专利技术还同时公开了一种人名识别装置。

【技术实现步骤摘要】
一种人名识别方法和装置
本专利技术涉及自然语言处理
中的识别技术,尤其涉及一种人名识别方法和装置。
技术介绍
自然语言处理是互联网信息搜索领域的核心分析技术,在搜索引擎、舆情监控、以及电子商务等众多互联网IT产业都有广泛应用。随着互联网信息指数级增长以及用户体验需求越来越高,在保证处理速度满足用户使用需求的前提下,互联网信息搜索对自然语言处理结果的要求也越来越精准。其中,人名识别是自然语言处理词法分析中最困难的核心问题之一,不管是在搜索引擎领域,还是在舆情监控领域,用户对人名的关注度远高于常用词,且采用词典无法识别所有人名,导致识别难度较大,因此,人名识别一直以来都是用户备受关注的研究课题。一般来说,人名识别包括两种类型:中文人名识别和音译人名识别。由于人名构成特征和上下文特征的复杂性,目前主流技术中所采用的单一统计模型是无法全面覆盖所有人名构成特征和上下文特征的,因此,为了提升综合识别效果,迫切需要一种融合中文人名识别和音译人名识别于一体的多人名识别方法。目前,比较常见的多人名识别方法主要有以下两种:1)基于混合模型的人名识别方法,该方法是基于决策树规则和多种统计模型相结合的人名识别算法,首先,采用决策树规则对人名构成特征和上下文特征进行分类;然后,对每一类别的人名采用针对性的统计模型,从而弥补目前主流技术所采用的单一统计模型无法全面覆盖所有人名构成特征和上下文特征的缺点,提升综合识别效果;2)基于角色标注的人名识别方法,该方法是通过对分词后的输入序列进行角色标注,并获取角色标注序列,进而对中文人名和音译人名进行统一处理,并对出现错误的人名识别角色进行修正,最后,根据人名识别模式对所得到的角色标注序列进行匹配,并输出组成的人名。然而,上述两种多人名识别方法主要存在以下问题:对于基于混合模型的人名识别方法,由于该方法在进行人名识别之前,需对所有人名进行分类,如果分类效果不佳,很容易造成人名遗漏识别或错误识别;且未对不同人名识别模型的识别结果进行统一维度的决策,因此,当不同模型之间的识别结果有交叉时,让用户难以取舍;而对于基于角色标注的人名识别方法,只是考虑到将中文人名和音译人名使用角色标注方法进行统一识别,却未考虑到不同人名在自身特点上存在的差异性,识别效果存在不足。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种人名识别方法和装置,至少解决现有的多人名识别技术中存在的上述问题,能够快速、准确地识别中文人名和音译人名。为达到上述目的,本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种人名识别方法,所述方法包括:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。上述方案中,所述方法还包括:将分词过程中没有录入词典的未登录词以单字形态呈现。上述方案中,在所述获得所有潜在人名之后,所述方法还包括:根据所述所有潜在人名构建待决策的人名有向图;所述人名的语境包括:人名的上下文词和上下文词的词性。上述方案中,所述根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果,包括:根据人名所在语境的上下文词和上下文词的词性特征,通过所述ngram模型对所述待决策的人名有向图进行概率映射,构建所述所有潜在人名的概率有向图,并基于预测算法对所述概率有向图中的所有路径进行比较,将最短路径作为最终符合语境的人名识别结果并输出。上述方案中,所述ngram模型中的语料与对所述文本序列进行分词的分词器中的语料相同。本专利技术实施例还提供一种人名识别装置,所述装置包括:分词模块、人名识别模块、模型构建模块、人名决策模块;其中,所述分词模块,用于获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;所述人名识别模块,用于根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;所述模型构建模块,用于根据人名的语境构建ngram模型;所述人名决策模块,用于根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。上述方案中,所述分词模块,还用于将分词过程中没有录入词典的未登录词以单字形态呈现。上述方案中,所述模型构建模块,还用于在所述人名识别模块获得所有潜在人名之后,根据所述所有潜在人名构建待决策的人名有向图;所述人名的语境包括:人名的上下文词和上下文词的词性。上述方案中,所述人名决策模块,具体用于:根据人名所在语境的上下文词和上下文词的词性特征,通过所述ngram模型对所述待决策的人名有向图进行概率映射,构建所述所有潜在人名的概率有向图,并基于预测算法对所述概率有向图中的所有路径进行比较,将最短路径作为最终符合语境的人名识别结果并输出。上述方案中,所述ngram模型中的语料与对所述文本序列进行分词的分词器中的语料相同。本专利技术实施例所提供的人名识别方法和装置,获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。如此,根据不同人名自身特点的差异性,采用不同的统计模型进行识别,充分利用多种统计模型识别的优势,将所有潜在人名识别出来,提升人名识别率;通过ngram模型构建所有潜在人名的概率有向图,以便对中文人名、音译人名的识别结果构建统一维度的决策,从而对识别结果进行最优选择,不仅人名识别可靠性好,还提升了综合识别效果,能够快速准确地识别不同的人名。附图说明图1为本专利技术实施例一提供的一种人名识别方法的流程示意图;图2为本专利技术实施例二提供的一种人名识别方法的总体流程示意图;图3为本专利技术实施例二构建的待决策的人名有向图的示意图;图4为本专利技术实施例二构建的所有潜在人名的概率有向图的示意图;图5为本专利技术实施例三提供的一种人名识别装置的组成结构示意图。具体实施方式为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术。实施例一:如图1所示,本专利技术实施例中人名识别方法的实现流程,包括以下步骤:步骤101:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;这里,所述输入的文本序列为连续的语言文本字符串,其中,所述文本序列中包括一个或一个以上人名,且所述文本序列可通过以下至少一种方式获取,例如:由用户直接输入,或者从当前的环境如聊天窗口中采集得到,或者接收终端发送的文本序列等。通常,可采用分词器对所述文本序列进行分词,具体地,根据收集的中文词典,采用分词方法对文本序列进行词语切分,将连续的语言文本字符串切分为词序列。目前,现有技术中的分词方法有很多种,例如:正向最大匹配、逆向最大匹配、N-元语法、改进的最大匹配算法等等。其中本文档来自技高网
...
一种人名识别方法和装置

【技术保护点】
一种人名识别方法,其特征在于,所述方法包括:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。

【技术特征摘要】
1.一种人名识别方法,其特征在于,所述方法包括:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将分词过程中没有录入词典的未登录词以单字形态呈现。3.根据权利要求1所述的方法,其特征在于,在所述获得所有潜在人名之后,所述方法还包括:根据所述所有潜在人名构建待决策的人名有向图;所述人名的语境包括:人名的上下文词和上下文词的词性。4.根据权利要求3所述的方法,其特征在于,所述根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果,包括:根据人名所在语境的上下文词和上下文词的词性特征,通过所述ngram模型对所述待决策的人名有向图进行概率映射,构建所述所有潜在人名的概率有向图,并基于预测算法对所述概率有向图中的所有路径进行比较,将最短路径作为最终符合语境的人名识别结果并输出。5.根据权利要求1所述的方法,其特征在于,所述ngram模型中的语料与对所述文本序列进行分词的分词器中的语料相同。6.一种人名识别装置,其特征在于,所述装置包括:...

【专利技术属性】
技术研发人员:蒋忠强梁俊全兵陶鸿飞温士帅骆舰刘甦晓
申请(专利权)人:中移苏州软件技术有限公司中国移动通信集团上海有限公司中国移动通信集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1