一种人名的识别方法及系统技术方案

技术编号:7243695 阅读:436 留言:0更新日期:2012-04-11 18:40
本发明专利技术适用于互联网和搜索领域,本发明专利技术提供了一种人名的识别方法及系统,该方法包括如下步骤:将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;根据该初始序列中的词条确定候选人名;如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值时,将该候选人名作为识别出的人名标注。本发明专利技术提供的技术方案具有提高人名识别准确率的优点。

【技术实现步骤摘要】

本专利技术属于互联网和搜索领域,尤其涉及一种人名的识别方法及系统
技术介绍
随着互联网的发展,用户越来越多的通过互联网中搜索软件对中国的人名进行搜索。现有的人名的识别方法具体为从语料库(即存储数据库)中自动抽取角色信息,采取Viterbi算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别。按照现有技术所提供的技术方案,发现现有技术中存在如下技术问题现有技术提供的技术方案的方法是对切词结果进行角色标注的,所以当切词结果出现错误时,容易对人名识别错误,识别错误率高。
技术实现思路
本专利技术实施例提供一种人名的识别方法,旨在解决现有技术的识别方法对切词结果出现错误时,容易对人名识别错误,识别错误率高的问题。本专利技术实施例是这样实现的,一种人名的识别方法,所述方法包括如下步骤将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;根据该初始序列中的词条确定候选人名;如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值时,将该候选人名作为识别出的人名。本专利技术还提供一种人名的识别系统,所述系统包括存储单元,用于将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;确定单元,用于根据该初始序列中的词条确定候选人名;识别单元,用于在该候选人名出现在该人名频率表中,且出现预设次数超过次数阈值时,将该候选人名作为识别出的人名。本专利技术实施例与现有技术相比,有益效果在于本专利技术的技术方案对初始序列的人名和该人名出现次数建立人名频率表,然后根据该初始序列的词条确定候选人名,并将该候选人名与该人名频率表中的人名进行比对,如出现在该人名频率表中,且该人名频率表中的次数超过次数阈值时,确定该候选人名为漏识别的人名,由于该方法是以初始序列为基础进行错误修正的,所以其具有当切词结果出现错误时,会对现有技术的识别结果(即初始序列)进行错误修正的处理,所以其具有提高人名识别准确率的优点。附图说明图1是本专利技术提供的一种人名的识别方法的流程图;图2是本专利技术实施例一提供一种人名的识别方法的流程图3为本专利技术实施例一提供一种人名修正流程图;图4是本专利技术实施例二提供一种人名的识别方法的流程图;图5是本专利技术实施例三提供一种人名的识别方法的流程图;图6为本专利技术提供一种人名的识别系统的结构图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种人名的识别方法,该方法如图1所示,具体包括如下步骤S10、将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;需要说明的是,上述初始序列可以为对人名经过初步识别处理后的序列。上述识别处理的方法可以为现有技术的方法,例如Viterbi算法,当然也可以为别的识别方法,只要该方法能够初步识别出人名即可,本专利技术并不局限该识别方法的具体表现形式。Sl 1、根据该初始序列中的词条确定候选人名;S12、如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值时,将该候选人名作为识别出的人名。可选的,该方法还可以包括标注该识别出的人名,并根据该候选人名在初始序列中出现的次数来更新人名频率表。上述预设次数阈值用户可以预先自行设定,例如1、2、3等等,本专利技术并不局限该次数阈值的具体取值。可选的,实现Sll的具体方法可以为下属方式中的任何一种,当然也可以为下属方式中的任意组合。方式A、将初始序列中连续的二个或多个词条组合成候选人名;方式B、将初始序列中二个字的人名词条与该词条的后一个词条的第一个汉字组成候选人名;方式C、将初始序列中三个字的人名词条的前二个字组成候选人名。需要说明的是,本专利技术提供的人名识别方法主要用于中文人名的识别,如果其他文字的人名具有中文人名的特征,则也可以应用到其它文字,例如满文或一些其它的少数名族文字等。本实施例提供的方法对初始序列的人名和该人名出现次数建立人名频率表,然后根据该初始序列的词条确定候选人名,并将该候选人名与该人名频率表中的人名进行比对,如出现在该人名频率表中,且该人名频率表中的次数超过次数阈值时,确定该候选人名为漏识别的人名,将该候选人名标识,并更新该人名频率表,由于该方法是以初始序列为基础进行错误修正的,所以其具有当切词结果出现错误时,会对现有技术的识别结果(即初始序列)进行错误修正的处理,所以其能着重解决人名识别中的传统难题无姓氏人名识别和人名识别歧义,从而能提高人名识别准确率。实施例一本实施例提供一种人名的识别方法,本实施例实现的技术场景为本实施例提供的方法由识别设备完成,该识别设备具体可以为,计算机、移动终端、PDA等数码电子设备,本实施例以中文为例,本实施例以下段文档为例来说明本实施例的识别方法,需要说明的是,下段文字可以为经过现有技术的识别处理方法处理后的序列,为了方便说明,本实施例将经过识别方法识别处理后的序列统一称为初始序列。该初始序列具体如下所示之前因走音晋级激怒包小柏/nr的“话题选手”曾轶可/nr当晚再次成为焦点人物。内地“支持派”评委还是非常看好曾轶可/nr的原创音乐和清新台风。被称为“绵羊天使”的曾轶可/nr带来的依旧是自己的原创作品《狮子座》。曾轶可/nr仍然是“争议可”。曾轶可/nr与第二轮得分最低的“小燕子”李丽/nr进行终极1 对决。此刻曾轶可/nr与李丽/nr的投票比分为0 2。然后她旁边的李丽/nr拉了下她说冷静点。曾轶可/nr的“想骂人”三个字非常清晰。记者发现曾轶可/nr已经连夜撰写博客。对比赛中因安慰李丽/nr所说的一句不当话语进行了真诚的道歉。曾轶可/nr表示绝对不会因为外界的评说放弃自己的音乐梦想。李丽/nr也在自己的博客里替曾轶可/nr澄清。但陆续I3K的轶可还是忍不住泪水。李丽喜/nr得2007雪碧我型我秀全国第13名。李丽方/nr得以胜出。曾轶/nr可以一票之差不敌刘惜君/nr转为待定。其中,上述初始序列中的“nr”的词条为识别出的人名。上述词条可以为字典里预先定义的一些词,例如“可以”、“全国”等等,当然也可以为人为设置的一些词,例如“李连杰”、“成龙”、“乔丹”等;需要说明的是,初始序列中的词条通过空格符隔开,例如“但陆续”中,词条“但”和词条“陆续”通过空格符隔开。本实施例提供的方法如图2所示,具体包括如下步骤S20、将该初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;上述初始序列的人名频率表具体可以如表1所示表 1 人名次数曾轶可10包小柏1李丽7李丽喜1李丽方1曾轶1S21、将连续的二个或多个词条组合成候选人名;需要说明的是,上述词条可以为单个字的词条,例如“在”;当然在实际情况中,也可以为多个字的词条,例如“话语”。需要说明的是,如有连续的多个单字词条时,其组成的候选人名也可以为多个候选人名,这里以连续的二个单字词条组合成候选人名为例,“拉了下她说”可以组成4个候选人名,分别为“拉下”、“了下”、“下她”、“她说”。需要说明的是,上述组合成候选人名单字词条的个数一般为2、3、4 ;当然该个数的定义只是按当前中国姓名字数的习惯来规定的,不排除当习惯改变时,命名字数变成8、9、10等字数,例如外国人本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:罗长升方高林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术