中文人名自动识别方法技术

技术编号：7094067 阅读：419 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种中文人名自动识别方法，首先对已标注中文人名的文字材料进行统计训练，根据汉字出现的位置划分为二阶模型和三阶模型，计算每类模型下的四种分布的概率，并通过贝叶斯概率统计的方法获得中文人名的统计规律；然后将待识别的中文文本材料巧妙地利用双字和单字的组合策略进行概率计算并对比各种组合的概率值来判断是否为中文姓名，该方法可对2～4个字的中文人名进行稳定识别，并具有很好的歧义切分效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种中文信息的检索方法，特别是涉及一种中文人名的识别方法。
技术介绍
人名是日常生活中接触最多的专用名词，在信息检索时人名要作为一个整体才能得到准确的检索结果。以人名“曹国伟”为例，如果检索系统将其切分为三个单字“曹”、 “国”、“伟”，即没有将中文人名正确识别出来，则会检索出错误结果例如“中星专利技术专利，专利技术人直庆芬、府违江”。实现中文人名自动识别具有几大难点其一，中文人名的组合极多，无法直接使用辞典进行机械切分。一方面难以构建一个穷尽所有中文人名的辞典。另一方面，构建辞典会出现矛盾的情形。例如，如果将人名“王军虎”添加到辞典中，则在句子“王军虎头虎脑的”中，会错误地将“王军虎”识别为人名。其二，中文人名存在单姓、复姓的情况，还具有二字人名、三字人名、四字人名等多种情况。其三，中文人名可能会和前后文字形成歧义组合，给人名的正确识别带来障碍。例如“陈晓东北京演唱会”这句话中出现了“东北“一词，在人名识别时很容易被错误识别为 “陈晓/东北”。
技术实现思路
本专利技术所要解决的技术问题是提供一种中文人名的自动识别方法，可以较为准确地识别出中文人名。为解决上述技术问题，本专利技术包括如下步骤第1步，对已注明中文人名的文字材料进行统计；第2步，对待识别中文人名的文字材料进行中文人名的识别；所述方法第1步具体包括如下步骤第1. 1步，在已注明中文人名的文字材料中，将单字划分为以下四种类型，所述单字为单个汉字；——Hl类型，出现在中文人名第一个字的位置；——Ml类型，出现在中文人名中间位置；——Tl类型，出现在中文人名最后一个字的位置；——附...

【技术保护点】
１．一种中文人名自动识别方法，其特征是，包括如下步骤：第１步，对已注明中文人名的文字材料进行统计；第２步，对待识别中文人名的文字材料进行中文人名的识别；所述方法第１步具体包括如下步骤：第１．１步，在已注明中文人名的文字材料中，将单字划分为以下四种类型，所述单字为单个汉字；——Ｈ１类型，出现在中文人名第一个字的位置；——Ｍ１类型，出现在中文人名中间位置；——Ｔ１类型，出现在中文人名最后一个字的位置；——Ｎ１类型，出现在除中文人名以外的位置；将双字划分为以下四种类型，所述双字为连续的两个汉字；——Ｈ２类型，出现在中文人名前两个字的位置且为复姓；——ＨＭ２类型，出现在中文人名前两个字的位置且不为复姓；——ＭＴ２类型，出现在三字非复姓人名或四字复姓人名后两个字的位置；——Ｎ２类型，出现在除中文人名以外的位置；第１．２步，在已注明中文人名的文字材料中：统计Ｈ１、Ｍ１、Ｔ１、Ｎ１四种类型的不重复的单字数量，分别记为ｎｈ１、ｎｍ１、ｎｔ１、ｎｎ１；统计Ｈ２、ＨＭ２、ＭＴ２、Ｎ２四种类型的不重复的双字数量，分别记为ｎｈ２、ｎｈｍ２、ｎｍｔ２、ｎｎ２；统计每个单字出现的总次数记为ｚ１；统计每个单字出现在...

【技术特征摘要】

【专利技术属性】
技术研发人员：陈运文，马飞涛，宋海涛，
申请(专利权)人：盛乐信息技术上海有限公司，
类型：发明
国别省市：31

全部详细技术资料下载我是这个专利的主人