中文人名自动识别方法技术

技术编号:7094067 阅读:419 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种中文人名自动识别方法,首先对已标注中文人名的文字材料进行统计训练,根据汉字出现的位置划分为二阶模型和三阶模型,计算每类模型下的四种分布的概率,并通过贝叶斯概率统计的方法获得中文人名的统计规律;然后将待识别的中文文本材料巧妙地利用双字和单字的组合策略进行概率计算并对比各种组合的概率值来判断是否为中文姓名,该方法可对2~4个字的中文人名进行稳定识别,并具有很好的歧义切分效果。

【技术实现步骤摘要】

本专利技术涉及一种中文信息的检索方法,特别是涉及一种中文人名的识别方法。
技术介绍
人名是日常生活中接触最多的专用名词,在信息检索时人名要作为一个整体才能得到准确的检索结果。以人名“曹国伟”为例,如果检索系统将其切分为三个单字“曹”、 “国”、“伟”,即没有将中文人名正确识别出来,则会检索出错误结果例如“中星专利技术专利,专利技术人直庆芬、府违江”。实现中文人名自动识别具有几大难点其一,中文人名的组合极多,无法直接使用辞典进行机械切分。一方面难以构建一个穷尽所有中文人名的辞典。另一方面,构建辞典会出现矛盾的情形。例如,如果将人名“王军虎”添加到辞典中,则在句子“王军虎头虎脑的”中,会错误地将“王军虎”识别为人名。其二,中文人名存在单姓、复姓的情况,还具有二字人名、三字人名、四字人名等多种情况。其三,中文人名可能会和前后文字形成歧义组合,给人名的正确识别带来障碍。例如“陈晓东北京演唱会”这句话中出现了“东北“一词,在人名识别时很容易被错误识别为 “陈晓/东北”。
技术实现思路
本专利技术所要解决的技术问题是提供一种中文人名的自动识别方法,可以较为准确地识别出中文人名。为解决上述技术问题,本专利技术包括如下步骤第1步,对已注明中文人名的文字材料进行统计;第2步,对待识别中文人名的文字材料进行中文人名的识别; 所述方法第1步具体包括如下步骤第1. 1步,在已注明中文人名的文字材料中,将单字划分为以下四种类型,所述单字为单个汉字;——Hl类型,出现在中文人名第一个字的位置;——Ml类型,出现在中文人名中间位置;——Tl类型,出现在中文人名最后一个字的位置;——附类型,出现在除中文人名以外的位置;将双字划分为以下四种类型,所述双字为连续的两个汉字;——H2类型,出现在中文人名前两个字的位置且为复姓;——HM2类型,出现在中文人名前两个字的位置且不为复姓;——MT2类型,出现在三字非复姓人名或四字复姓人名后两个字的位置;——N2类型,出现在除中文人名以外的位置;第1. 2歩,在已注明中文人名的文字材料中统计HI、Ml、Tl、附四种类型的不重复的单字数量,分别记为nhl、nml、ntl、rml ;统计H2、HM2、MT2、N2四种类型的不重复的双字数量,分别记为nh2、nhm2、nmt2、 nn2 ;统计每个单字出现的总次数记为zl ;统计每个单字出现在Hl、Ml、Tl、m四种类型 的次数,分别记为hi、ml、tl、nl ;统计每个双字出现的总次数记为z2 ;统计每个双字属于H2、HM2、MT2、N2四种类型 的次数,分别记为h2、hm2、mt2、n2 ;第1. 3歩,在已注明中文人名的文字材料中计算每个单字Si出现的概率权利要求1. 一种,其特征是,包括如下步骤 第1步,对已注明中文人名的文字材料进行统计; 第2步,对待识别中文人名的文字材料进行中文人名的识别; 所述方法第1步具体包括如下步骤第1. 1步,在已注明中文人名的文字材料中,将单字划分为以下四种类型,所述单字为单个汉字;——Hl类型,出现在中文人名第一个字的位置;——Ml类型,出现在中文人名中间位置;——Tl类型,出现在中文人名最后一个字的位置;——Nl类型,出现在除中文人名以外的位置;将双字划分为以下四种类型,所述双字为连续的两个汉字;——H2类型,出现在中文人名前两个字的位置且为复姓;——HM2类型,出现在中文人名前两个字的位置且不为复姓;——MT2类型,出现在三字非复姓人名或四字复姓人名后两个字的位置;——N2类型,出现在除中文人名以外的位置;第1. 2步,在已注明中文人名的文字材料中统计HI、Ml、Tl、Nl四种类型的不重复的单字数量,分别记为nhl、nml、ntl、rml ; 统计H2、HM2、MT2、N2四种类型的不重复的双字数量,分别记为nh2、nhm2、nmt2、nn2 ; 统计每个单字出现的总次数记为zl ;统计每个单字出现在Hl、Ml、Tl、m四种类型的次数,分别记为hl、ml、tl、nl ;统计每个双字出现的总次数记为z2 ;统计每个双字属于H2、HM2、MT2、N2四种类型的次数,分别记为h2、hm2、mt2、n2 ;第1.3步,在已注明中文人名的文字材料中计算每个单字Si出现的概率P(乂)= 4 ;ζ 计算每个双字Di出现的概率P(A)=—;s2计算每个单字Si属于Hl类型的概率I Si) = -λ,计算每个单字Si属于Ml类型的Zim
\概率P(M1 ISi) = -,计算每个单字Si属于Tl类型的概率Ρ(Γ115,.)=-,计算每个单字Siζ ζ\η\属于m类型的概率\si) = — -,Zlhi计算每个双字Di属于H2类型的概率户(//2 IA) = -,计算每个双字Di属于HM2类型ZL的概率P(//M2 I Di) = --,计算每个双字Di属于MT2类型的概率Ρ(ΜΓ2= ,计算z2z2n2每个双字Di属于Ν2类型的概率ΙΑ) = — ;ZZ第1.4步,在已注明中文人名的文字材料中P(HllSi)XP(Si)广 I Λ . I Γ7 I I =-计算Hl类型中每个单字Si的出现概率PiSi I Η\) ΜΣ尸(ZHIA)X尸⑷(=1PiSi IMl)=,计算Ml类型中每个单字Si的出现概率、‘1 J腿1P(MllSi)XP(Si)YjP(MllSi)XP(Si)i=\PiSi I Π) = 计算Tl类型中每个单字Si的出现概率P(TllSi)XP(Si)^P(Tl) S^xP(Si)i=\P(NllSi)XP(Si)▲H I /Vll=-计算m类型中每个单字Si的出现概率Ρ^\Ν\) = ·ηη1YjP(NllSi)XP(Si)Z=IP(HllDi)XP(Di)J-\ LJ. I 厶 I =—计算Η2类型中每个双字Di的出现概率P^i I Η2) nh2YjP(HllDi)XP(Di)/=1计算ΗΜ2类型中每个双字Di的出现概率V ‘1"^p(HM2\D)xP(D)/=1P{MT2\Di)x P(Di)U. I IVl 1 Zl = -计算MT2类型中每个双字Di的出现概率P{Di\MT2)=nmt2^Ρ{ΜΤ2\ Di^PiDi)/=1P(N2\Di)xP(Di)I iV Ζ, I =-‘计算N2类型中每个双字Di的出现概率Ρ^\Ν2) = ·ηη2YJP{N2\Di)^P{Di)/=1所述方法第2步具体包括如下步骤第2. 1步,在待识别中文人名的文字材料中,按先后顺序依次判断每个双字是否属于 H2类型或HM2类型;P (H2 | Di) > 0表示该双字Di属于H2类型,否则表示该双字Di不属于 H2类型;P(MClDi) >第一阈值表示该双字Di属于HM2类型,否则表示该双字不属于HM2类型;第一阈值的取值范围是0. 13 0. 22 ;如果该双字属于H2类型或HM2类型,则将该双字设为dl,进入第2. 4步;如果该双字既不属于H2类型也不属于HM2类型,则将该双字拆分为两个单字,进入第 2. 2 步;第2. 2步,判断其中第一个单字是否属于Hl类型;P (HI I Si) > 0则表示该单字Si属于 Hl类型;如果该第一个单字属于Hl类型,则将该第一个单字设为dl,进入第2. 4步;如果该本文档来自技高网
...

【技术保护点】
1.一种中文人名自动识别方法,其特征是,包括如下步骤:第1步,对已注明中文人名的文字材料进行统计;第2步,对待识别中文人名的文字材料进行中文人名的识别;所述方法第1步具体包括如下步骤:第1.1步,在已注明中文人名的文字材料中,将单字划分为以下四种类型,所述单字为单个汉字;——H1类型,出现在中文人名第一个字的位置;——M1类型,出现在中文人名中间位置;——T1类型,出现在中文人名最后一个字的位置;——N1类型,出现在除中文人名以外的位置;将双字划分为以下四种类型,所述双字为连续的两个汉字;——H2类型,出现在中文人名前两个字的位置且为复姓;——HM2类型,出现在中文人名前两个字的位置且不为复姓;——MT2类型,出现在三字非复姓人名或四字复姓人名后两个字的位置;——N2类型,出现在除中文人名以外的位置;第1.2步,在已注明中文人名的文字材料中:统计H1、M1、T1、N1四种类型的不重复的单字数量,分别记为nh1、nm1、nt1、nn1;统计H2、HM2、MT2、N2四种类型的不重复的双字数量,分别记为nh2、nhm2、nmt2、nn2;统计每个单字出现的总次数记为z1;统计每个单字出现在H1、M1、T1、N1四种类型的次数,分别记为h1、m1、t1、n1;统计每个双字出现的总次数记为z2;统计每个双字属于H2、HM2、MT2、N2四种类型的次数,分别记为h2、hm2、mt2、n2;第1.3步,在已注明中文人名的文字材料中:计算每个单字Si出现的概率计算每个双字Di出现的概率计算每个单字Si属于H1类型的概率计算每个单字Si属于M1类型的概率计算每个单字Si属于T1类型的概率计算每个单字Si属于N1类型的概率计算每个双字Di属于H2类型的概率计算每个双字Di属于HM2类型的概率计算每个双字Di属于MT2类型的概率计算每个双字Di属于N2类型的概率第1.4步,在已注明中文人名的文字材料中:计算H1类型中每个单字Si的出现概率计算M1类型中每个单字Si的出现概率计算T1类型中每个单字Si的出现概率计算N1类型中每个单字Si的出现概率计算H2类型中每个双字Di的出现概率计算HM2类型中每个双字Di的出现概率(math)??(mrow)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo)|(/mo)?(mi)HM(/mi)?(mn)2(/mn)?(mo))(/mo)?(/mrow)?(mo)=(/mo)?(mfrac)?(mrow)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(mi)HM(/mi)?(mn)2(/mn)?(mo)|(/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo))(/mo)?(/mrow)?(mo)×(/mo)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo))(/mo)?(/mrow)?(/mrow)?(mrow)?(munderover)?(mi)Σ(/mi)?(mrow)?(mi)i(/mi)?(mo)=(/mo)?(mn)1(/mn)?(/mrow)?(mrow)?(mi)nhm(/mi)?(mn)2(/mn)?(/mrow)?(/munderover)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(mi)HM(/mi)?(mn)2(/mn)?(mo)|(/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo))(/mo)?(/mrow)?(mo)×(/mo)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo))(/mo)?(/mrow)?(/mrow)?(/mfrac)?(mo);(/mo)?(/mrow)?(/math)计算MT2类型中每个双字Di的出现概率(math)??(mrow)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo)|(/mo)?(mi)MT(/mi)?(mn)2(/mn)?(mo))(/mo)?(/mrow)?(mo)=(/mo)?(mfrac)?(mrow)?(mi)P(/mi)?(mrow)?(mo)((/mo)?(mi)MT(/mi)?(mn)2(/mn)?(mo)|(/mo)?(msub)?(mi)D(/mi)?(mi)i(/mi)?(/msub)?(mo))(/mo)?(/mro...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈运文马飞涛宋海涛
申请(专利权)人:盛乐信息技术上海有限公司
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1