计算机在中文数据中识别中文姓名的方法技术

技术编号:2882284 阅读:255 留言:0更新日期:2012-04-11 18:40
一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。本发明专利技术能够有效地从被检索对象中快捷地识别中文姓名,获得较高的识别准确性,而且能够通过相关度的调整、排序,获得更准确的高质量检索结果。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种。随着计算机技术的普及、网络应用的延伸,人们的日常工作和生活对于信息资源的利用越来越离不开计算机检索。而无论是对各类信息中心的资料查询,还是对数据仓库、网络、数字图书馆等各种电子化信息资料源进行相关信息资料检索,以姓名为途径或目的的检索都占有很大的比重。例如,根据对网络用户检索日志的统计,大约5%的检索属于姓名搜索。但是,现有的检索方法都不能很好地支持对中文姓名的检索。实际中常常遇到的情况是当输入“刘建”期望查找一位名叫“刘建”的先生时,得到的却是有关“刘建国”、“刘建军”等人的资料。这是因为目前的中文姓名检索大都采用英文搜索引擎的核心技术,没有根据中文语言的特点进行相应处理。中文与英文相比有很多不同的特点。其中最大的特点是英文有天然的分割符(空格或符号)将语言中的最小语义单位词汇间隔开来,使得计算机可以轻易识别;而中文是连续书写,没有这种天然的分割符。人名是一种非常重要的特殊词汇,只有在中文语句中识别出人名,才能正确理解与人有关的信息,从而进行正确的检索等操作。传统的中文姓名识别是通过以下两种技术实现1、中文双字识别法这种方法直接将连续的包含N个汉字的中文句子机械的切分为N-1个双字,形成N-1个“词汇”。例如“刘建国教授”=“刘建”+“建国”+“国教”+“教授”在使用这种技术的系统中,当你检索“刘建”时,上述的这段文字便会被错误地检出。2、中文切词识别法这种方法采用一个配置好的电子版中文词典,通过将待分析的文字和词典进行一定形式的匹配,辅以其它技术(如词频统计、语法处理)实现对中文的分析处理。这种技术主要依赖分析使用的词典。一个大而全的词典会大大提高实现分词的准确率。但是这种技术不能够对人名进行有效的处理,因为中文人名千差万别,不可能都配置到词典中。对于没有配置在词典中的名字,词汇切分的准确率非常低。仍以上面的例句为例,如果一个词典中加入了“刘建国”这个词汇,检索“刘建国教授”时,分词结果应为“刘建国教授”=“刘建国”+“教授”如果没有配置这个词汇,而“建国”和“教授”被配成了词汇,则分词结果为“刘建国教授”=“刘”+“建国”+“教授”因此当检索“刘建”时,不会检出这段文字;但是当不期望检索“建国”时,这个结果又会反馈出来。计算机检索系统处理的对象往往是数量非常大的信息,例如搜索引擎处理的对象是数以千万计或亿计的网页信息。用户使用搜索引擎时,往往不是检索不到结果,而是检索得到的结果特别多,但与用户检索最相关的网页却没有被排在前面。这就是搜索引擎的相关度问题。在检索人名时,使用中并不是完全不能容忍上例中的相关度较低的检索结果,但是如果有更相关的文档时,它应能排在最前面。例如,检索“刘建”时,应该能够把有关“刘建”先生的文档放在最前面,而把有关“刘建国”先生的文档放在较后面的位置。显然,当一个检索不能够有效地识别中文姓名时,它也无法通过相关度的调整来达到用户期望的中文姓名检索效果,从而降低了检索的准确性。本专利技术的主要目的在于针对现有技术之不足而提供一种,它能够有效地从被检索对象中识别中文姓名,获得较高的识别准确性。本专利技术的再一目的在于提供一种,它能够快捷地识别出文件中的中文姓名。本专利技术的又一目的在于提供一种,它不仅能够有效地识别中文姓名,而且能够通过相关度的调整、排序,获得更准确的高质量检索结果。本专利技术的目的是这样实现的一种,包括用于计算机检索的数据源,该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。所述的姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。所述的学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。所述的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。所述的纯姓氏包括单字姓氏和多字姓氏。所述的混姓氏包括单字姓氏和多字姓氏。所述的电子版高频词词典是先利用电子版中文词典对学习数据源进行分析、统计,再按照统计的结果,对词典中的词汇出现的频率从高到低排序,高于预定阈值的词汇认为是高频词汇,若干高频词汇组成高频词词典。所述的姓名前、后的高频单字文件为从学习数据源中选取适当的部分进行姓氏前、后高频单字统计,再按照统计的结果,对单字出现的频率从高到低排序,高于预定阈值的设定为姓氏前、后的高频单字,若干高频单字组成高频单字文件。所述的姓名识别包括如下步骤a、首先,在一段连续的中文之中查找出姓氏字;b、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏;是,则定其为姓氏字;c、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏字;不是,则判断该字的前一个字是否为高频字,是,则该字为混姓氏字;不是,则回到a;d、如果是姓氏字,在高频单字文件中查找、判别该姓氏字之后第2个字是否为高频字;如果是高频字,则该高频字前面第一个字为跟随该姓氏字后的单字名;否则;e、判别该姓氏后第3个字是否为高频字,如果是高频字,则该高频字前面两个字为跟随该姓氏字后的双字名;否则;f、在高频词词典中查找、判别该姓氏字后第1个字之后的两个字是否为高频词;如果是高频词,则该高频词前面第一个字为跟随该姓氏字后的单字名;g、否则,该姓氏字后的两个字为跟随该姓氏字后的双字名。所述的姓名识别步骤还包括在上述a、b步骤之间,直接在姓名词典中查找、判断是否为姓名词典中已有的姓名,如果是,则识别出姓名;如果不是,则进行第b步骤。所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。所述的姓名词典是从检索学习数据源进行臻选、过滤,获得姓名词汇,高于预定阈值的姓名词汇为高频姓名,而组成的高频姓名的集合。在所述的姓名识别步骤后、创建索引前,可对识别出的姓名进行权值调整。所述的权值调整步骤为对于每个识别出的姓名在文件中的权值乘以一个系数,将姓名的权值扩大为原有权值的若干倍;对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字,将这些双字在数据来源中的权值除以一个系数,将其权值减小为现有姓名权值的若干倍。本专利技术完全不同于现有技术中的,它在充分分析中文语言的表达特点和中文姓名使用规律的基础上,提供了独特的中文姓名识别技术,不仅能够有效地检索出中文姓名,而且配合通过权值升降处理技术提高了中文姓名检索的质量。本专利技术适用于各种计算机环境的中文处理领域(如信息检索、数字图书馆、数据挖掘、数据仓库等),具有较强的普及适应性,而尤其在中文搜索引擎中,其效果更为明显。再有,本专利技术方法通用于任何汉字编码集上,如GB2312、GBK、BIG5。下面结合附图和具体实施方案对本专利技术做进一步的详细说明。附图说明图1为本专利技术一种实施例检索系统构成示意图;图2为本专利技术检索方法流程图;图3为本专利技术利用了高频姓名字典的检索流程图;图4为本专利技术姓名权值处理流程图。检索的开始就对一定数量的待分析数据的统计学习,提取出待分析数据的特征。根据这种特征,加之以相应算法的配合,实现对待分析数据的高质量的分析处理。参见图1,本专利技术为一种,包括一用于计算机检索的数据源,该方法的步骤包括从数据源中随机配置的学习数据源,即该学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。例如,搜索引擎通过机器人程序从WWW获本文档来自技高网...

【技术保护点】
一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,其特征在于:该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:崔珊珊雷鸣刘建国李彦宏
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1