计算机在中文数据中识别中文姓名的方法技术

技术编号：2882284 阅读：255 留言：0更新日期：2012-04-11 18:40

一种中文姓名的计算机识别及检索方法，包括用于计算机检索的数据源，该方法的步骤包括从所述的数据源中随机选取学习数据源，根据姓名识别规则库的内容对分析的数据源进行姓名识别，再创建索引，提供检索结果。姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。本发明专利技术能够有效地从被检索对象中快捷地识别中文姓名，获得较高的识别准确性，而且能够通过相关度的调整、排序，获得更准确的高质量检索结果。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种。随着计算机技术的普及、网络应用的延伸，人们的日常工作和生活对于信息资源的利用越来越离不开计算机检索。而无论是对各类信息中心的资料查询，还是对数据仓库、网络、数字图书馆等各种电子化信息资料源进行相关信息资料检索，以姓名为途径或目的的检索都占有很大的比重。例如，根据对网络用户检索日志的统计，大约5％的检索属于姓名搜索。但是，现有的检索方法都不能很好地支持对中文姓名的检索。实际中常常遇到的情况是当输入“刘建”期望查找一位名叫“刘建”的先生时，得到的却是有关“刘建国”、“刘建军”等人的资料。这是因为目前的中文姓名检索大都采用英文搜索引擎的核心技术，没有根据中文语言的特点进行相应处理。中文与英文相比有很多不同的特点。其中最大的特点是英文有天然的分割符(空格或符号)将语言中的最小语义单位词汇间隔开来，使得计算机可以轻易识别；而中文是连续书写，没有这种天然的分割符。人名是一种非常重要的特殊词汇，只有在中文语句中识别出人名，才能正确理解与人有关的信息，从而进行正确的检索等操作。传统的中文姓名识别是通过以下两种技术实现1、中文双字识别法这种方法直接将连续的包含N个汉字的中文句子机械的切分为N-1个双字，形成N-1个“词汇”。例如“刘建国教授”＝“刘建”+“建国”+“国教”+“教授”在使用这种技术的系统中，当你检索“刘建”时，上述的这段文字便会被错误地检出。2、中文切词识别法这种方法采用一个配置好的电子版中文词典，通过将待分析的文字和词典进行一定形式的匹配，辅以其它技术(如词频统计、语法处理)实现对中文的分析处理。这种技术主要依赖分析使用的词典。一个...

【技术保护点】
一种中文姓名的计算机识别及检索方法，包括用于计算机检索的数据源，其特征在于：该方法的步骤包括从所述的数据源中随机选取学习数据源，根据姓名识别规则库的内容对分析的数据源进行姓名识别，再创建索引，提供检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：崔珊珊，雷鸣，刘建国，李彦宏，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人