当前位置: 首页 > 专利查询>王宏源专利>正文

在含有人名、地名的系统中使用Unicode含四字节超大字符集的检索方法技术方案

技术编号:2850976 阅读:958 留言:0更新日期:2012-04-11 18:40
本发明专利技术针对目前户证相关系统中对于含有四字节东亚字符处理的不足,公开了一种管理含有Unicode四字节超大字符集的户证系统数据的方法。具体涉及在诸如东亚地区的户籍、证照、帐户管理等含有人名、地名的系统中含有Unicode超大字符集字符文本或字符文本段中,采用分词的方式在搜索引擎内把每个四字节东亚字符当作一个“词”进行切分处理,同时也将每个二字节东亚字符当作一个“词”进行切分处理,并将这些单个的东亚字符加入索引表中并作为索引单元建立倒排索引;对其他字符,通过检索引擎常规的分词方式确定关键词,将关键词作为索引单元加入倒排索引。检索的时候对用户提交的查询句也进行同样的处理。

【技术实现步骤摘要】

本专利技术属于计算机
,具体涉及在诸如东亚地区的户籍、证照、帐户管理等含有人名、地名的系统中使用的一种管理含有Unicode超大字符集字符文本或字符文本段的方法。
技术介绍
Unicode的学名是″Universal Multiple-Octet Coded Character Set″,简称为UCS,国内或翻译成为统一码。随着现代计算机技术的发展,利用信息技术对含有东亚表意文字的人名、地名的系统(包括身份证、驾照等证照和各种帐号管理等,以下统称“证照系统”)的软件开发工作得到高度重视和快速发展。现有的计算机技术在使证照系统实现了数字化、网络化的同时,对生僻字处理的问题还没很好地解决,从而给证照系统的制作、管理和使用带来了极大的不便。例如在目前中国政府公民二代身份证的更换工作中就面临着文字字符集太小的这种为“名”所累的情况。计算机处理东亚文字传统的方式是采用二字节编码技术,即UCS-2。这种方法最多只能处理2万多个东亚文字,对诸如出现在《康熙字典》中的大量的生僻字无能为力。本世纪开始,人类的字符编码扩展到四个字节,编码空间也随之扩充为数十亿个码位。从2000年开始出现UCS-4编码的字符,国际统一码Unicode首先增加了一个B扩展区,共有42711个四字节东亚表意文字;支持这些文字的字符集,方正宋体超大东亚文字字符集,也在5年前出现,与微软的产品MS Office Word XP简体中文版(或以上版本)捆绑安装在中国大陆地区所使用的微机里面。生僻东亚文字主要出现在东亚各国古代典籍和档案资料中。据统计,在一般的古代典籍中生僻东亚文字占0.3%左右,其中采用四个字节的长编码东亚文字占0.1%。然而,在中国的人名、地名等专用名词中也是生僻东亚文字比较集中使用的领域。不仅是中国人取名字会使用到生僻东亚文字,就是有些姓氏本身也是四字节长编码的东亚文字。例如 (yà)姓,分布在安徽省涡阳县和辽宁省彰武县,现共有约2000人左右。系岳飞的直系后代,当年因为逃避秦桧的迫害,将“岳”字的构件“丘”和“山”上下颠倒,组成了 这一个新的姓氏。该字即采用UCS-4编码。面对东亚姓名中存在的生僻东亚文字的问题,过去的解决方法同东亚的文史界专家的方法一样,即采用造字的途径,或者仅仅采用超大字符集中的东亚文字进行证照的打印制作,而放弃对这些生僻东亚文字的通用平台上的检索管理。对户证系统的浩如烟海的大量数据来说,放弃对生僻东亚文字的检索,不仅会带来管理的漏洞,也可能使得特定人士有机可乘。如果仅仅采用关键字的检索方式对含有生僻东亚文字的户证内容进行管理的话,在海量数据面前也是无效的。
技术实现思路
本专利技术针对目前户证相关系统中对于四字节字符处理的不足,提供一种管理含有Unicode超大字符集的户证系统数据的方法。我们采用的是用分词的方式在搜索引擎内把每个四字节字当作一个“词”来处理,每一个四字节字都被切分成了一个词。建索引的时候对原文这样处理生成索引,检索的时候对查询句也这样处理。其步骤包括(1)在建立索引的时候,对人名和地名所对应的栏位或字段,首先在字符流中采用逐个字符查验的方法判断将要建立索引的字符是否为四字节东亚字符;(2)如是四字节东亚字符,将该单个的四字节字符加入索引表中并作为索引单元建立倒排索引;如是其他二字节东亚字符,将该单个的中文字符加入索引表中并作为索引单元建立倒排索引;对其他字符,通过检索引擎常规的分词方式确定关键词,将关键词作为索引单元加入倒排索引。(3)在查询的时候,首先在字符流中采用逐个字符查验的方法判断待查询的字符是否为四字节字符;(4)如是四字节字符,将该单个的四字节字符做为一个查询词;如是其他中文字符,将该单个的中文字符加入索引表中并作为索引单元建立倒排索引;对其他字符,通过检索引擎常规的分词方式确定关键词,将获得的关键词做为一个查询词;(5)将获得的所有查询词以逻辑“与”的方式连接组成查询条件,送入检索引擎。上述的索引建立和查询的方法,可以与我们在贵局申请的专利技术专利“对含四字节字符的文本进行全文检索的方法(专利申请号200510011824.X)”混合使用。本专利技术的技术效果通过上述方法,解决了对含有四字节的东亚文字中人名和地名的字符文本或字符文本段快速准确检索的问题。其中,本专利技术中所指的东亚文字,指的是Unicode里面取字在下列范围之内的编码所对应的文字 U+3400到 U+4DB5中日韩(CJK)统一表意文字扩展A;一U+4E00到龥U+9FA5中日韩(CJK)统一表意文字;豈U+F900到鶴U+FA2D中日韩(CJK)兼容表意文字; U+20000到 U+2A6D6中日韩(CJK)统一表意文字扩展B(四字节编码)。具体实施例方式东亚表意文字的基本结构是单个的字,每一个字都有各自独立的形、音、义,三者是相互统一而不可分离的。虽然相对于古代汉语而言,在现代表意文字中由表意文字所组成的词语的重要性日益凸现,但是在东亚地区中人名、地名等专有名词里面,单个表意文字的重要性还是要远远高于词语。基于这种认识,我们在检索系统中将每个Unicode四字节字符当作一个“词”来处理。又由于人名和地名检索的特殊性,我们进一步修改分词的方法,将每个中文字都分成一个词来进行处理,加入索引。例如有人叫“刘胜利”,则我们检索“刘利”就可以把“刘胜利”这样的结果也列出来备选。本专利技术是修改现有的索引和检索过程,加入对四字节东亚字符的特殊处理方法。具体详述如下首先,在建立索引的时候,对人名和地名所对应的栏位或字段,假设需要对字符流T1,T2,....,Tn建立索引(每个Ti为一个字节)。读取Ti,Ti+1,Ti+2,Ti+3,令W=TiTi+1Ti+2Ti+3。若W为四字节东亚字符,在索引表中加入索引词W及相应倒排索引,并令i=i+4;若W为其他二字节字符东亚字符,在索引表中加入索引词W及相应倒排索引,并令i=i+2;否则令W=TiTi+1,使用原有分词方法建立索引,并修改i的值至相应位置。重复上述过程,直到所有文字内容都已被处理完毕。在查询的时候,对检索字串进行预处理,进行分词,具体方法为假设检索字串为T1,T2,....,Tm,并设分词的结果为集合S={W1,W2,....,Wk},Wi为一个检索词。读取Ti,Ti+1,Ti+2,Ti+3,令W=TiTi+1Ti+2Ti+3。若W为四字节字符,令S=S∪{W},并令i=i+4;若W为其他二字节字符东亚字符,在索引表中加入索引词W及相应倒排索引,并令i=i+2;否则令W=TiTi+1,使用原有分词方法处理,将新词加入集合S,并修改i的值至相应位置;重复上述过程,直到所有Ti均处理完毕;将W1AND W2AND....AND Wk(这里的AND是逻辑“与”运算符)送入搜索引擎进行检索,得到的就是需要的结果。该方法主要针对含四字节东亚字符的人名、地名等文本和文本段建立索引和检索时采用。其可以与我们在贵局申请的专利技术专利“对含四字节字符的文本进行全文检索的方法(专利申请号200510011824.X)”针对含四字节东亚字符的不同文本和文本段混合使用。通过上述方法,本专利技术解决了对含有四字节的中文人名和地名的快速准确检索的问题。本文档来自技高网
...

【技术保护点】
本专利技术涉及一种在诸如户籍、证照、帐户管理等含有人名、地名的系统中含有Unicode四字节字符集字符文本或字符文本段中建立索引的方法,其特征在于:在字符流中采用分词的方式在搜索引擎内把每个四字节东亚字符当作一个“词”进行切分处理;。

【技术特征摘要】
1.本发明涉及一种在诸如户籍、证照、帐户管理等含有人名、地名的系统中含有Unicode四字节字符集字符文本或字符文本段中建立索引的方法,其特征在于在字符流中采用分词的方式在搜索引擎内把每个四字节东亚字符当作一个“词”进行切分处理;2.如在权利要求1所述的基于Unicode编码的建立索引的方法,其特征在于同时也将每个二字节东亚字符当作一个“词”进行切分处理;3.如在权利要求1,2所述的基于Unicode编码的跨库检索方法,其特征在于并权利要求1,2所述的单个的东亚字符加入索引表中并作为索引单元建立倒排索引;4.如在权利要求1,2,3中以外的其他字符,通过检索引擎常规的分词方式确定关键词,将关键词作为索引单元加入...

【专利技术属性】
技术研发人员:赵锋王宏源
申请(专利权)人:王宏源
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1