在含有人名、地名的系统中使用Unicode含四字节超大字符集的检索方法技术方案

技术编号：2850976 阅读：958 留言：0更新日期：2012-04-11 18:40

本发明专利技术针对目前户证相关系统中对于含有四字节东亚字符处理的不足，公开了一种管理含有Ｕｎｉｃｏｄｅ四字节超大字符集的户证系统数据的方法。具体涉及在诸如东亚地区的户籍、证照、帐户管理等含有人名、地名的系统中含有Ｕｎｉｃｏｄｅ超大字符集字符文本或字符文本段中，采用分词的方式在搜索引擎内把每个四字节东亚字符当作一个“词”进行切分处理，同时也将每个二字节东亚字符当作一个“词”进行切分处理，并将这些单个的东亚字符加入索引表中并作为索引单元建立倒排索引；对其他字符，通过检索引擎常规的分词方式确定关键词，将关键词作为索引单元加入倒排索引。检索的时候对用户提交的查询句也进行同样的处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机
，具体涉及在诸如东亚地区的户籍、证照、帐户管理等含有人名、地名的系统中使用的一种管理含有Unicode超大字符集字符文本或字符文本段的方法。
技术介绍
Unicode的学名是″Universal Multiple-Octet Coded Character Set″，简称为UCS，国内或翻译成为统一码。随着现代计算机技术的发展，利用信息技术对含有东亚表意文字的人名、地名的系统(包括身份证、驾照等证照和各种帐号管理等，以下统称“证照系统”)的软件开发工作得到高度重视和快速发展。现有的计算机技术在使证照系统实现了数字化、网络化的同时，对生僻字处理的问题还没很好地解决，从而给证照系统的制作、管理和使用带来了极大的不便。例如在目前中国政府公民二代身份证的更换工作中就面临着文字字符集太小的这种为“名”所累的情况。计算机处理东亚文字传统的方式是采用二字节编码技术，即UCS-2。这种方法最多只能处理2万多个东亚文字，对诸如出现在《康熙字典》中的大量的生僻字无能为力。本世纪开始，人类的字符编码扩展到四个字节，编码空间也随之扩充为数十亿个码位。从2000年开始出现UCS-4编码的字符，国际统一码Unicode首先增加了一个B扩展区，共有42711个四字节东亚表意文字；支持这些文字的字符集，方正宋体超大东亚文字字符集，也在5年前出现，与微软的产品MS Office Word XP简体中文版(或以上版本)捆绑安装在中国大陆地区所使用的微机里面。生僻东亚文字主要出现在东亚各国古代典籍和档案资料中。据统计，在一般的古代典籍中生僻东亚文字占0.3％左右...

【技术保护点】
本专利技术涉及一种在诸如户籍、证照、帐户管理等含有人名、地名的系统中含有Ｕｎｉｃｏｄｅ四字节字符集字符文本或字符文本段中建立索引的方法，其特征在于：在字符流中采用分词的方式在搜索引擎内把每个四字节东亚字符当作一个“词”进行切分处理；。

【技术特征摘要】
1.本发明涉及一种在诸如户籍、证照、帐户管理等含有人名、地名的系统中含有Unicode四字节字符集字符文本或字符文本段中建立索引的方法，其特征在于在字符流中采用分词的方式在搜索引擎内把每个四字节东亚字符当作一个“词”进行切分处理；2.如在权利要求1所述的基于Unicode编码的建立索引的方法，其特征在于同时也将每个二字节东亚字符当作一个“词”进行切分处理；3.如在权利要求1，2所述的基于Unicode编码的跨库检索方法，其特征在于并权利要求1，2所述的单个的东亚字符加入索引表中并作为索引单元建立倒排索引；4.如在权利要求1，2，3中以外的其他字符，通过检索引擎常规的分词方式确定关键词，将关键词作为索引单元加入...

【专利技术属性】
技术研发人员：赵锋，王宏源，
申请(专利权)人：王宏源，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人