当前位置: 首页 > 专利查询>王宏源专利>正文

含有四字节编码字符的桌面文本管理的检索方法及系统技术方案

技术编号:2851424 阅读:380 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种处理四字节文本的桌面管理检索系统。拥有建立索引库、全文浏览和全文查询的功能。该方法包括:建立索引时,原始数据通过建立索引模块以添加的方式进入数据库;浏览时,用户控制模块直接从数据库中按一定的顺序读取数据,并返回给界面显示模块显示其全文内容;查询时,全文检索模块根据查询内容访问数据库,并把查询结果返回给界面显示模块显示。本发明专利技术解决了生僻汉字的数字化的难题,使得包含大量四字节汉字的内容也可以像普通文本一样进行浏览和查询。由于采用了对包含四字节字符内容的自然语言切分技术,使得本发明专利技术在四字节和二字节内容的查询和浏览上都有优秀的表现。

【技术实现步骤摘要】

本专利技术属于计算机
,具体涉及一种对含四字节Unicode编码字符的文本的计算机桌面管理检索系统。
技术介绍
Unicode的学名是″Universal Multiple-Octet Coded Character Set″,简称为UCS。UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码,是由UTF(UCSTransformation Format)规范规定的,常见的UTF规范包括UTF-8、UTF-7、UTF-16。UCS有两种格式UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,因此可以管理的字符量为215,其中分配给东亚文字的约22000个;UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码,因此可以管理的字符量为231,其中已经被编码的中文生僻字有大约7万左右。目前UCS-4中仍然有大量的编码段没有被使用,但是毫无疑问,它在将来可以毫无困难的管理世界上所有语言的文字。随着图书馆数字化的进程不断推进,大量的古籍文献也需要进行整理和加工。由于这些文献中存在大量的生僻汉字,远远超出了UCS-2所能管理的汉字数目,这就必须要采用UCS本文档来自技高网...

【技术保护点】
一种处理包含四字节Unicode文本的桌面管理检索系统,包括用户界面模块和查询引擎,用户界面模块和查询引擎之间链接一控制模块。系统拥有建立索引库、全文浏览和全文查询的功能。具体包括:    在建立索引时,首先对原始数据进行分析处理,将每个四字节字作为索引单元加入倒排索引;对于二字节字通过检索引擎常规的分词方式确定关键词并加入倒排索引。    用户浏览时,按一定的顺序从数据库中读取数据,并进行显示。    用户查询时,对用户输入的内容进行切词操作,得到切分后的关键词并进行搜索。对查询后的结果进行显示。

【技术特征摘要】
1.一种处理包含四字节Unicode文本的桌面管理检索系统,包括用户界面模块和查询引擎,用户界面模块和查询引擎之间链接一控制模块。系统拥有建立索引库、全文浏览和全文查询的功能。具体包括在建立索引时,首先对原始数据进行分析处理,将每个四字节字作为索引单元加入倒排索引;对于二字节字通过检索引擎常规的分词方式确定关键词并加入倒排索引。用户浏览时,按一定的顺序从数据库中读取数据,并进行显示。用户查询时,对用户输入的内容进行切词操作,得到切分后的关键词并进行搜索。对查询后的结果进行显示。2.如权利要求1所述的包含四字节Unicode文本的桌面管理检索系统,其特征在于对用户界面模块传输来的以及查询引擎模块返回结果数据中的四字节字符统一采用Unicode编码代理对格式,即用两个保留的UTF-16表示一个四字节字符。3.如权利要求1所述的包含四字节Unicode文本的...

【专利技术属性】
技术研发人员:钱则侃王宏源赵锋
申请(专利权)人:王宏源
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1