用于建立计算机文字信息的索引和进行检索的方法和系统技术方案

技术编号：2880296 阅读：169 留言：0更新日期：2012-04-11 18:40

一种建立文字信息索引和进行检索的方法和系统，其中按照作为检索对象的一组文献中所有字符的顺序确定每个字符在该组文献中的位置；将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块；将每个数据库块分为多个小块，每个小块包括多个字节的存储空间。基于这种索引结构进行检索。对于检索到的检索词位置，采用文献信息共享转换器确定检索词所在的文献。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息处理中信息的索引生成及检索，具体涉及建立计算机文字信息的索引和进行检索的方法和系统。在目前的计算机文字信息的全文检索中，有两种建立索引的方法字表法和词表法。字表法按文献中出现的字作为一个索引单位生成索引。这种方法占用的空间大。而词表法是将文献中出现的关键词作为一个索引单位来建立索引。这种方法虽然节省了空间，提高了查询速度，但索引生成的速度慢，漏查率较高。日本专利特许公开，特开平8-235212，特开平8-101848，特开平10-307841中公开了一种全文检索系统采用字表法生成索引，利用文件系统存储文献索引信息。它为字符集中的每个字符分别建立一个相应的文件，用来保存该字符在文献中出现的位置。为了节省字符位置数据的存储空间，在生成字符索引时，它将每个字符第一次出现的位置保存在该字符的索引文件中，并以第一次出现的位置为基础，采用差分算法把该字符在文献中第一次之后出现的位置与前一次出现的位置换算成差分序列(差分序列的定义请参见本文中的术语解释)，顺序存放在第一次出现的位置后面。当进行全文检索时，用该字符保存在其索引文件中的第一次出现的位置以及它后面第一个的差分序列还原出第二次出现的位置，再由刚刚还原得到的该字符第二次出现的位置和它后面的一个差分序列还原得到第三次出现的位置，重复执行还原，直至找到检索词中该字符的匹配位置。对于一个频繁出现的字符，如“の”，当匹配一个位于较后的字符位置，就必须从该字符在文献中第一次出现的位置开始逐个还原该字符每次出现的位置直到要匹配的位置。比如一个字符在文献中一共出现了1千次，要得到该字符第999次出...

【技术保护点】
一种建立文字信息的索引的方法，其特征在于包括下述步骤：在作为检索对象的一组文献中，按照所有文献中所有字符的顺序确定每个字符在该组文献中的位置；将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块，并且获得每个数据库块的中存储的最大位置和最小位置；将每个数据库块分为多个小块，每个小块包括多个字节的存储空间，并且获得每个小块中存储的最小位置。

【技术特征摘要】

【专利技术属性】
技术研发人员：秦勇，李红，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人