用于建立计算机文字信息的索引和进行检索的方法和系统技术方案

技术编号:2880296 阅读:169 留言:0更新日期:2012-04-11 18:40
一种建立文字信息索引和进行检索的方法和系统,其中按照作为检索对象的一组文献中所有字符的顺序确定每个字符在该组文献中的位置;将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块;将每个数据库块分为多个小块,每个小块包括多个字节的存储空间。基于这种索引结构进行检索。对于检索到的检索词位置,采用文献信息共享转换器确定检索词所在的文献。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机信息处理中信息的索引生成及检索,具体涉及建立计算机文字信息的索引和进行检索的方法和系统。在目前的计算机文字信息的全文检索中,有两种建立索引的方法字表法和词表法。字表法按文献中出现的字作为一个索引单位生成索引。这种方法占用的空间大。而词表法是将文献中出现的关键词作为一个索引单位来建立索引。这种方法虽然节省了空间,提高了查询速度,但索引生成的速度慢,漏查率较高。日本专利特许公开,特开平8-235212,特开平8-101848,特开平10-307841中公开了一种全文检索系统采用字表法生成索引,利用文件系统存储文献索引信息。它为字符集中的每个字符分别建立一个相应的文件,用来保存该字符在文献中出现的位置。为了节省字符位置数据的存储空间,在生成字符索引时,它将每个字符第一次出现的位置保存在该字符的索引文件中,并以第一次出现的位置为基础,采用差分算法把该字符在文献中第一次之后出现的位置与前一次出现的位置换算成差分序列(差分序列的定义请参见本文中的术语解释),顺序存放在第一次出现的位置后面。当进行全文检索时,用该字符保存在其索引文件中的第一次出现的位置以及它后面第一个的差分序列还原出第二次出现的位置,再由刚刚还原得到的该字符第二次出现的位置和它后面的一个差分序列还原得到第三次出现的位置,重复执行还原,直至找到检索词中该字符的匹配位置。对于一个频繁出现的字符,如“の”,当匹配一个位于较后的字符位置,就必须从该字符在文献中第一次出现的位置开始逐个还原该字符每次出现的位置直到要匹配的位置。比如一个字符在文献中一共出现了1千次,要得到该字符第999次出现的位置,需要从它的第1个差分序列开始执行998次还原才能获得第999次出现的位置。因此,该系统在把字符的差分序列还原成文献中的位置时花费的时间比较长。随着计算机网络技术突飞猛进的发展,现有全文检索系统已不能满足操作者对数据检索不断增长的需求。因此本专利技术的目的是提供一种新的建立计算机文字信息的索引和进行检索的方法和系统,对字符信息进行索引建立,支持海量数据的高速存贮及查询,多用户可共享数据。本专利技术的目的是提供一种建立文献索引方法。它能缩小索引文件占据的空间,同时又能保证以较高的速度进行全文检索。本专利技术的第二目的是提供一种利用上述索引进行全文检索的方法。本专利技术的第三目的是提供一种通过指定的字符位置快速获得大量文献中与该字符位置相对应的文献信息的方法。为了达到上述目的,专利技术人开发出了一种新的文字信息全文登录、检索方法和系统。它采用Client/Server方式设计而成,利用SQL Server关系数据库的特性,建立字符信息索引,能够存储海量数据,提高了数据的共享性、一致性、安全性,使互联网和内部网上的Web服务器具有大容量、高速全文信息检索功能,实现信息资源的全球共享。本专利技术提供了一种建立文字信息的索引的方法,包括下述步骤,在作为检索对象的一组文献中,按照所有文献中所有字符的顺序确定每个字符在该组文献中的位置;将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块,并且获得每个数据库块的中存储的最大位置和最小位置;将每个数据库块分为多个小块,每个小块包括多个字节的存储空间,并且获得每个小块中存储的最小位置。本专利技术还提供了一种基于根据上述方法建立文字信息的索引,对文字信息进行检索的方法,包括以下步骤,获得检索词中每个字符的相对位置关系,用于检索检索词中每个字符的索引;分别判断该字符的每个数据库块中是否可能存在符合上述相对位置关系的位置;在可能存在符合上述相对位置关系的位置的数据库块中,分别判断其中每个小块是否可能存在符合上述相对位置关系的位置;在可能存在符合上述相对位置关系的位置的小块中,判断每个位置是否符合上述相对位置关系。本专利技术还提供了一种建立文字信息索引和进行检索的方法,其特征在于建立文献信息共享转换器,该文献信息共享转换器开辟一块共享内存,把数据库中存储的作为检索对象的一组文献的文献信息的一部分字段缓存在共享内存中备份;在进行全文检索时,直接从共享内存中得到有关的文献信息。本专利技术还提供了一种建立文字信息索引和进行检索的系统,包括索引生成装置,该装置按照作为检索对象的一组文献中所有字符的顺序确定每个字符在该组文献中的位置;将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块,并且获得每个数据库块的中存储的最大位置和最小位置;将每个数据库块分为多个小块,每个小块包括多个字节的存储空间,并且获得每个小块中存储的最小位置;全文检索装置,该装置获得检索词中每个字符的相对位置关系,用于检索检索词中每个字符的索引;分别判断该字符的每个数据库块中是否可能存在符合上述相对位置关系的位置;在可能存在符合上述相对位置关系的位置的数据库块中,分别判断其中每个小块是否可能存在符合上述相对位置关系的位置;在可能存在符合上述相对位置关系的位置的小块中,判断每个位置是否符合上述相对位置关系;存储装置,用于存储文献,以及文献索引信息。本专利技术还提供了一种建立文字信息索引和进行检索的系统,其特征在于包括一个文献信息共享转换装置,该文献信息共享转换装置开辟一块共享内存,把数据库中存储的一组文献的文献信息在共享内存中备份;在进行全文检索时,直接从共享内存中得到有关文献的信息。术语解释本说明书在后面涉及数据库结构时,专利技术人使用了一些数据库的常用术语,例如表、记录和字段。表是数据库的结构组成部分,一个表包含多条记录,一条记录可以包含多个字段。本说明书的后面将会提到以下几个专用术语,在此先加以解释。文档类按照文献的内容不同、作者不同、发表的时间不同或登录的操作者不同、登录的主机不同等各种因素,可以将登录的文献划分成多个文档类。每个文档类中可以包括多个文献。文献文章、小说、新闻报道、专利说明书等文件。字符本说明书中所提到的字符是指文献中的文字(包括单、双字节文字,如西文字母,中、日文汉字,异体字、日文平假名,日文片假名)、标点符号、数字、特殊字符和制表符等单个字符。字符的内部编码由于不同操作系统使用的双字节文字的代码标准不同,如WINDOW平台上的日文代码标准是Shift_JIS(Macintosh和DOS-V上的8位日语编码标准),UNIX平台上的日文代码标准是EUC(Extended Unix Code)。为了使来自各个不同平台的文献都能登录到本系统中,专利技术人使用字符内部编码方法,将同一个字符的不同标准的代码例如JIS(Japanese Industrial Standard)、Shift_JIS(Macintosh和DOS-V上的8位日语编码标准)或EUC(ExtendedUnix Code)转换成与之对应的唯一的内部编码。字符位置登录文献时,按其所属文档类中文献登录的先后顺序和文献里字符出现的先后顺序,为一文档类的文献里出现的每个字符分配一个在该文档类中的绝对位置。如,一文档类中第一个字符的位置为1,以后每个字符的位置一次为2,3…。差分序列在同一文档类中,对于一个字符本次出现的字符位置与该字符前一次出现的字符位置,利用差分算法,计算得到该字符的字符位置差分值。差分算法在同一文档类中,将一个字符本次出现的位置与该字符前一次在该文档类中出现的位置的本文档来自技高网...

【技术保护点】
一种建立文字信息的索引的方法,其特征在于包括下述步骤:在作为检索对象的一组文献中,按照所有文献中所有字符的顺序确定每个字符在该组文献中的位置;将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块,并且获得每个数据库块 的中存储的最大位置和最小位置;将每个数据库块分为多个小块,每个小块包括多个字节的存储空间,并且获得每个小块中存储的最小位置。

【技术特征摘要】

【专利技术属性】
技术研发人员:秦勇李红
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1