全文检索中倒排索引及其追加数据的保存方法及存储装置制造方法及图纸

技术编号：8533130 阅读：204 留言：0更新日期：2013-04-04 16:19

本发明专利技术提供了一种全文检索系统中的高效保存倒排索引的方法，包括：检测索引单元数据长度是否大于阀值K;如果索引单元数据大于n*K且小于（n+1）*K（n为自然数）,将索引单元数据从开始部分至n*K的部分存入索引单元数据数据块,将剩余索引单元数据存入B树中；如果索引单元数据等于n*K，将索引单元数据从开始部分至n*K的部分存入索引单元数据数据块；如果索引单元数据小于K，将索引单元数据全部存入B树中。本发明专利技术的有益效果是能够有效的提高倒排文档的全文索引的存储效率，提高了数据读取速率,能够方便实现写时复制（Copy?On?Write）机制，进而提高了数据安全性和读取数据的并发指标。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据存储领域，尤其是涉及一种在全文检索中倒排索引及其追加数据的保存方法及存储装置
技术介绍
在关系数据库系统里，全文索引是检索文档数据最有效率的方式之一，在当前的网络环境下，信息量和用户量都成爆炸性的增长，全文索引成为信息检索系统的主要手段之一，倒排索引是全文检索系统的核心部分，其存储结构对全文检索系统性能也有很大的影响。倒排索引(英语Inverted index)，也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。全文索引倒排文档数据是由Term ID对应的一组文档编号和在文档中的偏移组成，其表现形式为Term ID—> {〈doc ID, {offset}},其中Term ID是断词器划分的最小索引单元，在中文全文检索中一般为字、词、英文、数字串和几种形式的组合，具有以下特点1.不同Term对应倒排数据长度相差很大，常见的字如“的”、“地”等字符往往出现频率相当的高，也有仅出现一次的特殊字符串。2.全文索引中词汇量巨大，往往一个全文检索库会拥有千万个词汇，每一个词汇都作为一个检索单元，会占用大量的存储空间全文索引倒排数据的存储一般有两种一、采用经验数据把已知词典按词频划分为中、高、低几档的方式，每档词频采用不同的数据块大小存储，存储高频词的每块数据较大，反之最低频率块最小。这种方式的好处是磁盘浪费较少，读取效率有保障，缺点是一旦实际数据与经验数据不符或者出现新的...

【技术保护点】
一种在全文检索系统中的高效保存倒排索引的方法，包括：1）比较索引单元数据长度和预设的阀值K的大小关系；如果索引单元数据长度小于K，将索引单元数据全部存入B树中;2）如果索引单元数据长度小于K，将索引单元数据全部存入B树中;3）如果索引单元数据长度等于K，将索引单元数据从开始部分至K的部分存入索引单元数据数据块；4)如果大于K，则比较索引单元数据长度和n*K（n=2,3,……）的大小关系，并按照下列方式进行存储：1.如果索引单元数据长度大于（n?1）*K且小于n*K,将索引单元数据从开始部分至n*K部分存入索引单元数据块，将剩余部分存入B树中；2.如果索引单元数据长度等于n*K,将所有索引单元数据按次序存入索引单元数据块。

【技术特征摘要】
1. 一种在全文检索系统中的高效保存倒排索引的方法，包括1)比较索引单元数据长度和预设的阀值K的大小关系；如果索引单元数据长度小于K，将索引单元数据全部存入B树中；2)如果索引单元数据长度小于K，将索引单元数据全部存入B树中；3)如果索引单元数据长度等于K，将索引单元数据从开始部分至K的部分存入索引单元数据数据块；4)如果大于K，则比较索引单元数据长度和η*Κ(η=2, 3,……)的大小关系，并按照下列方式进行存储1.如果索引单元数据长度大于(η-1)*Κ且小于η*Κ，将索引单元数据从开始部分至 η*Κ部分存入索引单元数据块，将剩余部分存入B树中；2.如果索引单元数据长度等于η*Κ，将所有索引单元数据按次序存入索引单元数据块。2.根据权利要求1所述的高效保存索引的方法，其特征在于所述的B树为B+树的一种变形，所述的B+树的一种变形为去掉叶子节点中保存的指向兄弟节点的指针的B+树。3.一种根据权利要求1所述高效保存索引方法的存储装置，包括存储数据块单元，用来存储固定长度的整数倍的索...

【专利技术属性】
技术研发人员：张学，范振勇，崔维力，武新，赵伟，
申请(专利权)人：天津南大通用数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人