【技术实现步骤摘要】
本专利技术涉及信息检索与数据压缩
,具体涉及ー种基于扩展查询似然模型的动态后继树索弓I裁剪方法。
技术介绍
随着以社交网络为代表的Web 2. O时代的到来,每时每刻都有大量文本数据被生产出来,对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时,为支持更加丰富而多样化的查询检索功能,存储在索引文件中的信息类型和数量也较以前有大量的増加,这无疑进ー步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间,更 使得查询时访问索引文件时间开销过大,磁盘I/o的过于频繁与缓慢的磁盘访问速度,已经成为影响效率提升的重大瓶颈之一。此外,新应用场景的出现,如移动终端检索(searchin mobile devices)、个人电脑桌面搜索(desktop search)、P2P 检索(Peer to Peersearch)等,对信息检索系统的各项性能提出了更严格的要求,迫使现代信息检索系统必须重新考虑下列问题哪一部分索引数据应该被存储于索引文件之中。目前降低索引文件大小的最常见方法是使用数据压缩技术,数据压缩技术一般存在两种类型无损压缩和有损压縮。无损压缩 ...
【技术保护点】
一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:该方法依次包括以下步骤:(1)针对动态后继树索引结构,创建完整的动态后继树索引;(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;(3)利用重要性评分公式:?,其中:是二元词项在文档中的出现次数,是二元词项在文档集中的出现次数,是文档集的长度,为文档的长度,为平滑因子;计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行排序;(4)输入裁剪参数、,让裁剪参数依次分别和索引中与一篇文档关联的所有树叶信息的个数进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二 ...
【技术特征摘要】
1.一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于该方法依次包括以下步骤 (1)针对动态后继树索引结构,创建完整的动态后继树索引; (2)依次遍历索引中每ー篇文档包含的不同ニ元词项,提取索引统计信息; (3)利用重要性评分公式2.根据权利要求I所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于所述的ニ元词项由树根词项和与树根词项直接关联的树叶词项组成的整体。3.根据权利要求I所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于所述的索引统计信息包括ニ元词项在每ー篇文档中出现的次数、含有某一个ニ元词项的文档数目、ニ元词项在文档集中总的出现次数、每ー篇文档...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。