当前位置: 首页 > 专利查询>广西大学专利>正文

基于扩展查询似然模型的动态后继树索引裁剪方法技术

技术编号:8131132 阅读:320 留言:0更新日期:2012-12-27 03:22
本发明专利技术公开了一种基于扩展查询似然模型的动态后继树索引裁剪方法,该方法依次包括以下步骤:(1)针对动态后继树索引结构,首先创建完整的动态后继树索引;(2)然后依次遍历索引中每一篇文档包含的不同二元词项,提取索引的统计信息;(3)计算这些二元词项在其当前出现文档中的相对重要性评分;(4)输入裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;(5)形成裁剪后的动态后继树索引。本方法通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。

【技术实现步骤摘要】

本专利技术涉及信息检索与数据压缩
,具体涉及ー种基于扩展查询似然模型的动态后继树索弓I裁剪方法。
技术介绍
随着以社交网络为代表的Web 2. O时代的到来,每时每刻都有大量文本数据被生产出来,对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时,为支持更加丰富而多样化的查询检索功能,存储在索引文件中的信息类型和数量也较以前有大量的増加,这无疑进ー步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间,更 使得查询时访问索引文件时间开销过大,磁盘I/o的过于频繁与缓慢的磁盘访问速度,已经成为影响效率提升的重大瓶颈之一。此外,新应用场景的出现,如移动终端检索(searchin mobile devices)、个人电脑桌面搜索(desktop search)、P2P 检索(Peer to Peersearch)等,对信息检索系统的各项性能提出了更严格的要求,迫使现代信息检索系统必须重新考虑下列问题哪一部分索引数据应该被存储于索引文件之中。目前降低索引文件大小的最常见方法是使用数据压缩技术,数据压缩技术一般存在两种类型无损压缩和有损压縮。无损压缩采用高效的数据编码方本文档来自技高网...

【技术保护点】
一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:该方法依次包括以下步骤:(1)针对动态后继树索引结构,创建完整的动态后继树索引;(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;(3)利用重要性评分公式:?,其中:是二元词项在文档中的出现次数,是二元词项在文档集中的出现次数,是文档集的长度,为文档的长度,为平滑因子;计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行排序;(4)输入裁剪参数、,让裁剪参数依次分别和索引中与一篇文档关联的所有树叶信息的个数进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信...

【技术特征摘要】
1.一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于该方法依次包括以下步骤 (1)针对动态后继树索引结构,创建完整的动态后继树索引; (2)依次遍历索引中每ー篇文档包含的不同ニ元词项,提取索引统计信息; (3)利用重要性评分公式2.根据权利要求I所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于所述的ニ元词项由树根词项和与树根词项直接关联的树叶词项组成的整体。3.根据权利要求I所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于所述的索引统计信息包括ニ元词项在每ー篇文档中出现的次数、含有某一个ニ元词项的文档数目、ニ元词项在文档集中总的出现次数、每ー篇文档...

【专利技术属性】
技术研发人员:霍林邹先泽
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1