当前位置: 首页 > 专利查询>广西大学专利>正文

基于扩展查询似然模型的动态后继树索引裁剪方法技术

技术编号:8131132 阅读:316 留言:0更新日期:2012-12-27 03:22
本发明专利技术公开了一种基于扩展查询似然模型的动态后继树索引裁剪方法,该方法依次包括以下步骤:(1)针对动态后继树索引结构,首先创建完整的动态后继树索引;(2)然后依次遍历索引中每一篇文档包含的不同二元词项,提取索引的统计信息;(3)计算这些二元词项在其当前出现文档中的相对重要性评分;(4)输入裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;(5)形成裁剪后的动态后继树索引。本方法通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。

【技术实现步骤摘要】

本专利技术涉及信息检索与数据压缩
,具体涉及ー种基于扩展查询似然模型的动态后继树索弓I裁剪方法。
技术介绍
随着以社交网络为代表的Web 2. O时代的到来,每时每刻都有大量文本数据被生产出来,对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时,为支持更加丰富而多样化的查询检索功能,存储在索引文件中的信息类型和数量也较以前有大量的増加,这无疑进ー步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间,更 使得查询时访问索引文件时间开销过大,磁盘I/o的过于频繁与缓慢的磁盘访问速度,已经成为影响效率提升的重大瓶颈之一。此外,新应用场景的出现,如移动终端检索(searchin mobile devices)、个人电脑桌面搜索(desktop search)、P2P 检索(Peer to Peersearch)等,对信息检索系统的各项性能提出了更严格的要求,迫使现代信息检索系统必须重新考虑下列问题哪一部分索引数据应该被存储于索引文件之中。目前降低索引文件大小的最常见方法是使用数据压缩技术,数据压缩技术一般存在两种类型无损压缩和有损压縮。无损压缩采用高效的数据编码方式表示记录在索引结构中的数据信息,比如Delta编码、Golomb编码和可变长字节编码等,压缩过程中不删除任何索引信息。有损压缩则是通过删除在查询时被认为是无用的索引信息的方式达到降低索引文件大小的目的。目前,对倒排索引文件无损压缩方法的研究已经有许多成熟的解决方案,也有ー些对动态后继树索引文件进行无损压缩的相关研究。无损压缩的优势在于其安全性高,不会损失任何索引信息。与无损压缩研究不同,针对索引文件的有损压缩研究,即索引裁剪技术研究,却并不是很多。依据目前公开可查询的国内外文献来看,索引裁剪技术研究主要针对倒排索引文件进行,国内的相关研究更少,而且没有针对动态后继树索引文件进行索引裁剪的相关研究。在充分利用动态后继树索引结构针对中文信息检索的优越性的同时,必须注意到动态后继树索引结构的不足产生的索引文件比较大,膨胀比高。因此针对动态后继树索引的特点进行相应的索引裁剪技术研究,从而弥补其索引文件膨胀比高的不足就具有极大理论价值和实践意义。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供了一种。为了实现上述目的,本专利技术采用了以下技术方案一种基于扩展查询似然模型的动态后继树索弓I裁剪方法,以完整的动态后继树索弓I作为处理对象,对索引中的树叶信息进行重要性评估,然后删除不重要的树叶信息,形成裁剪后的动态后继树索引; 该方法依次包括以下步骤 (I)针对动态后继树索引结构,创建完整的动态后继树索引;(2)依次遍历索引中每ー篇文档包含的不同ニ元词项,提取索引统计信息; (3)利用重要性评分公式卿)+^,计算索引中的ニ元词项在其当前出现文档中的重要性评分,然后对ニ元词项进行重要性降序排列;其中tf(bi)是ニ元词项&在文档中的出现次数,TFm是ニ元词项&在文档集C中的出现次数,I Cl是文档集e的长度,丨D|为文档ゴ的长度,.W为平滑因子;该评分公式由一系列的公式推导而形成首先从传统的查询似然模型出发,引入高效的狄尼克雷平滑机制对此查询似然模型进行扩展;然后在信息论K-L距离定义的基础上采用算木平均数的方式定义了对称K-L距离,从而更加平衡的度量文档与文档集之间的差异;最后评估文档中的ニ元词项对文档对称K-L距离的贡献度即; (4)输入裁剪參数1<1€1€太€が)、/^^.£^1),让裁剪參数しP依次分别和索引中与一篇文档关联的所有树叶信息的个数μ/41进行比较、计算,控制动态后继树索引的裁剪規模,删除ー篇文档中排序靠后的ニ元词项所对应的树叶信息Leaf Information (LI);裁剪參数k、P在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入,通过不同的取值,可以得到我们需要的不同裁剪效果; (5)形成并输出裁剪后的动态后继树索引。上述的ニ元词项由树根词项和与树根词项直接关联的树叶词项组成的整体,是不可分割。所述的树根词项是指在创建动态后继树索引时,位于树根的分词词项;而树叶词项则是树根的后继,指位于树叶的分词词项。上述的索引统计信息包括ニ元词项在每ー篇文档中出现的次数、含有某一个ニ元词项的文档数目、ニ元词项在文档集中总的出现次数、每ー篇文档的长度(即包含ニ元词项的个数)和文档集的总长度(即所有文档长度之和)、与一篇文档关联的所有树叶信息的个数丨Z/41等,索引统计信息还可包括有其他信息,不限于上述提及的统计信息。所述的步骤(4)输入裁剪參数!^^,!^!^、^(^/^^,让裁剪參数匕P分别和索引中与一篇文档关联的所有树叶信息的个数丨进行比较、计算,控制动态后继树索引的裁剪規模,删除ー篇文档中排序靠后的ニ元词项所对应的树叶信息步骤为 ①输入裁剪參数匕P; ②若丨LlLiI < k,转步骤⑤; ③若μ/4Ι>λ且μ/41- PWLA >k,则裁剪掉排序靠后的Ρ| 4Ι个树叶信息;ρ\π[ I表示的是对ρμ/41进行上取整,即当I为小数吋,则对其上取整,如,I的结果为8. 2时,则取整为9 ; ④若本文档来自技高网
...

【技术保护点】
一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:该方法依次包括以下步骤:(1)针对动态后继树索引结构,创建完整的动态后继树索引;(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;(3)利用重要性评分公式:?,其中:是二元词项在文档中的出现次数,是二元词项在文档集中的出现次数,是文档集的长度,为文档的长度,为平滑因子;计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行排序;(4)输入裁剪参数、,让裁剪参数依次分别和索引中与一篇文档关联的所有树叶信息的个数进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息;(5)形成并输出裁剪后的动态后继树索引。201210307005X100001dest_path_image002.jpg,201210307005X100001dest_path_image004.jpg,201210307005X100001dest_path_image006.jpg,201210307005X100001dest_path_image008.jpg,201210307005X100001dest_path_image010.jpg,898463dest_path_image006.jpg,201210307005X100001dest_path_image012.jpg,201210307005X100001dest_path_image014.jpg,807644dest_path_image012.jpg,201210307005X100001dest_path_image016.jpg,519248dest_path_image008.jpg,201210307005X100001dest_path_image018.jpg,201210307005X100001dest_path_image020.jpg,201210307005X100001dest_path_image022.jpg,201210307005X100001dest_path_image024.jpg,201210307005X100001dest_path_image026.jpg...

【技术特征摘要】
1.一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于该方法依次包括以下步骤 (1)针对动态后继树索引结构,创建完整的动态后继树索引; (2)依次遍历索引中每ー篇文档包含的不同ニ元词项,提取索引统计信息; (3)利用重要性评分公式2.根据权利要求I所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于所述的ニ元词项由树根词项和与树根词项直接关联的树叶词项组成的整体。3.根据权利要求I所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于所述的索引统计信息包括ニ元词项在每ー篇文档中出现的次数、含有某一个ニ元词项的文档数目、ニ元词项在文档集中总的出现次数、每ー篇文档...

【专利技术属性】
技术研发人员:霍林邹先泽
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1