一种倒排索引的优化方法、装置及电子设备制造方法及图纸

技术编号:32504888 阅读:35 留言:0更新日期:2022-03-02 10:15
本发明专利技术公开了一种倒排索引的优化方法、装置及电子设备,该方法包括:基于倒排链中的文档编号对词语进行排序;基于词语排序和所述倒排链构建词语和文档的二维空间;在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块;获取所述高密度块中各文档的原始文档编号及出现频率,并基于所述原始文档编号及所述出现频率对所述高密度块中各文档进行重新编号,其中,新的文档编号落入所述原始文档编号所属范围,出现频率越高的文档分配越小的文档编号;基于所述新的文档编号,对非所述高密度块内的文档进行重新编号;基于所有的新的文档编号重建倒排链。通过上述技术方案,提高了倒排链的压缩率的同时,避免了破坏文档pagerank的排序效果。pagerank的排序效果。pagerank的排序效果。

【技术实现步骤摘要】
一种倒排索引的优化方法、装置及电子设备


[0001]本专利技术涉及搜索领域,特别涉及一种倒排索引的优化方法、装置及电子设备。

技术介绍

[0002]搜索引擎在建立倒排链时,一般根据网页排名pagerank等算法对网页进行排序,排序后的网页从重要到不重要排序,排序在前的网页即文档先编号,排序在后面的文档后编号,因此重要的文档会分配较小的文档编号docid,不重要的文档的docid较大。
[0003]文档编号docid产生后,开始建立倒排链,把docid添加到文档包含的每个词里。由于文档含有哪些词是固定的,因此建立倒排链时,倒排链中docid之间的差值就确定了,就不能产生对压缩算法友好的倒排链差值序列。
[0004]为了产生对压缩算法友好的倒排链差值序列,现有技术中通过挑选高频查询语句,对高频倒排链求交得到的文档重新分配新的docid,可以缩短这些求交结果中docid之间的差值。但此方法对于pagerank是极大的破坏,会把高频查询语句的倒排链中原先分配了较大的docid的文档重新分配较小的docid,导致其在查询时先召回,所以该方法对于存在pagerank的情况下不适用。

技术实现思路

[0005]本专利技术实施例提供一种倒排索引的优化方法、装置及电子设备,用于优化倒排链,提高倒排索引压缩比率。
[0006]本专利技术实施例提供一种倒排索引的优化方法,包括:
[0007]基于倒排链中的文档编号对词语进行排序;
[0008]基于词语排序和所述倒排链构建词语和文档的二维空间;
[0009]在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块;
[0010]获取所述高密度块中各文档的原始文档编号及出现频率,并基于所述原始文档编号及所述出现频率对所述高密度块中各文档进行重新编号,其中,新的文档编号落入所述原始文档编号所属范围,出现频率越高的文档分配越小的文档编号;
[0011]基于所述新的文档编号,对非所述高密度块内的文档进行重新编号;
[0012]基于所有的新的文档编号重建倒排链。
[0013]可选的,所述在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块,包括:
[0014]获取文档在进行所述原始文档编号时的分档数量;
[0015]基于所述分档数量获得所述高密度块的区间大小,从所述二维空间中获得满足所述区间大小的目标区块;
[0016]从所述目标区块中获取坐标点的密集度大于或等于区间阈值的高密度块。
[0017]可选的,所述在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块,包括:
[0018]按照词语排序的大小对词语进行二进制编码,按照文档编码的大小对文档进行二进制编码;
[0019]基于词语和文档的二进制编码,将所述二维空间中的二维坐标点转换为一维二进制目标编码,其中,所述目标编码的高位编码对应所述二维空间中的一个区域;
[0020]基于所述目标编码获取坐标点密集度大于或等于区间阈值的高密度块。
[0021]可选的,所述基于词语和文档的二进制编码,将所述二维空间中的二维坐标点转换为一维二进制目标编码,包括:
[0022]基于词语和文档之间的二进制编码位数比,采用比特交叉的方式将所述二维空间中的二维坐标点转换为一维二进制目标编码。
[0023]可选的,所述基于所述目标编码获取坐标点密集度大于或等于区间阈值的高密度块,包括:
[0024]获取所述目标编码的高k位比特对应的区间范围,并统计所述区间范围内包含的坐标点是否大于或等于所述区间阈值,其中所述区间阈值根据预设的稠密度阈值和文档的分档数量获得;
[0025]若所述区间范围内包含的坐标点大于或等于所述区间阈值,将所述区间范围对应的区域作为所述高密度块。
[0026]可选的,所述基于倒排链中的文档编号对词语进行排序,包括:
[0027]对倒排链之间的文档编号进行比较,基于文档编号之间的大小和差值对倒排链对应的词语进行排序,其中,所述倒排链相似的词语排序相近。
[0028]可选的,基于所述新的文档编号,对非所述高密度块内的文档进行重新编号,包括:
[0029]若非所述高密度块内的文档已在所述高密度块内重新编号,使用新的文档编号;
[0030]若非所述高密度块内的文档未重新编号,获取文档所在区域的文档编号范围;按照文档编号从小到大的顺序,依次从所述文档编号范围内查找获得未映射到新的文档编号的键值,将所述键值作为文档的新的文档编号。
[0031]可选的,在所述基于倒排链中的文档编号对词语进行排序之前,所述方法还包括:
[0032]基于主题模型或预设行业词汇数据,对所述倒排链对应的词语进行筛选,将筛选获得的词语用于词语排序和高密度块内的文档编号重排。
[0033]本专利技术实施例还提供一种倒排索引的优化装置,包括:
[0034]排序单元,用于基于倒排链中的文档编号对词语进行排序;
[0035]生成单元,用于基于词语排序和所述倒排链构建词语和文档的二维空间;
[0036]获取单元,用于在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块;
[0037]重建单元,用于获取所述高密度块中各文档的原始文档编号及出现频率,并基于所述原始文档编号及所述出现频率对所述高密度块中各文档进行重新编号,其中,新的文档编号落入所述原始文档编号所属范围,出现频率越高的文档分配越小的文档编号;
[0038]所述重建单元还用于基于所述新的文档编号,对非所述高密度块内的文档进行重新编号;
[0039]所述重建单元还用于基于所有的新的文档编号重建倒排链。
[0040]可选的,所述生成单元具体用于:
[0041]获取文档在进行所述原始文档编号时的分档数量;
[0042]基于所述分档数量获得所述高密度块的区间大小,从所述二维空间中获得满足所述区间大小的目标区块;
[0043]从所述目标区块中获取坐标点的密集度大于或等于区间阈值的高密度块。
[0044]可选的,所述获取单元具体用于:
[0045]按照词语排序的大小对词语进行二进制编码,按照文档编码的大小对文档进行二进制编码;
[0046]基于词语和文档的二进制编码,将所述二维空间中的二维坐标点转换为一维二进制目标编码,其中,所述目标编码的高位编码对应所述二维空间中的一个区域;
[0047]基于所述目标编码获取坐标点密集度大于或等于区间阈值的高密度块。
[0048]可选的,所述获取单元还用于:
[0049]基于词语和文档之间的二进制编码位数比,采用比特交叉的方式将所述二维空间中的二维坐标点转换为一维二进制目标编码。
[0050]可选的,所述获取单元还用于:
[0051]获取所述目标编码的高k位比特对应的区间范围,并统计所述区间范围内包含的坐标点是否大于或等于所述区间阈值,其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种倒排索引的优化方法,其特征在于,包括:基于倒排链中的文档编号对词语进行排序;基于词语排序和所述倒排链构建词语和文档的二维空间;在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块;获取所述高密度块中各文档的原始文档编号及出现频率,并基于所述原始文档编号及所述出现频率对所述高密度块中各文档进行重新编号,其中,新的文档编号落入所述原始文档编号所属范围,出现频率越高的文档分配越小的文档编号;基于所述新的文档编号,对非所述高密度块内的文档进行重新编号;基于所有的新的文档编号重建倒排链。2.如权利要求1所述的方法,其特征在于,所述在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块,包括:获取文档在进行所述原始文档编号时的分档数量;基于所述分档数量获得所述高密度块的区间大小,从所述二维空间中获得满足所述区间大小的目标区块;从所述目标区块中获取坐标点的密集度大于或等于区间阈值的高密度块。3.如权利要求1所述的方法,其特征在于,所述在所述二维空间中,获取坐标点的密集度大于或等于区间阈值的高密度块,包括:按照词语排序的大小对词语进行二进制编码,按照文档编码的大小对文档进行二进制编码;基于词语和文档的二进制编码,将所述二维空间中的二维坐标点转换为一维二进制目标编码,其中,所述目标编码的高位编码对应所述二维空间中的一个区域;基于所述目标编码获取坐标点密集度大于或等于区间阈值的高密度块。4.如权利要求3所述的方法,其特征在于,所述基于词语和文档的二进制编码,将所述二维空间中的二维坐标点转换为一维二进制目标编码,包括:基于词语和文档之间的二进制编码位数比,采用比特交叉的方式将所述二维空间中的二维坐标点转换为一维二进制目标编码。5.如权利要求4所述的方法,其特征在于,所述基于所述目标编码获取坐标点密集度大于或等于区间阈值的高密度块,包括:获取所述目标编码的高k位比特对应的区间范围,并统计所述区间范围内包含的坐标点是否大于或等于所述区间阈值,其中所述区间阈值根据预设...

【专利技术属性】
技术研发人员:刘伟李京昊谢远江许静芳
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1