一种大规模网页集合的近似重复查找方法技术

技术编号：11115168 阅读：127 留言：0更新日期：2015-03-05 20:32

本发明专利技术涉及一种大规模网页集合近似重复查找的方法，使用文档的点签名来过滤网页内容噪声，结合分区和倒排索引剪枝来完成近似重复查找，使得近似重复查找效率高，仅计算点签名的Jaccard相似度使得方法的复杂度很低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索技术，特别是一种大规模网页集合中核心内容近似重复查找方法。
技术介绍
随着互联网的飞速发展，互联网上存储的数据规模不断扩大，要想快速获得想要的数据，搜索引擎成为主要的手段。虽然搜索引擎在返回搜索结果中去除了重复网页，但是近似重复网页不断出现在语料库中，要获得更精确有价值的结果，需要查找这些近似重复的网页，并加以去除。然而，传统的近似重复查找方法有很多不足之处，例如shingling方法基于shingles或n-gram子集计算Jaccard重叠复杂度太高，指纹模式方法基于文档偏移量来选择位串带来很大额外开销，局部敏感哈希方法将多个签名映射单个哈希值增加了签名提取和哈希的额外开销。
技术实现思路
本专利技术技术解决问题：克服现有技术的不足，提供一种大规模网页集合近似重复查找的方法，使用文档的点签名来过滤网页内容噪声，结合分区和倒排索引剪枝来完成近似重复查找，使得近似重复查找效率高，仅计算点签名的Jaccard相似度使得方法的复杂度很低。本专利技术技术解决方案：一种大规模网页集合的近似重复查找方法，过程如图1所示：步骤0中，开始执行本专利技术，转向步骤2执行；步骤1中，输入带有加权点签名的文档向量、带有边界[pk,pk+1)的分区k和倒排列表(此时倒排列表为空)，转向步骤2执行；[pk,pk+1)为文档长度的范围，是一个半开半闭区间，pk为区间下边界，pk+1为区间上边界；步...
一种大规模网页集合的近似重复查找方法

【技术保护点】
一种大规模网页集合近似重复查找的方法，其特征在于实现步骤如下：步骤1，输入带有加权点签名的文档向量、带有边界[pk,pk+1)的分区k和倒排列表，转向步骤2执行；[pk,pk+1)为文档长度的范围，是一个半开半闭区间，pk为区间下边界，pk+1为区间上边界；步骤2，存放结果的对集初始化为空，转向步骤3执行；步骤3中，判断文档长度随机排序序列中是否存在没有被计算过的文档向量di，存在则转向步骤4执行，否则转向步骤22执行；步骤4中，分区k的下边界pk设置文档向量di的长度，转向步骤5执行；步骤5中，将分区k中文档向量di所有的点签名按照频率做一次升序排列，将点签名频率最小的点签名置于第一个，转向步骤6执行；步骤6中，第一辅助边界delta1置为0，将已检测文档向量集置为空，转向步骤7执行；步骤7中，判断文档向量di的点签名是否存在没有被计算的点签名sij，其中，j为点签名在文档向量di中的位置，若存在，则转向步骤8执行，否则转向步骤20执行；步骤8中，分区k中与点签名sij相关文档向量置入倒排列表listkj中，且按文档长度降序排列，转向步骤9执行；步骤9中，将第二辅助边界delta2置...

【技术特征摘要】
1.一种大规模网页集合近似重复查找的方法，其特征在于实现步骤如下：
步骤1，输入带有加权点签名的文档向量、带有边界[pk,pk+1)的分区k和倒排列表，转
向步骤2执行；[pk,pk+1)为文档长度的范围，是一个半开半闭区间，pk为区间下边界，pk+1为区间上边界；
步骤2，存放结果的对集初始化为空，转向步骤3执行；
步骤3中，判断文档长度随机排序序列中是否存在没有被计算过的文档向量di，存在则
转向步骤4执行，否则转向步骤22执行；
步骤4中，分区k的下边界pk设置文档向量di的长度，转向步骤5执行；
步骤5中，将分区k中文档向量di所有的点签名按照频率做一次升序排列，将点签名频
率最小的点签名置于第一个，转向步骤6执行；
步骤6中，第一辅助边界delta1置为0，将已检测文档向量集置为空，转向步骤7执行；
步骤7中，判断文档向量di的点签名是否存在没有被计算的点签名sij，其中，j为点签
名在文档向量di中的位置，若存在，则转向步骤8执行，否则转向步骤20执行；
步骤8中，分区k中与点签名sij相关文档向量置入倒排列表listkj中，且按文档长度降
序排列，转向步骤9执行；
步骤9中，将第二辅助边界delta2置为0，转向步骤10执行；
步骤10中，判断倒排列表listkj中是否存在按文档长度降序排列的文档向量di’，若存在，
则转向步骤11执行，否则，转向步骤18执行；
步骤11中，将第二辅助边界delta2设置为文档向量di和di’长度之差，转向步骤12执行；
步骤12中，判断文档向量di和di’是否相等或文档向量di’已经被检测过，若满足，则转
向步骤10执行...

【专利技术属性】
技术研发人员：张鹏，熊翠文，刘庆云，杨嵘，郑超，刘俊朋，李舒，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人