一种大规模网页集合的近似重复查找方法技术

技术编号:11115168 阅读:127 留言:0更新日期:2015-03-05 20:32
本发明专利技术涉及一种大规模网页集合近似重复查找的方法,使用文档的点签名来过滤网页内容噪声,结合分区和倒排索引剪枝来完成近似重复查找,使得近似重复查找效率高,仅计算点签名的Jaccard相似度使得方法的复杂度很低。

【技术实现步骤摘要】

本专利技术涉及信息检索技术,特别是一种大规模网页集合中核心内容近似重复查找方法。
技术介绍
随着互联网的飞速发展,互联网上存储的数据规模不断扩大,要想快速获得想要的数据,搜索引擎成为主要的手段。虽然搜索引擎在返回搜索结果中去除了重复网页,但是近似重复网页不断出现在语料库中,要获得更精确有价值的结果,需要查找这些近似重复的网页,并加以去除。然而,传统的近似重复查找方法有很多不足之处,例如shingling方法基于shingles或n-gram子集计算Jaccard重叠复杂度太高,指纹模式方法基于文档偏移量来选择位串带来很大额外开销,局部敏感哈希方法将多个签名映射单个哈希值增加了签名提取和哈希的额外开销。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种大规模网页集合近似重复查找的方法,使用文档的点签名来过滤网页内容噪声,结合分区和倒排索引剪枝来完成近似重复查找,使得近似重复查找效率高,仅计算点签名的Jaccard相似度使得方法的复杂度很低。本专利技术技术解决方案:一种大规模网页集合的近似重复查找方法,过程如图1所示:步骤0中,开始执行本专利技术,转向步骤2执行;步骤1中,输入带有加权点签名的文档向量、带有边界[pk,pk+1)的分区k和倒排列表(此时倒排列表为空),转向步骤2执行;[pk,pk+1)为文档长度的范围,是一个半开半闭区间,pk为区间下边界,pk+1为区间上边界;步骤2中,存放结果的对集初始化为空,转向步骤3执行;步骤3中,判断文档长度随机排序序列中是否存在没有被计算过的文档向量di,有则转向步骤4执行,否则转向步骤22执行;步骤4中,分区k的下边界pk设置文档向量di的长度,转向步骤5执行;步骤5中,将分区k中di所有的点签名按照频率做一次升序排列,将点签名频率最小的点签名置于第一个,转向步骤6执行;步骤6中,将第一辅助边界delta1置为0,将已检测文档向量集置为空,转向步骤7执行;步骤7中,判断di的点签名是否存在没有被计算的点签名sij,其中,j为点签名在di中的位置,若存在,则,转向步骤8执行,否则转向步骤20执行;步骤8中,分区k中与sij相关文档向量置入倒排列表listkj中,且按文档长度降序排列,转向步骤9执行;步骤9中,将第二辅助边界delta2置为0,转向步骤10执行;步骤10中,判断listkj中是否存在按文档长度降序排列的文档向量di’,若存在,则转向步骤11执行,否则,转向步骤18执行;步骤11中,delta2设置为文档向量di和di’长度之差,转向步骤12执行;步骤12中,判断文档向量di和di’是否相等或文档向量di’已经被检测过,若满足,则转向步骤10执行,否则转向步骤13执行;步骤13中,判断delta2小于0且delta1-delta2大于di’长度的1-t倍,若满足,则转向步骤10执行,否则转向步骤14执行;步骤14中,判断delta2大于等于0且delta1+delta2大于di长度的1-t倍,若满足,则转向步骤18执行,否则转向步骤15执行;步骤15中,判断文档向量di和di’的Jaccard相似度大于等于t,若满足,则转向步骤16执行,否则转向步骤10执行;步骤16中,将<di,di’>添加到结果对集中,转向步骤17执行;<di,di’>由文档向量di和di’组成的文档对,文档向量di和di’的Jaccard相似度大于等于阈值时则匹配,以<di,di’>形式加入对集,否则不加入对集。步骤17中,将di’添加到已检测文档向量集,转向步骤10执行;步骤18中,delta1的值增加文档向量di中点签名sij的频率,转向步骤19执行;步骤19中,判断delta1大于分区k中没有被检测文档向量的最大长度的1-t倍,若满足,则转向步骤20执行,否则转向步骤7执行;步骤20中,判断分区上界与文档向量di的长度之差小于等于分区上界的1-t倍,若满足,则转向步骤21执行,否则转向步骤3执行;t是Jaccard相似度的临界值比例,取值根据实际情况而定,一般在0.5到1之间;步骤21中,将分区上界值pk+1置为分区下界值pk,迭代至下一个分区,转向步骤6执行;步骤22中,返回结果对集,转向步骤23执行;步骤23中,结束整个程序。本专利技术与现有技术相比的优点在于:(1)现有的近似重复网页检测方法主要有shingling算法、指纹模式、局部敏感哈希三种。shingling算法基于shingles或n-grams计算Jaccard重叠,其复杂度太高,在此基础上引进\super shingles\的改进也只能小幅度降低结果的精度;指纹模式提取文档中有代表的单词或整个句子的哈希值连接位串生成指纹特征以判断文档相似性,然而位串选择产生很大的额外开销;局部敏感哈希连接来自每个数据对象到单个哈希值,通过独立的哈希函数,额外增加了签名提取和多个哈希的开销。(2)本专利技术采用停用先行词与相邻内容项连接成的短链作为文档签名,签名提取速度快、开销小;计算Jaccard相似度时,结合集合分区缩小计算范围,避免计算明显不相似的文档向量之间的相似度,引入倒排索引剪枝去除了冗余计算过程加快计算进程。本专利技术的方法能够达到精确、快速、计算复杂度低的目的。附图说明图1为本专利技术方法实现流程图;图2为本专利技术中点签名近似重复查找方法执行图。具体实施方式在阐述本专利技术之前,先对相关概念进行一下解释和说明。点(p):在文档经常出现的词,在自然语言文本中被称作停用词,例如is,the,do,have等。普通词汇:文档中不是点的单词。点距(d):文档中普通词汇与它之前选定的点之间或普通词汇与它之前的普通词汇之间间隔的词汇数,点不在此计数中,例如\a rally to kick\,词汇\a\和o\在文档中都是经常出现的,都可以作为点,\rally\与\a\之间的点距为1,\kick\与\a\之间的点距为2,\kick\与\rally\之间的点距为1(因为o\作为点不在计数中),\kick\与o\之间的点距为1。链长(c):规定的文档中相对于某个点满足点距的普通词汇个数,例如\a rally to kick\,相对于点\a\点距为1的链长为2。点签名(s):用于查找一个连续的链长为c的普通词汇链表,链表中的普通词汇之间的间隔为点距d,其中链表中的第一个普通词汇与点之间间隔为d,表示形式为p(本文档来自技高网...
一种大规模网页集合的近似重复查找方法

【技术保护点】
一种大规模网页集合近似重复查找的方法,其特征在于实现步骤如下:步骤1,输入带有加权点签名的文档向量、带有边界[pk,pk+1)的分区k和倒排列表,转向步骤2执行;[pk,pk+1)为文档长度的范围,是一个半开半闭区间,pk为区间下边界,pk+1为区间上边界;步骤2,存放结果的对集初始化为空,转向步骤3执行;步骤3中,判断文档长度随机排序序列中是否存在没有被计算过的文档向量di,存在则转向步骤4执行,否则转向步骤22执行;步骤4中,分区k的下边界pk设置文档向量di的长度,转向步骤5执行;步骤5中,将分区k中文档向量di所有的点签名按照频率做一次升序排列,将点签名频率最小的点签名置于第一个,转向步骤6执行;步骤6中,第一辅助边界delta1置为0,将已检测文档向量集置为空,转向步骤7执行;步骤7中,判断文档向量di的点签名是否存在没有被计算的点签名sij,其中,j为点签名在文档向量di中的位置,若存在,则转向步骤8执行,否则转向步骤20执行;步骤8中,分区k中与点签名sij相关文档向量置入倒排列表listkj中,且按文档长度降序排列,转向步骤9执行;步骤9中,将第二辅助边界delta2置为0,转向步骤10执行;步骤10中,判断倒排列表listkj中是否存在按文档长度降序排列的文档向量di’,若存在,则转向步骤11执行,否则,转向步骤18执行;步骤11中,将第二辅助边界delta2设置为文档向量di和di’长度之差,转向步骤12执行;步骤12中,判断文档向量di和di’是否相等或文档向量di’已经被检测过,若满足,则转向步骤10执行,否则转向步骤13执行;步骤13中,判断delta2小于0且delta1‑delta2大于di’长度的1‑t倍,若满足,则转向步骤10执行,否则转向步骤14执行;步骤14中,判断第二辅助边界delta2大于等于0且delta1+delta2大于di长度的1‑t倍,若满足,则转向步骤18执行,否则转向步骤15执行;步骤15中,判断文档向量di和di’的Jaccard相似度大于等于t,若满足,则转向步骤16执行,否则转向步骤10执行;步骤16中,将<di,di’>添加到结果对集中,转向步骤17执行;<di,di’>由文档向量di和di’组成的文档对,文档向量di和di’的Jaccard相似度大于等于阈值时则匹配,以<di,di’>形式加入对集,否则不加入对集;步骤17中,将di’添加到已检测文档向量集,转向步骤10执行;步骤18中,delta1的值增加文档向量di中点签名sij的频率,转向步骤19执行;步骤19中,判断delta1大于分区k中没有被检测文档向量的最大长度的1‑t倍,若满足,则转向步骤20执行,否则转向步骤7执行;步骤20中,判断分区上界与文档向量di的长度之差小于等于分区上界的1‑t倍,若满足,则转向步骤21执行,否则转向步骤3执行;t是Jaccard相似度的临界值比例,取值根据实际情况而定,取值范围为0.5‑1;步骤21中,将分区上界值pk+1置为分区下界值pk,迭代至下一个分区,转向步骤6执行;步骤22中,返回结果对集,转向步骤23执行;步骤23中,结束整个程序。...

【技术特征摘要】
1.一种大规模网页集合近似重复查找的方法,其特征在于实现步骤如下:
步骤1,输入带有加权点签名的文档向量、带有边界[pk,pk+1)的分区k和倒排列表,转
向步骤2执行;[pk,pk+1)为文档长度的范围,是一个半开半闭区间,pk为区间下边界,pk+1为区间上边界;
步骤2,存放结果的对集初始化为空,转向步骤3执行;
步骤3中,判断文档长度随机排序序列中是否存在没有被计算过的文档向量di,存在则
转向步骤4执行,否则转向步骤22执行;
步骤4中,分区k的下边界pk设置文档向量di的长度,转向步骤5执行;
步骤5中,将分区k中文档向量di所有的点签名按照频率做一次升序排列,将点签名频
率最小的点签名置于第一个,转向步骤6执行;
步骤6中,第一辅助边界delta1置为0,将已检测文档向量集置为空,转向步骤7执行;
步骤7中,判断文档向量di的点签名是否存在没有被计算的点签名sij,其中,j为点签
名在文档向量di中的位置,若存在,则转向步骤8执行,否则转向步骤20执行;
步骤8中,分区k中与点签名sij相关文档向量置入倒排列表listkj中,且按文档长度降
序排列,转向步骤9执行;
步骤9中,将第二辅助边界delta2置为0,转向步骤10执行;
步骤10中,判断倒排列表listkj中是否存在按文档长度降序排列的文档向量di’,若存在,
则转向步骤11执行,否则,转向步骤18执行;
步骤11中,将第二辅助边界delta2设置为文档向量di和di’长度之差,转向步骤12执行;
步骤12中,判断文档向量di和di’是否相等或文档向量di’已经被检测过,若满足,则转
向步骤10执行...

【专利技术属性】
技术研发人员:张鹏熊翠文刘庆云杨嵘郑超刘俊朋李舒
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1