网页相似度计算方法、装置、设备、计算机可读存储介质制造方法及图纸

技术编号:20916966 阅读:24 留言:0更新日期:2019-04-20 09:47
本发明专利技术提供了一种网页相似度计算方法、装置、设备、计算机可读存储介质,属于数据处理技术领域。网页相似度计算方法包括:获取待比较网页的DOM树,并对DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块;根据布局块的坐标对待比较网页的布局块分别进行横向划分,得到N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明专利技术能够准确计算出两个网页间的相似度。

Web page similarity calculation method, device, device, computer readable storage medium

The invention provides a web page similarity calculation method, a device, a device and a computer readable storage medium, belonging to the technical field of data processing. Computing methods of web page similarity include: acquiring DOM tree of web pages to be compared and denoising the DOM tree; selecting the main structure label of DOM tree from the denoised DOM tree, rendering the main structure label to generate layout blocks; dividing the layout blocks of comparative web pages horizontally according to the coordinates of layout blocks, obtaining N group comparison area blocks, and K group comparison area blocks including Among them, the k-comparing area block of one web page to be compared and the k-comparing area block of another web page to be compared. The two comparing area blocks of each group are compared, and the page structure similarity of each group of comparing area blocks is obtained. According to the page structure similarity of N group comparing area blocks, the overall page structure similarity of two pages to be compared is obtained. The invention can accurately calculate the similarity between two web pages.

【技术实现步骤摘要】
网页相似度计算方法、装置、设备、计算机可读存储介质
本专利技术涉及数据处理
,特别是指一种网页相似度计算方法、装置、设备、计算机可读存储介质。
技术介绍
目前互联网上的重复网页非常多,因此,从不同的网站抓取到相似网页的可能性非常高。比如,同一条新闻出现时,网上会以各种形式进行转载复制传播,从而导致两个网页的相似程度非常高,这种相似程度高的网页,可以是同一个网站上的网页,也可以不是同一个网站上的网页。搜索引擎在收录网页的时候,通常会对两个网页进行比较,看看两个网页是否相似,对相似度高的网页进行去重或者聚合展现。现有的相似度计算方法包括几种:1)利用URL去重;2)利用内容计算相似;3)利用链接关系计算相似;4)利用网页的结构特征(DOM树结构)计算相似。利用URL去重,只能做到简单的去重,无法解决不同URL,内容相似的问题;利用链接关系进行相似度计算还不是很成熟,链接关系只是网页中权重较小的信息,效果不是很好;利用网页的结构特征计算,也只能解决网页结构完全一致的重复,而网站制作时一般都自己的网页结构,纯粹的网站结构上的抄袭已经比较少用,而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界,一般多数还是利用内容信息从网页中提取内容,计算相似,但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等),利用现有方法就很难做到较好的判断。综上所述,现有技术计算网页相似度的准确度较差。
技术实现思路
本专利技术要解决的技术问题是提供一种网页相似度计算方法、装置、设备、计算机可读存储介质,能够准确计算出两个网页间的相似度。为解决上述技术问题,本专利技术的实施例提供技术方案如下:一方面,提供一种网页相似度计算方法,包括:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。进一步地,所述对所述DOM进行去噪处理包括:移除所述DOM树中的功能性标签;将所述DOM树中重复出现的多个标签合并为一个标签。进一步地,所述从去噪处理后的DOM树中选择DOM树的主体结构标签包括:获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。进一步地,所述渲染所述主体结构标签生成布局块包括:渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。进一步地,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。进一步地,所述将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度包括:获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。进一步地,所述将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较包括:在比较两个编码序列的相似度时,基于其中较长的一个编码序列对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减;通过编辑距离L以及权重值ω计算获取两个编码序列的相似度。本专利技术实施例还提供了一种网页相似度计算装置,包括:DOM树处理模块,用于获取待比较网页的DOM树,并对所述DOM树进行去噪处理;渲染模块,用于从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;比对区域块划分模块,用于根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;计算模块,用于将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本专利技术实施例还提供了一种实现网页相似度计算的电子设备,包括:处理器;和存储器,在所述存储器中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本专利技术的实施例具有以下有益效果:上述方案中,对待比较网页的DOM树进行去噪处理,从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块,根据布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的多组比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块本文档来自技高网...

【技术保护点】
1.一种网页相似度计算方法,其特征在于,包括:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。

【技术特征摘要】
1.一种网页相似度计算方法,其特征在于,包括:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。2.根据权利要求1所述的网页相似度计算方法,其特征在于,所述对所述DOM进行去噪处理包括:移除所述DOM树中的功能性标签;将所述DOM树中重复出现的多个标签合并为一个标签。3.根据权利要求1所述的网页相似度计算方法,其特征在于,所述从去噪处理后的DOM树中选择DOM树的主体结构标签包括:获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。4.根据权利要求1所述的网页相似度计算方法,其特征在于,所述渲染所述主体结构标签生成布局块包括:渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。5.根据权利要求1所述的网页相似度计算方法,其特征在于,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。6.根据权利要求1所述的网页相似度计算方法,其特征在于,所述将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度包括:获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。7.根据权利要求6所述的网页相似...

【专利技术属性】
技术研发人员:张永伟姜珊珊董滨童毅轩丁磊
申请(专利权)人:株式会社理光
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1