The invention provides a web page similarity calculation method, a device, a device and a computer readable storage medium, belonging to the technical field of data processing. Computing methods of web page similarity include: acquiring DOM tree of web pages to be compared and denoising the DOM tree; selecting the main structure label of DOM tree from the denoised DOM tree, rendering the main structure label to generate layout blocks; dividing the layout blocks of comparative web pages horizontally according to the coordinates of layout blocks, obtaining N group comparison area blocks, and K group comparison area blocks including Among them, the k-comparing area block of one web page to be compared and the k-comparing area block of another web page to be compared. The two comparing area blocks of each group are compared, and the page structure similarity of each group of comparing area blocks is obtained. According to the page structure similarity of N group comparing area blocks, the overall page structure similarity of two pages to be compared is obtained. The invention can accurately calculate the similarity between two web pages.
【技术实现步骤摘要】
网页相似度计算方法、装置、设备、计算机可读存储介质
本专利技术涉及数据处理
,特别是指一种网页相似度计算方法、装置、设备、计算机可读存储介质。
技术介绍
目前互联网上的重复网页非常多,因此,从不同的网站抓取到相似网页的可能性非常高。比如,同一条新闻出现时,网上会以各种形式进行转载复制传播,从而导致两个网页的相似程度非常高,这种相似程度高的网页,可以是同一个网站上的网页,也可以不是同一个网站上的网页。搜索引擎在收录网页的时候,通常会对两个网页进行比较,看看两个网页是否相似,对相似度高的网页进行去重或者聚合展现。现有的相似度计算方法包括几种:1)利用URL去重;2)利用内容计算相似;3)利用链接关系计算相似;4)利用网页的结构特征(DOM树结构)计算相似。利用URL去重,只能做到简单的去重,无法解决不同URL,内容相似的问题;利用链接关系进行相似度计算还不是很成熟,链接关系只是网页中权重较小的信息,效果不是很好;利用网页的结构特征计算,也只能解决网页结构完全一致的重复,而网站制作时一般都自己的网页结构,纯粹的网站结构上的抄袭已经比较少用,而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界,一般多数还是利用内容信息从网页中提取内容,计算相似,但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等),利用现有方法就很难做到较好的判断。综上所述,现有技术计算网页相似度的准确度较差。
技术实现思路
本专利技术要解决的技术问题是提供一种网页相似度计算方法、装置、设备、计算机可读存储介质,能够准确计 ...
【技术保护点】
1.一种网页相似度计算方法,其特征在于,包括:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
【技术特征摘要】
1.一种网页相似度计算方法,其特征在于,包括:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。2.根据权利要求1所述的网页相似度计算方法,其特征在于,所述对所述DOM进行去噪处理包括:移除所述DOM树中的功能性标签;将所述DOM树中重复出现的多个标签合并为一个标签。3.根据权利要求1所述的网页相似度计算方法,其特征在于,所述从去噪处理后的DOM树中选择DOM树的主体结构标签包括:获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。4.根据权利要求1所述的网页相似度计算方法,其特征在于,所述渲染所述主体结构标签生成布局块包括:渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。5.根据权利要求1所述的网页相似度计算方法,其特征在于,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。6.根据权利要求1所述的网页相似度计算方法,其特征在于,所述将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度包括:获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。7.根据权利要求6所述的网页相似...
【专利技术属性】
技术研发人员:张永伟,姜珊珊,董滨,童毅轩,丁磊,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。