The application discloses a method and device for acquiring web page information. A specific embodiment of the method includes: acquiring a set of web pages, in which the layout of the web pages in the set is the same; denoising each web page in the set of web pages to generate a corresponding denoised web page containing the source code of the web page, and generating a denoised web page based on each denoised web page. Set; select the page pair from the set of denoised pages to calculate the editing distance, and determine the calculated maximum editing distance of the page pair as the target page pair, where the calculation of editing distance is based on the page source code; extract the above items based on the source code of the target page pair. For each denoised web page in the denoised web page set, the information of the denoised web page is extracted based on the above-mentioned keyword string. The implementation improves the efficiency of obtaining web page information.
【技术实现步骤摘要】
获取网页信息方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及获取网页信息方法和装置。
技术介绍
在大数据时代,数据至关重要,数据的获取犹为重要,于是海量数据抓取系统孕育而生。数据抓取系统的核心,是对网页的解析,互联网上的网页成千上万,如果每个网站都要由技术人员写一套解析的规则,会消耗大量的人力物力。在相关技术中,技术人员必须针对不同的网站,编写不同的解析表达式,导致获取网页信息效率较低。
技术实现思路
本申请实施例的目的在于提出一种获取网页信息方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请实施例提供了一种获取网页信息方法,获取网页集合,其中,上述网页集合中的网页的网页布局相同;对上述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从上述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于上述目标网页对中的网页源码,提取上述目标网页对中相同的字符串作为网页关键字符串;对于上述去噪网页集合中的每个去噪网页,基于上述网页关键字符串提取该去噪网页的信息。在一些实施例中,对所述网页集合中的各个网页进行去噪处理之前,将获取上述网页集合中的各个网页的网页源码;对上述网页集合中的每个网页,基于该网页的网页源码中的标签生成该网页的结构树。在一些实施例中,上述网页关键字符串在所述目标网页对的每个网页中是唯一存在的字符串。在一些实施例中,对上述网页集合中的每个网页进行去噪处理,包括 ...
【技术保护点】
1.一种获取网页信息方法,其特征在于,所述方法包括:获取网页集合,其中,所述网页集合中的网页的网页布局相同;对所述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从所述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于所述目标网页对中的网页源码,提取所述目标网页对中相同的字符串作为网页关键字符串;对于所述去噪网页集合中的每个去噪网页,基于所述网页关键字符串提取该去噪网页的信息。
【技术特征摘要】
1.一种获取网页信息方法,其特征在于,所述方法包括:获取网页集合,其中,所述网页集合中的网页的网页布局相同;对所述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从所述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于所述目标网页对中的网页源码,提取所述目标网页对中相同的字符串作为网页关键字符串;对于所述去噪网页集合中的每个去噪网页,基于所述网页关键字符串提取该去噪网页的信息。2.根据权利要求1所述的获取网页信息的方法,其特征在于,所述对所述网页集合中的各个网页进行去噪处理之前,所述方法还包括:获取所述网页集合中的各个网页的网页源码;对于所述网页集合中的每个网页,基于该网页的网页源码中的标签生成该网页的结构树。3.根据权利要求1所述的获取网页信息方法,其特征在于,所述网页关键字符串在所述目标网页对的每个网页中是唯一存在的字符串。4.根据权利要求1所述的获取网页信息方法,其特征在于,所述对所述网页集合中的每个网页进行去噪处理,包括:根据正则表达式对所述网页集合中的每个网页进行去噪处理。5.根据权利要求1-4之一所述的获取网页信息方法,其特征在于,所述编辑距离用于表示两个字串之间、由一个字符串转成另一个字符串所需的最少编辑操作次数。6.一种获取网页信息装置,其特征在于,所述装置包括:获取单元,配置用于获取网页集合,其中,所述网页集合中的网页的网页布局相同;处理单元,配置用于对所述网页集合中的每个网页进行去噪处理,生...
【专利技术属性】
技术研发人员:马静飞,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。