获取网页信息方法和装置制造方法及图纸

技术编号:19177331 阅读:23 留言:0更新日期:2018-10-17 00:21
本申请公开了获取网页信息的方法和装置。该方法的一具体实施方式包括:获取网页集合,其中,上述网页集合中的网页的网页布局相同;对上述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从上述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于上述目标网页对中的网页源码,提取上述目标网页对中相同的字符串作为网页关键字符串;对于上述去噪网页集合中的每个去噪网页,基于上述网页关键字符串提取该去噪网页的信息;该实施方式提高了获取网页信息的效率。

Method and device for acquiring web page information

The application discloses a method and device for acquiring web page information. A specific embodiment of the method includes: acquiring a set of web pages, in which the layout of the web pages in the set is the same; denoising each web page in the set of web pages to generate a corresponding denoised web page containing the source code of the web page, and generating a denoised web page based on each denoised web page. Set; select the page pair from the set of denoised pages to calculate the editing distance, and determine the calculated maximum editing distance of the page pair as the target page pair, where the calculation of editing distance is based on the page source code; extract the above items based on the source code of the target page pair. For each denoised web page in the denoised web page set, the information of the denoised web page is extracted based on the above-mentioned keyword string. The implementation improves the efficiency of obtaining web page information.

【技术实现步骤摘要】
获取网页信息方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及获取网页信息方法和装置。
技术介绍
在大数据时代,数据至关重要,数据的获取犹为重要,于是海量数据抓取系统孕育而生。数据抓取系统的核心,是对网页的解析,互联网上的网页成千上万,如果每个网站都要由技术人员写一套解析的规则,会消耗大量的人力物力。在相关技术中,技术人员必须针对不同的网站,编写不同的解析表达式,导致获取网页信息效率较低。
技术实现思路
本申请实施例的目的在于提出一种获取网页信息方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请实施例提供了一种获取网页信息方法,获取网页集合,其中,上述网页集合中的网页的网页布局相同;对上述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从上述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于上述目标网页对中的网页源码,提取上述目标网页对中相同的字符串作为网页关键字符串;对于上述去噪网页集合中的每个去噪网页,基于上述网页关键字符串提取该去噪网页的信息。在一些实施例中,对所述网页集合中的各个网页进行去噪处理之前,将获取上述网页集合中的各个网页的网页源码;对上述网页集合中的每个网页,基于该网页的网页源码中的标签生成该网页的结构树。在一些实施例中,上述网页关键字符串在所述目标网页对的每个网页中是唯一存在的字符串。在一些实施例中,对上述网页集合中的每个网页进行去噪处理,包括:根据正则表达式对上述网页集合中的每个网页进行去噪处理。在一些实施例中,上述编辑距离用于表示两个字符串之间、由一个字符串转成另一个字符串所需的最少编辑操作次数。第二方面,本申请实施例提供了一种获取网页信息装置,该装置包括:获取单元,配置用于获取网页集合,其中,上述网页集合中的网页的网页布局相同;处理单元,配置用于对上述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;选择单元,配置用于从上述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;提取单元,配置用于基于上述目标网页对中的网页源码,提取上述目标网页对中相同的字符串作为网页关键字符串;生成单元,配置用于对于上述去噪网页集合中的每个去噪网页,基于上述网页关键字符串提取该去噪网页的信息。在一些实施例中,该装置还包括:解析单元:配置用于获取上述网页集合中的各个网页的网页源码;第一生成单元,配置用于根据上述页面源码生成上述网页的结构树,其中,上述网页的结构树中包含多个标签。在一些实施例中,网页关键字符串在上述目标网页对的每个网页中是唯一存在的字符串。在一些实施例中,去噪模块,配置用于根据正则表达式对所述网页集合中的每个网页进行去噪处理。在一些实施例中,编辑距离用于表示两个字串之间、由一个字符串转成另一个字符串所需的最少编辑操作次数。本申请实施例提供的获取网页信息的方法和装置,该网页集合中的网页的网页布局相同;对上述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从上述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于上述目标网页对中的网页源码,提取上述目标网页对中相同的字符串作为网页关键字符串;对于上述去噪网页集合中的每个去噪网页,基于上述网页关键字符串提取该去噪网页的信息。从而提高了获取网页信息的效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的获取网页信息方法的一个实施例的流程图;图3是根据本申请的获取网页信息方法的一个应用场景的示意图;图4是根据本申请的获取网页信息方法的又一个实施例的流程图;图5是根据本申请的获取网页信息装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的获取网页信息的方法或获取网页信息的装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的网页提供获取网页信息的网页处理服务器。网页处理服务器可以对获取到的网页数据进行去噪处理,提取网页集合中每个网页的网页信息。需要说明的是,本申请实施例所提供的获取网页信息的方法一般由服务器105执行,相应地,获取网页信息的装置一般设置于服务器105中。在一些情况下,服务器105也可以对本地预存的网页集合进行网页信息的提取,这时,上述系统架构100也可以不具有所显示的终端设备101、102、103。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。继续参考图2,其示出了根据本申请的获取网页信息方法的一个实施例的流程200。该获取网页信息方法,包括以下步骤:步骤201,获取网页集合。在本实施例中,获取网页信息方法运行于其上的电子设备(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从用户利用其进行网页浏览的终端获取网页集合,其中,上述网页集合中的网页的网页布局相同。实践中,网页布局一般是指网页结构,网页结构是对导航栏、栏目、及正文内容这三大页面基本组成元素在网页上的位置布局。作为本文档来自技高网...

【技术保护点】
1.一种获取网页信息方法,其特征在于,所述方法包括:获取网页集合,其中,所述网页集合中的网页的网页布局相同;对所述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从所述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于所述目标网页对中的网页源码,提取所述目标网页对中相同的字符串作为网页关键字符串;对于所述去噪网页集合中的每个去噪网页,基于所述网页关键字符串提取该去噪网页的信息。

【技术特征摘要】
1.一种获取网页信息方法,其特征在于,所述方法包括:获取网页集合,其中,所述网页集合中的网页的网页布局相同;对所述网页集合中的每个网页进行去噪处理,生成相应的、包含网页源码的去噪后的网页,并基于各个去噪后的网页生成去噪网页集合;从所述去噪网页集合中选择网页对进行编辑距离的计算,确定计算出的、编辑距离的数值最大的网页对作为目标网页对,其中,编辑距离的计算是基于网页源码而进行的;基于所述目标网页对中的网页源码,提取所述目标网页对中相同的字符串作为网页关键字符串;对于所述去噪网页集合中的每个去噪网页,基于所述网页关键字符串提取该去噪网页的信息。2.根据权利要求1所述的获取网页信息的方法,其特征在于,所述对所述网页集合中的各个网页进行去噪处理之前,所述方法还包括:获取所述网页集合中的各个网页的网页源码;对于所述网页集合中的每个网页,基于该网页的网页源码中的标签生成该网页的结构树。3.根据权利要求1所述的获取网页信息方法,其特征在于,所述网页关键字符串在所述目标网页对的每个网页中是唯一存在的字符串。4.根据权利要求1所述的获取网页信息方法,其特征在于,所述对所述网页集合中的每个网页进行去噪处理,包括:根据正则表达式对所述网页集合中的每个网页进行去噪处理。5.根据权利要求1-4之一所述的获取网页信息方法,其特征在于,所述编辑距离用于表示两个字串之间、由一个字符串转成另一个字符串所需的最少编辑操作次数。6.一种获取网页信息装置,其特征在于,所述装置包括:获取单元,配置用于获取网页集合,其中,所述网页集合中的网页的网页布局相同;处理单元,配置用于对所述网页集合中的每个网页进行去噪处理,生...

【专利技术属性】
技术研发人员:马静飞
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1