抓取页面信息的方法及装置制造方法及图纸

技术编号:14817437 阅读:58 留言:0更新日期:2017-03-15 11:38
本发明专利技术公开了一种抓取页面信息的方法及装置,涉及互联网技术领域,为解决现有技术中无法从页面信息中获得SEM信息的问题而发明专利技术。本发明专利技术的方法包括:获取关键词,关键词用于查询获得搜索结果页;根据关键词生成搜索结果页的统一资源定位符URL;构造包含URL的网络浏览器对象,并将网络浏览器对象加载到浏览器容器对象中;在浏览器容器对象中获取对应网络浏览器对象的页面源代码,页面源代码为搜索结果页的源代码;解析页面源代码,获得搜索引擎营销SEM信息。本发明专利技术适合应用在获取搜索网站的SEM信息的过程中。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种抓取页面信息的方法及装置
技术介绍
随着互联网浪潮的推进,网络营销也逐步成为企业营销的一种重要的手段。其中搜索引擎营销(SearchEngineMarketing,简称SEM)是一种常用的网络营销方式。SEM的理念是:全面而有效的利用搜索引擎来进行网络营销和推广,以最小的投入,追求最高的性价比,获取最大的来自搜索引擎的访问量,并产生商业价值。然而如何验证网络营销的效果也是备受企业关注。因为通常的抓取页面信息的方法无法获取SEM信息,所以现有技术中验证网络营销效果的方法是:人工查看搜索结果页页面信息,由此获取SEM信息,然后通过分析SEM信息来验证网络营销效果。在上述验证网络营销效果的过程中,专利技术人发现,现有技术中无法从页面信息中获得SEM信息。
技术实现思路
本专利技术提供了一种抓取页面信息的方法及装置,能够解决现有技术中无法从页面信息中获得SEM信息的问题。为解决上述技术问题,一方面,本专利技术提供了一种抓取页面信息的方法,该方法包括:获取关键词,所述关键词用于查询获得搜索结果页;根据所述关键词生成所述搜索结果页的统一资源定位符(UniformResourceLocator,简称URL);构造包含所述URL的网络浏览器对象,并将所述网络浏览器对象加载到浏览器容器对象中;在所述浏览器容器对象中获取对应所述网络浏览器对象的页面源代码,所述页面源代码为所述搜索结果页的源代码;解析所述页面源代码,获得SEM信息。另一方面,本专利技术还提供了一种抓取页面信息的装置,该装置包括:第一获取单元,用于获取关键词,所述关键词用于查询获得搜索结果页;生成单元,用于根据所述第一获取单元获取的所述关键词生成所述搜索结果页的URL;构造单元,用于构造包含所述生成单元生成的所述URL的网络浏览器对象;加载单元,用于将所述构造单元构造的所述网络浏览器对象加载到浏览器容器对象中;第二获取单元,用于在所述浏览器容器对象中获取对应所述构造单元构造的并由加载单元加载的所述网络浏览器对象的页面源代码,所述页面源代码为所述搜索结果页的源代码;解析单元,用于解析所述第二获取单元获取的所述页面源代码,获得SEM信息。本专利技术提供的抓取页面信息的方法及装置,能够获取查询搜索结果页的关键词,根据关键词生成搜索结果页的URL,构造包含URL的网络浏览器对象,并加载到浏览器容器对象中。然后通过浏览器容器对象获取对应网络浏览器对象的页面源代码,最后解析页面源代码,获得SEM信息。与现有技术相比,本专利技术能够从搜索结果页的页面源代码中获取SEM信息。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种抓取页面信息的方法流程图;图2示出了本专利技术实施例提供的另一种抓取页面信息的方法流程图;图3示出了本专利技术实施例提供的一种抓取页面信息的装置的组成框图;图4示出了本专利技术实施例提供的另一种抓取页面信息的装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为解决现有技术中无法从页面信息中获得SEM信息的问题,本专利技术实施例提供了一种抓取页面信息的方法,如图1所示,该方法包括:101、获取关键词,关键词用于查询获得搜索结果页。获取关键词是进行网络搜索、查询并获得搜索结果页的必要条件,不同的关键词可以获得不同的搜索结果页。本实施例中,只针对进行了搜索引擎营销的客户,客户在搜索引擎营销时会购买一些关键词,这些关键词就是本步骤中要获取的关键词。实际应用中,关键词可以由客户直接提供获得,本实施例不对关键词的数量进行限制。102、根据关键词生成搜索结果页的URL。搜索结果页是以一个文件的形式存储的,并由其对应的URL予以标识,因此为了后面能够获取搜索结果页就需要得到搜索结果页对应的URL。而搜索结果页对应的URL是由步骤101获取的关键词可以唯一确定的,所以,需要根据关键词生成搜索结果页的URL。103、构造包含URL的网络浏览器对象,并将网络浏览器对象加载到浏览器容器对象中。本实施例是通过网络浏览器来抓取页面信息的,因此首先需要建立网络浏览器对象,通过执行网络浏览器对象来抓取页面信息,即抓取搜索结果页的信息。由步骤102可知,搜索结果页是由与它对应的URL进行标识的,所以能够通过建立网络浏览器对象和URL的联系来实现抓取页面信息的目的。上述联系通过构造包含URL的网络浏览器对象来建立,然后将构造好的包含URL的网络浏览器对象加载到网络浏览器容器对象中。将包含URL的网络浏览器对象加载到网络浏览器容器对象中是为了将后面所有的搜索结果页集中存放、统一解析。104、在浏览器容器对象中获取对应网络浏览器对象的页面源代码,页面源代码为搜索结果页的源代码。包含URL的网络浏览器对象加载到浏览器容器对象后,在浏览器容器对象中获取URL对应的搜索结果页,搜索结果页的信息是以页面源代码的形式记录和保存的,所以对应网络浏览器对象的页面源代码就是搜索结果页的源代码。105、解析页面源代码,获得SEM信息。由步骤104得到的搜索结果页的源代码中包含了搜索结果页的全部信息,而本实施例只需要获取其中的SEM信息,所以需要对得到的页面源代码进行解析来获取SEM信息。SEM信息包括:某个链接在搜索结果页面中哪个位置的推广链接中、该链接在推广链接中的排名、该链接的标题描述、该链接下面是否有图片等。本实施例提供的抓取页面信息的方法,能够获取查询搜索结果页的关键词,根据关键词生成搜索结果页的URL,构造包含URL的网络浏览器对象,并加载到浏览器容器对象中。然后通过浏览器容器对象获取对应网络浏览器对象的页面源代码,最后解析页面源代码,获得SEM信息。与现有技术相比,本实施例能够从搜索结果页的页面源代码中获取SEM信息。进一步的,作为对图1所示实施例的细化及扩展,本专利技术实施例还提供了另一实施例。如图2所示,该实施例中抓取页面信息的方法包括:201、获取关键词,关键词用于查询获得搜索结果页。该步骤的实现方式与图1步骤101的实现方式相同,此处不再赘述。202、根据关键词生成搜索结果页的URL。该步骤的实现方式与图1步骤102的实现方式相同,此处不再赘述。203、创建浏览器容器对象及网络浏览器对象。首先,创建浏览器容器对象,本实施例中的浏览器容器对象是Tabcontrol容器对象,Tabcontrol是用于显示页面标签页的容器,用到本实施例中是用来显示搜索结果页的容器。然后,创建网络浏览器对象,本实施例依靠的是cefSharp开源框架,所以,本文档来自技高网...
抓取页面信息的方法及装置

【技术保护点】
一种抓取页面信息的方法,其特征在于,所述方法包括:获取关键词,所述关键词用于查询获得搜索结果页;根据所述关键词生成所述搜索结果页的统一资源定位符URL;构造包含所述URL的网络浏览器对象,并将所述网络浏览器对象加载到浏览器容器对象中;在所述浏览器容器对象中获取对应所述网络浏览器对象的页面源代码,所述页面源代码为所述搜索结果页的源代码;解析所述页面源代码,获得搜索引擎营销SEM信息。

【技术特征摘要】
1.一种抓取页面信息的方法,其特征在于,所述方法包括:获取关键词,所述关键词用于查询获得搜索结果页;根据所述关键词生成所述搜索结果页的统一资源定位符URL;构造包含所述URL的网络浏览器对象,并将所述网络浏览器对象加载到浏览器容器对象中;在所述浏览器容器对象中获取对应所述网络浏览器对象的页面源代码,所述页面源代码为所述搜索结果页的源代码;解析所述页面源代码,获得搜索引擎营销SEM信息。2.根据权利要求1所述的方法,其特征在于,在所述构造包含所述URL的网络浏览器对象之前,所述方法进一步包括:创建所述浏览器容器对象及所述网络浏览器对象。3.根据权利要求1所述的方法,其特征在于,所述构造包含所述URL的网络浏览器对象,包括:将所述URL设置为所述网络浏览器对象的参数。4.根据权利要求1所述的方法,其特征在于,所述在所述浏览器容器对象中获取对应所述网络浏览器对象的页面源代码,包括:在所述浏览器容器对象中执行所述网络浏览器对象,向网络侧上报所述URL;接收所述网络侧返回的对应所述URL的搜索结果页的页面源代码。5.根据权利要求1所述的方法,其特征在于,所述解析所述页面源代码,获得搜索引擎营销SEM信息,包括:在所述页面源代码中查找预设编号;获取所述预设编号对应的代码信息。6.根据权利要求5所述的方法,其特征在于,在所述页面源代码中查找预设编号之后,所述方法进一步包括:从所述预设编号中提取位置信息,所述位置信息用于...

【专利技术属性】
技术研发人员:郑国良何熠皓
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1