网页获取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:22075298 阅读:25 留言:0更新日期:2019-09-12 14:00
本申请涉及一种网页获取方法、装置、计算机设备及存储介质,该方法包括:在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;由所述页面获取应用,调用安装于所述容器中的浏览器;通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。本申请的方案,能够提高网页内容获取的准确性。

Web page acquisition methods, devices, computer equipment and storage media

【技术实现步骤摘要】
网页获取方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,特别是涉及一种网页获取方法、装置、计算机设备及存储介质。
技术介绍
随着互联网技术的飞速发展,越来越多的场景需要获取网页内容。比如,网页爬虫就需要爬取网页内容。网页内容的完整性,直接影响到相关结果的准确性,因此,获取完整的网页内容至关重要。传统方法在获取网页内容时,是使用HTTP协议请求网页内容,这种方式所请求到的网页内容,并未经过浏览器的解析计算,可能只包含部分数据。所以,导致获取的网页内容缺失比较多,造成所获取的网页内容不够准确。
技术实现思路
基于此,有必要针对传统网页获取方法存在的准确性比较低的问题,提供一种网页获取方法、装置、计算机设备及存储介质。一种网页获取方法,所述方法包括:在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;由所述页面获取应用,调用安装于所述容器中的浏览器;通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。一种网页获取装置,所述装置包括:获取模块,用于在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;调用模块,用于由所述页面获取应用,调用安装于所述容器中的浏览器;渲染模块,用于通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;由所述页面获取应用,调用安装于所述容器中的浏览器;通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;由所述页面获取应用,调用安装于所述容器中的浏览器;通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。上述网页获取方法、装置、计算机设备及存储介质,在容器中运行所安装的用于获取页面内容的页面获取应用,通过该页面获取应用获取目标网页的链接地址。在容器中安装有浏览器,由页面获取应用调用容器中的浏览器,即可以通过浏览器渲染与所述链接地址对应的目标网页的页面内容。那么,最终获取的目标网页的页面内容,是经过浏览器渲染解析得到的,因此,相较于传统的基于HTTP协议请求所获取的页面内容而言,更加地完整,从而提高了所获取的网页内容的准确性。附图说明图1为一个实施例中网页获取方法的应用场景图;图2为一个实施例中网页获取方法的流程示意图;图3为一个实施例中网页获取方法的架构示意图;图4为另一个实施例中网页获取方法的流程示意图;图5为一个实施例中的网页获取方法的时序图;图6为一个实施例中网页获取装置的框图;图7为另一个实施例中网页获取装置的框图;图8为一个实施例中计算机设备的框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中网页获取方法的应用场景图。参照图1,该应用场景中包括终端110和服务器120。终端110可以是智能电视机、智能音箱、台式计算机或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。服务器120中安装有容器,容器中设置有页面获取应用。服务器120可以在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序。服务器120可以通过页面获取应用接收终端110发送的目标网页的链接地址。服务器120可以由所述页面获取应用,调用安装于所述容器中的浏览器,并通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。服务器120可以将渲染的页面内容返回至终端110。需要说明的是,本申请所提供的网页获取方法并不限定于图1所列举的实施例。在其他实施例中,服务器120也可以直接从本地获取所指定的目标网页的链接地址。图2为一个实施例中网页获取方法的流程示意图。本实施例主要以该网页获取方法应用于计算机设备为例进行举例说明,该计算机设备可以为图1中的服务器120。参照图2,该方法具体包括如下步骤:S202,在容器中运行页面获取应用;页面获取应用,是安装于容器的用于获取页面内容的应用程序。其中,容器,是一种轻量级、可移植、自包含的软件包,可使应用程序在任何地方以相同的方式运行。即,当应用程序被安装于容器中时,那么该应用程序所依赖的下层环境就不再重要了,其可以在任何地方以相同的方式运行。具体地,计算机设备中可以通过容器技术创建容器,在容器中安装页面获取应用。该页面获取应用,是专设的用于获取页面内容的应用程序。计算机设备可以在容器中运行该页面获取应用,以实现对目标网页的网页内容的获取。在一个实施例中,计算机设备可以通过Docker技术来创建容器。Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中。S204,通过页面获取应用获取目标网页的链接地址。其中,目标网页的链接地址,即目标网页的统一资源定位符(URL,UniformResourceLocator,统一资源定位符),用于指出目标网页的数据的存储位置。可以理解,目标网页的数据,是指目标网页未经过解析的、无法直接进行展示的原始数据。即,对目标网页的原始的数据进行解析渲染后,才能够生成能够直接展示的页面内容。目标网页,即为待获取页面内容的网页。可以理解,目标网页可以是任意形式的网页。在一个实施例中,目标网页可以包括单页面应用的网页和多页面应用的网页中的至少一种。其中,单页面应用(singlepagewebapplication,SPA),是指只有一张Web页面的应用程序。可以理解,单页面应用是一种特殊的Web应用。它将所有的活动局限于一个Web页面中,仅在该Web页面初始化时加载相应的HTML(HyperTextMarkupLanguage,超文本标记语言)、JavaScript和CSS(CascadingStyleSheets,层叠样式表)。一旦页面加载完成,后续所有的操作都在这张页面上完成,SPA不会因为用户的操作而进行页面的重新加载或跳转,而是由JavaScript来控制,当URL地址变更时或请求参数变更时,JavaScript重新获取数据并对该页面进行更新。其中,JavaScrip,是一种直译式脚本语言。多页面应用(Multi-pageApplication,MPA),是指在每一次页面跳转时,后台服务器都会返回一个新的html文档,以生成一个新的页面的应用程序。可以理解,多页面应用是本文档来自技高网...

【技术保护点】
1.一种网页获取方法,所述方法包括:在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;由所述页面获取应用,调用安装于所述容器中的浏览器;通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。

【技术特征摘要】
1.一种网页获取方法,所述方法包括:在容器中运行页面获取应用;所述页面获取应用,是安装于所述容器的用于获取页面内容的应用程序;通过所述页面获取应用获取目标网页的链接地址;由所述页面获取应用,调用安装于所述容器中的浏览器;通过所述浏览器,渲染与所述链接地址对应的所述目标网页的页面内容。2.根据权利要求1所述的方法,其特征在于,所述通过所述页面获取应用获取目标网页的链接地址包括:通过所述网页获取应用,获取页面请求方发送的页面请求;从所述页面请求中提取目标网页的链接地址;所述方法还包括:向所述页面请求方返回渲染的所述页面内容。3.根据权利要求1所述的方法,其特征在于,所述页面获取应用中设置了用于提供浏览器接口函数的函数库;所述浏览器接口函数,是安装于所述容器的浏览器的接口函数;所述由所述页面获取应用,调用安装于所述容器中的浏览器包括:调用所述页面获取应用中的所述函数库所提供的浏览器接口函数;通过所述浏览器接口函数,调用所述浏览器。4.根据权利要求3所述的方法,其特征在于,所述页面获取应用是在JavaScript开发平台中开发得到;所述函数库,是所述JavaScript开发平台的、且用于提供所述浏览器接口函数的库;所述浏览器具备JavaScript引擎。5.根据权利要求1所述的方法,其特征在于,所述页面获取应用中设置有函数库;所述函数库中包括用于调用安装于容器的浏览器的长连接服务的库函数;所述由所述页面获取应用,调用安装于所述容器中的浏览器包括:根据所述库函数,调用所述浏览器的长连接服务的端口,与所述浏览器之间建立长连接;通过所述长连接调用所述浏览器。6.根据权利...

【专利技术属性】
技术研发人员:范小明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1