网页数据获取方法及装置制造方法及图纸

技术编号:38077754 阅读:7 留言:0更新日期:2023-07-06 08:45
本公开提供了一种网页数据获取方法及装置,该网页数据获取方法首先接收输入的网址信息,然后通过浏览器对网址信息中包含的网址进行访问,得到相应的网页数据,其中,浏览器加载有第一插件,之后通过第一插件对网页数据进行事件监听,得到事件信息,最后对事件信息进行分析,得到网页的新增数据,其中,新增数据包括弹幕信息和/或提示性信息,通过浏览器加载的插件来进行网页新增数据的抓取,当有新的网页数据出现时能够触发监听事件从而得到新增数据内容,获取动态变化的网页数据的实时性较高且工作量较少,提升了网页数据获取的效率,并且获取到的新增数据的内容完整性较好。且获取到的新增数据的内容完整性较好。且获取到的新增数据的内容完整性较好。

【技术实现步骤摘要】
网页数据获取方法及装置


[0001]本公开涉及计算机
,尤其涉及网页数据获取方法及装置。

技术介绍

[0002]用户在网页上观看视频、直播时或者在论坛、群聊中发表评论时,可能会看到观看者发出的弹幕,或者系统可能会在用户上线或登录网页上的直播间、论坛、群聊时自动显示出相应的提示性内容。其中,弹幕是一种动态的以字幕形式显示的评论信息,能够在用户观看网络视频时在屏幕上滚动呈现。提示性内容同样是一种动态呈现的内容,能够向在直播间、论坛、群聊内的用户提示某用户进行了上线或登录。
[0003]当弹幕较多时,早前发布的弹幕会被后续的弹幕挤出屏幕外消失,从而不再呈现在屏幕中。当多个用户在短时间内进行登录上线时,提示性内容会频繁更新,从而将之前的提示性内容替换掉。因此在抓取弹幕、提示性内容等动态变化的网页数据时,对抓取的时效性要求较高。
[0004]对于这些动态变化的网页数据,目前进行抓取的方式主要包括两种,第一种是采用爬虫技术通过定时的快照来获取这些网页数据,第二种是通过解析网站的网络协议来抓取这些网页数据。然而,由于这些网页数据的动态变化特性,因此有时消失得很快。若采用第一种方式,则容易遗漏数据,因此难以保证抓取到所有数据内容。若采用第二种方式,则分析协议数据的技术难度较大,从而使得工作量较大。

技术实现思路

[0005]为了解决上述技术问题中的至少一个,本公开提供了网页数据获取方法及装置。
[0006]本公开第一方面提出了一种网页数据获取方法,包括:接收输入的网址信息;通过浏览器对所述网址信息中包含的网址进行访问,得到相应的网页数据,其中,所述浏览器加载有第一插件;通过所述第一插件对所述网页数据进行事件监听,得到事件信息;对所述事件信息进行分析,得到网页的新增数据,其中,所述新增数据包括弹幕信息和/或提示性信息。
[0007]根据本公开的一个实施方式,所述第一插件配置有相应的配置文件,所述配置文件中包含有用于启动所述第一插件的目标网址信息。
[0008]根据本公开的一个实施方式,通过浏览器对所述网址信息中指示的网页地址进行访问,包括:响应于接收到的所述网址信息,服务端自动将第一插件加载至浏览器,并控制浏览器对所述网址信息中指示的网页地址进行访问。
[0009]根据本公开的一个实施方式,通过所述第一插件对所述网页数据进行事件监听,得到事件信息,包括:在所述网页数据中查找目标DOM节点;通过所述第一插件对所述目标DOM节点进行目标监听事件绑定,其中,所述目标监听事件被配置为受到网页的新增数据触发生成事件信息。
[0010]根据本公开的一个实施方式,在未查找到目标DOM节点时,等待预设时长并重新查
找目标DOM节点。
[0011]根据本公开的一个实施方式,在通过所述第一插件对所述网页数据进行事件监听之后,所述方法还包括:开始通过所述第一插件确定所述网址的视频是否结束,并在所述网址的视频结束后停止对所述网页数据的事件监听。
[0012]根据本公开的一个实施方式,在接收到多个网址信息时,对所述多个网址信息中包含的网址进行访问,得到多个相应的网页数据,分别对所述多个相应网页数据进行事件监听,得到多个事件信息,分别对所述多个事件信息进行分析,得到各网址的网页的新增数据。
[0013]根据本公开的一个实施方式,在得到网页的新增数据之后,所述方法还包括:通过网络协议将所述新增数据发送至服务端。
[0014]根据本公开的一个实施方式,在得到网页的新增数据之后,所述方法还包括:对所述新增数据进行内容解析,并对解析结果进行响应,以便于与用户进行交互。
[0015]本公开第二方面提出了一种网页数据获取装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一实施方式所述的网页数据获取方法。
附图说明
[0016]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0017]图1是根据本公开的一个实施方式的网页数据获取方法的流程示意图。
[0018]图2是根据本公开的另一个实施方式的网页数据获取方法的流程示意图。
[0019]图3是根据本公开的一个实施方式的采用处理系统的硬件实现方式的网页数据获取装置的示意图。
[0020]图4是根据本公开的另一个实施方式的采用处理系统的硬件实现方式的网页数据获取装置的示意图。
具体实施方式
[0021]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0022]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0023]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0024]本文使用的术语是为了描述具体实施例的目的,而不是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复
数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0025]下面参考附图描述本公开的网页数据获取方法及装置。
[0026]图1是根据本公开的一个实施方式的网页数据获取方法的流程示意图。请参阅图1,本实施方式的网页数据获取方法S10可以包括以下步骤。
[0027]S100,接收输入的网址信息。
[0028]网址信息可以为网页地址文本,用户可以在PC端打开浏览器,将网页地址文本输入到浏览器的地址栏。
[0029]S200,通过浏览器对网址信息中包含的网址进行访问,得到相应的网页数据。其中,浏览器加载有第一插件。
[0030]在打开浏览器之后,将第一插件加载到浏览器,并且使浏览器对网页地址进行访问,以打开相应的网页地址。网页地址可以为观看视频直播的地址,也可以为观看录播视频的地址,还可以为论坛、群聊的地址。以视频页面为例,浏览器打开网页地址后,网页界面中包含有视频播放窗口,视频播放窗口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页数据获取方法,其特征在于,包括:接收输入的网址信息;通过浏览器对所述网址信息中包含的网址进行访问,得到相应的网页数据,其中,所述浏览器加载有第一插件;通过所述第一插件对所述网页数据进行事件监听,得到事件信息;对所述事件信息进行分析,得到网页的新增数据,其中,所述新增数据包括弹幕信息和/或提示性信息。2.根据权利要求1所述的方法,其特征在于,所述第一插件配置有相应的配置文件,所述配置文件中包含有用于启动所述第一插件的目标网址信息。3.根据权利要求1所述的方法,其特征在于,通过浏览器对所述网址信息中指示的网页地址进行访问,包括:响应于接收到的所述网址信息,服务端自动将第一插件加载至浏览器,并控制浏览器对所述网址信息中指示的网页地址进行访问。4.根据权利要求1所述的方法,其特征在于,通过所述第一插件对所述网页数据进行事件监听,得到事件信息,包括:在所述网页数据中查找目标DOM节点;通过所述第一插件对所述目标DOM节点进行目标监听事件绑定,其中,所述目标监听事件被配置为受到网页的新增数据触发生成事件信息。5.根据权利要求4所述的方法,其特征在于,在未查找到目标DOM节点时,等待预设时长并重新...

【专利技术属性】
技术研发人员:欧阳晖勇李媛媛
申请(专利权)人:问问智能信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1