一种动态收集并聚合网页信息的方法技术

技术编号:13970792 阅读:43 留言:0更新日期:2016-11-10 08:38
本发明专利技术公开了一种动态收集并聚合网页信息的方法,涉及信息技术领域。所述方法:判断用户选择网页网址信息收藏还是目标信息的收藏,如果是前者,则直接进入网页网址信息收藏;如果是后者,则解析浏览器上目标页面得到所述目标页面上的全部信息,并将所述全部信息展示给用户;获取用户针对所述全部信息所选中目标信息,将所述目标信息形成预览界面展示给用户;在获取用户确认存储所述预览界面中的目标信息的指令后,将所有目标信息聚合存储到浏览器中。本发明专利技术不仅仅支持网页网址信息收藏,还同时支持收藏目标信息源,并且支持目标信息源以一种统一的格式聚合在一个界面内聚合浏览。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及一种动态收集并聚合网页信息的方法
技术介绍
在信息化飞速发展的今天,网络上存在着多种信息源。而用户在网页上检索到目标信息源时,一般是直接使用浏览器上存在的收藏夹功能,将目标信息源所在网页收到起来,这样做存在的弊端为:1、若该网页由于某种原因失效,则在后期打开该网页时,出现打开失败导致失去目标信息源;2、在智能设备未连入网络的情况下,无法打开收藏的网页,导致查看不到目标信息源,现有浏览器上的收藏夹在使用上存在局限性。
技术实现思路
本专利技术的目的在于提供一种动态收集并聚合网页信息的方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术所述动态收集并聚合网页信息的方法,所述方法包括:S1,判断用户选择网页网址信息收藏还是目标信息的收藏,如果是前者,则直接进入网页网址信息收藏;如果是后者,则解析浏览器上目标页面得到所述目标页面上的全部信息,并将所述全部信息展示给用户;S2,获取用户针对所述全部信息所选中目标信息,将所述目标信息形成预览界面展示给用户;S3,在获取用户确认存储所述预览界面中的目标信息的指令后,将所有目标信息聚合存储到浏览器中。优选地,所述解析目标页面得到所述目标页面上的全部信息,具体按照下述步骤实现:打开目标网页后,浏览器通过网络http请求获得目标网页在服务器中所对应的数据资源,然后将接收到数据资源按照W3C标准解析html和CSS代码,得到一组DOM标签后,根据DOM树结构渲染目标页面内容,完成解析目标页面并获得所述目标页面上全部信息,包括文本信息和图像信息。优选地,每条经用户预览并确认存储的目标信息数据,将以独立一条记录的方式存储到浏览器中,同时,在存储时可选择存储位置;全部目标信息数据的存储按照文件夹多级结构聚合。优选地,所述目标信息包括:网页标题、网页网址、网页正文内容、截屏获得网页截图、网页内鼠标所选中的网页局部信息和跨屏幕截取整个网页而形成的一张图片信息。更优选地,当所述目标信息为网页正文内容时,按照下述进行实现:获取目标页面上涉及到所述网页正文内容的所有信息,并将与所述网页正文内容无关的信息删除,然后将剩余的信息形成所述网页正文内容的预览界面;所述无关的信息包括网页的广告信息和头尾无效信息。更优选地,获取网页正文信息按照下述步骤实现:遍历与网页正文内容涉及到的所有代码元素,并对每个元素进行评分,获得得分最高的元素M,检查元素M的兄弟元素的评分大于等于最高分数的20%,如果是,则保存元素M及其兄弟元素所对应的内容为网页正文内容;如果否,则放弃元素M及其兄弟元素所对应的内容;所述评分是按照下述规则实现:a、元素的名称中包括header标签和footer标签,该元素被扣分;b、元素的class与id中value值为comment或nav或sider,该元素被扣分;c、针对链接A标签的密度计算,如果局部标签A的密度较其外层标签的密度高,则其外层标签被扣分;d、针对元素文本节点长度计算,如果文本标签的长度超过阈值,则该元素加分;e、如果连续出现多个文本节点元素,则该元素外层标签会加分。更优选地,当用户选择的目标信息为网页网址时,按照下述进行实现:获取所述网页标题和网页网址的代码数据,并将所述代码数据形成预览界面。更优选地,当用户选择的目标信息为截屏获得网页截图,按照下述方法获取:在被展示的目标页面上,开启截屏功能,待用户选定截屏区域后,直接将选定的截屏区域形成预览界面。更优选地,当用户选择的目标信息为网页内鼠标所选中的网页局部信息时,按照下述方法获取:在被展示的目标页面上,给出光标选取提示信息待用户拖动光标选择所需网页内容,完成后直接将所述网页内容直接形成预览界面;更优选地,当用户选择的目标信息为跨屏幕截取整个网页而形成的一张图片信息,按照下述方法获取:直接获取展示在浏览器上的目标界面的全屏截图,并将所述全屏截图形成预览界面。与现有技术的区别在于,本专利技术不仅仅支持网页网址信息收藏,同时,支持网页正文内容、截屏获得网页截图、网页内鼠标选中的网页局部信息、跨屏幕截取整个网页为一张图片信息,并且支持这些多种信息以一种统一的格式聚合在一个界面内聚合浏览。其中,抓取网页正文内容技术,将通过解析、识别网页内的广告信息和头尾无效信息,抓取其中的正文信息,将抓取结果预览、收集存储进入个人独立的信息聚合浏览器内。本专利技术的有益效果是:本专利技术不仅仅支持网页网址信息收藏,还同时支持收藏目标信息源,如:网页正文内容、截屏获得网页截图、网页内鼠标选中的网页局部信息、跨屏幕截取整个网页为一张图片信息,并且支持这些目标信息源以一种统一的格式聚合在一个界面内聚合浏览。附图说明图1是所述动态收集并聚合网页信息的方法流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。实施例本实施例所述动态收集并聚合网页信息的方法,所述方法包括:S1,判断用户选择网页网址信息收藏还是目标信息的收藏,如果是前者,则直接进入网页网址信息收藏;如果是后者,则解析浏览器上目标页面得到所述目标页面上的全部信息,并将所述全部信息展示给用户;S2,获取用户针对所述全部信息所选中目标信息,将所述目标信息形成预览界面展示给用户;S3,在获取用户确认存储所述预览界面中的目标信息的指令后,将所有目标信息聚合存储到浏览器中,用户可直接在该浏览器内查看已存储的各类网页信息并整理。更详细的解释说明为:(一)所述解析目标页面得到所述目标页面上的全部信息,具体按照下述步骤实现:打开目标网页后,浏览器通过网络http请求获得目标网页在服务器中所对应的数据资源,然后将接收到数据资源按照W3C标准解析html和CSS代码,得到一组DOM标签后,根据DOM树结构渲染目标页面内容,完成解析目标页面并获得所述目标页面上全部信息,包括文本信息和图像信息。(二)每条经用户预览并确认存储的目标信息数据,将以独立一条记录的方式存储到浏览器中,同时,在存储时可选择存储位置;全部目标信息数据的存储按照文件夹多级结构聚合。(三)所述目标信息包括:网页标题、网页网址、网页正文内容、截屏获得网页截图、网页内鼠标所选中的网页局部信息和跨屏幕截取整个网页而形成的一张图片信息。1)当所述目标信息为网页正文内容时,按照下述进行实现:获取目标页面上涉及到所述网页正文内容的所有信息,并将与所述网页正文内容无关的信息删除,然后将剩余的信息形成所述网页正文内容的预览界面;所述无关的信息包括网页的广告信息和头尾无效信息。更具体的为:网站头部广告图片、网站目录、站内导航等信息,如标签<header><footer>内的信息。获取网页正文信息按照下述步骤实现:遍历与网页正文内容涉及到的所有代码元素,并对每个元素进行评分,获得得分最高的元素M,检查元素M的兄弟元素的评分大于等于最高分数的20%,如果是,则保存元素M及其兄弟元素所对应的内容为网页正文内容;如果否,则放弃元素M及其兄弟元素所对应的内容;所述评分是按照下述规则实现:a、元素的名称中包括header标签和footer标签,该元素被扣分;b、元素的class与本文档来自技高网...

【技术保护点】
一种动态收集并聚合网页信息的方法,其特征在于,所述方法包括:S1,判断用户选择网页网址信息收藏还是目标信息的收藏,如果是前者,则直接进入网页网址信息收藏;如果是后者,则解析浏览器上目标页面得到所述目标页面上的全部信息,并将所述全部信息展示给用户;S2,获取用户针对所述全部信息所选中目标信息,将所述目标信息形成预览界面展示给用户;S3,在获取用户确认存储所述预览界面中的目标信息的指令后,将所有目标信息聚合存储到浏览器中。

【技术特征摘要】
1.一种动态收集并聚合网页信息的方法,其特征在于,所述方法包括:S1,判断用户选择网页网址信息收藏还是目标信息的收藏,如果是前者,则直接进入网页网址信息收藏;如果是后者,则解析浏览器上目标页面得到所述目标页面上的全部信息,并将所述全部信息展示给用户;S2,获取用户针对所述全部信息所选中目标信息,将所述目标信息形成预览界面展示给用户;S3,在获取用户确认存储所述预览界面中的目标信息的指令后,将所有目标信息聚合存储到浏览器中。2.根据权利要求1所述方法,其特征在于,所述解析目标页面得到所述目标页面上的全部信息,具体按照下述步骤实现:打开目标网页后,浏览器通过网络http请求获得目标网页在服务器中所对应的数据资源,然后将接收到数据资源按照W3C标准解析html和CSS代码,得到一组DOM标签后,根据DOM树结构渲染目标页面内容,完成解析目标页面并获得所述目标页面上全部信息,包括文本信息和图像信息。3.根据权利要求1所述方法,其特征在于,每条经用户预览并确认存储的目标信息数据,将以独立一条记录的方式存储到浏览器中,同时,在存储时可选择存储位置;全部目标信息数据的存储按照文件夹多级结构聚合。4.根据权利要求1所述方法,其特征在于,所述目标信息包括:网页标题、网页网址、网页正文内容、截屏获得网页截图、网页内鼠标所选中的网页局部信息和跨屏幕截取整个网页而形成的一张图片信息。5.根据权利要求4所述方法,其特征在于,当所述目标信息为网页正文内容时,按照下述进行实现:获取目标页面上涉及到所述网页正文内容的所有信息,并将与所述网页正 文内容无关的信息删除,然后将剩余的信息形成所述网页正文内容的预览界面;所述无关的信息包括网页的广告信息和头尾无效信息。6.根据权利要求5所述方法...

【专利技术属性】
技术研发人员:陈明杰
申请(专利权)人:网际傲游北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1