一种网页收藏方法、装置及系统制造方法及图纸

技术编号:7703872 阅读:142 留言:0更新日期:2012-08-25 00:36
本发明专利技术公开一种网页收藏方法、装置及系统。所述方法包括:接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;对所抓取的网页内容进行保存。应用本发明专利技术实施例所提供的技术方案,可以保证抓取的网页内容的全面性,并且可以提升网页收藏结果的有序性,便于用户进行阅读。

【技术实现步骤摘要】

本专利技术涉及网络数据处理领域,特别是涉及ー种网页收藏方法、装置及系统
技术介绍
收藏网页,是指互联网用户将感兴趣的网页进行保存,以便于随时能够重新阅读相关信息。现有技术中ー种网页收藏方法是将用户浏览过的网页内容以快照的形式保存起来。具体的,该方法实现的过程中,根据用户所提供的待收藏网页的超链接,定位网页并对网页进行快照,将快照保存为网页收藏信息,用户还可以进一歩对所收藏的网页标题、简介和标签等信息进行编辑。网页收藏成功后,用户可以随时进行查看。 但是,现有技术中的网页收藏方法,在快照的形式显示网页收藏内容时,也丢失大量的网页原始信息,很容易导致所述显示的收藏网页内容失去原有的排版格式,页面杂乱无章,可读性差。
技术实现思路
本专利技术的目的是提供ー种网页收藏方法、装置及系统,能够较为完整的保存网页收藏页面内容。为实现上述目的,本专利技术提供了如下方案ー种网页收藏方法,包括接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;对所抓取的网页内容进行保存。其中,还包括当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。其中,所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码,包括在用户所浏览的网页中添加内嵌框架;在所述内嵌框架中写入所述脚本代码。其中,所述抓取所述网页的内容描述信息,包括抓取所述网页的文档对象模型信息。其中,所述对所抓取的网页内容进行保存,包括根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。其中,所述根据解析结果抓取所述网页的内容包括根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。 其中,所述根据解析结果抓取所述网页的内容包括在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。其中,在抓取网页的内容描述信息之后,还包括将所述内容描述信息发送至服务器端设备;所述服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容,并对所抓取的网页内容进行保存。ー种网页收藏装置,包括描述信息抓取単元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;网页内容抓取単元,用于对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;网页内容保存単元,用于对所抓取的网页内容进行保存。其中,还包括代码注入単元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。其中,所述代码注入単元,包括框架添加子単元,用于在用户所浏览的网页中添加内嵌框架;代码写入子単元,用于在所述内嵌框架中写入所述脚本代码。其中,所述描述信息抓取単元,具体用于在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。其中,所述网页内容保存単元,具体用于根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。其中,所述网页内容抓取单元,具体用于根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。其中,所述网页内容抓取单元,具体用于在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。—种网页收藏系统,包括客户端设备和服务器端设备;所述客户端设备,包括描述信息抓取単元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;描述信息发送单元,用于将所述网页内容描述信息发送至服务器端设备;所述服务器端设备,包括描述信息接收单元,用于接收客户端设备发送的网页内容描述信息;网页内容抓取単元,用于对所述网页内容描述信息进行解析,根据解析结果抓取网页的内容;网页内容保存単元,用于对所抓取的网页内容进行保存。其中,所述客户端设备还包括代码注入単元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。其中,所述代码注入単元,包括框架添加子単元,用于在用户所浏览的网页中添加内嵌框架;代码写入子単元,用于在所述内嵌框架中写入所述脚本代码。其中,所述描述信息抓取単元,具体用于在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。其中,所述网页内容保存単元,具体用于根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。其中,所述网页内容抓取单元,具体用于根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。其中,所述网页内容抓取单元,具体用于在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。本专利技术实施例所提供的技术方案,由于通过预先写入所述网页的脚本代码对网页的描述信息进行抓取,一方面保证了抓取的网页内容的全面性;另一方面,由于网页的描述信息中携帯有网页的样式信息,因此在保存网页内容时,可以根据样式信息对网页内容进行排版,从而提高了网页收藏结果的有序性,便于用户进行阅读。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本专利技术的网页收藏方法一种实施例的流程图; 图2为本专利技术的网页收藏方法另ー种实施例的流程图3为本专利技术的网页收藏装置实施例的结构示意图;图4为本专利技术的网页收藏系统实施例的结构示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例 ,都属于本专利技术保护的范围。首先对本专利技术实施例所提供的ー种网页收藏方法进行说明,该方法可以包括以下步骤接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;对所抓取的网页内容进行保存。在本专利技术的一种实施方式中,上述步骤可以全部在客户端设备中实现,例如在浏览器本身、浏览器插件或者专用的网页收藏软件中实现。在本专利技术的一种实施方式中,上述步骤中写入脚本代码步骤以及抓取网页内容描述信息的步骤在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.ー种网页收藏方法,其特征在于,包括 接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息; 对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容; 对所抓取的网页内容进行保存。2.根据权利要求I所述的方法,其特征在于,还包括 当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码; 或者, 当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。3.根据权利要求2所述的方法,其特征在于,所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码,包括 在用户所浏览的网页中添加内嵌框架; 在所述内嵌框架中写入所述脚本代码。4.根据权利要求I所述的方法,其特征在于,所述抓取所述网页的内容描述信息,包括 抓取所述网页的文档对象模型信息。5.根据权利要求I所述的方法,其特征在于,所述对所抓取的网页内容进行保存,包括 根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。6.根据权利要求I所述的方法,其特征在于,所述根据解析结果抓取所述网页的内容包括 根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。7.根据权利要求I所述的方法,其特征在于,所述根据解析结果抓取所述网页的内容包括 在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。8.根据权利要求1-7任一项所述的方法,其特征在干, 在抓取网页的内容描述信息之后,还包括将所述内容描述信息发送至服务器端设备; 所述服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容,并对所抓取的网页内容进行保存。9.ー种网页收藏装置,其特征在于,包括 描述信息抓取単元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息; 网页内容抓取単元,用于对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;网页内容保存単元,用于对所抓取的网页内容进行保存。10.根据权利要求9所述的装置,其特征在于,还包括 代码注入単元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。11.根据权利要求10所述的装置,其特征在于,所述代码注入単元,包括 框架添加子単元,用于在用户所浏览的网页中添加内嵌框架; 代码写入子単元,用于在所述内嵌框架中写入所述脚本代码。12.根据...

【专利技术属性】
技术研发人员:曾强张平魏钦刚
申请(专利权)人:奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1