一种保存网页内容的系统、方法及浏览器技术方案

技术编号:2836151 阅读:322 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种保存网页内容的系统,包括:内容选取单元,用于选取网页中的待保存内容,所述待保存内容为网页中的部分内容;文档转换单元,用于根据网页脚本将所述内容选取单元选取的待保存内容转换为一个完整的文件;内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。本发明专利技术还提供一种对应的保存网页内容的方法及浏览器。本发明专利技术通过选取并保存网页中的部分内容,而不保存网页中的其它无关内容,节省了存储空间且方便了对保存内容的浏览。

【技术实现步骤摘要】

本专利技术涉及计算机信息存储领域,更具体地说,涉及一种保存网页内容的系统、方法及浏览器
技术介绍
用户浏览因特网网页时,其网页浏览器与服务器的数据交互采用超文本传输协议(HTTP);服务器发送的网页数据包括超文本标记语言(HTML)等格式的文本文件及相关媒体资源,网页浏览器进一步解析这些文件,并将其绘制到窗口中,以供用户友好交互。通常,用户可使用浏览器提供的网页保存功能保存当前正在浏览的网页,其保存格式根据浏览内容的不同可以是HTML(Hyper Text Markup Language,超文本标记语言)脚本和图片等。随着多媒体信息的迅速膨胀,用户通过网页获取越来越多的资源,与此同时,保存网页内容也成为用户信息储备的一个重要手段。然而,现有网页的内容和版式日趋复杂。以普通的门户网站为例,其常规的新闻页面中,除了包括用户感兴趣的特定新闻内容,往往还包括大量的广告和相关推荐新闻等信息。此类信息不为用户所感兴趣,大多采用动态图片方式呈现,而且保存时占用较多的存储空间。例如某一门户网站的普通新闻网页,其实质新闻内容占用大约39068字节(包括有效附图),而实际保存内容却占用了224478字节,有效比例仅为17.4%。由此可见,用户为了保存某则新闻信息,却需要为其它不相关内容耗费更大比例的存储空间。这种额外开销存在于很多网页中。通常情况下,用户仅对网页中的部分内容感兴趣,但现有的浏览器却不能单独保存该部分内容,而只能保存整个网页,从而不仅浪费了存储空间,并且使用户在后续浏览时,造成一些操作上的不方便,例如需要重新定位到感兴趣的部分内容。此外,利用某些提供网页编辑功能的软件,例如Dreamweaver、MS Word等,可以保存网页中的指定内容。这些软件在保存网页内容时,必须首先在浏览器中通过选取欲保存的内容,将其复制到剪贴板中;然后在Dreamweaver/Word中粘贴,并保存为html格式的网页文件。显然,这种方式保存内容时操作过程较为复杂,需要在不同的软件之间切换;选取待保存内容的方式比较单一,尤其是在大规模文本的情况下,保持鼠标左键按下并拖动,使得操作非常不方便。
技术实现思路
本专利技术要解决的技术问题在于,针对上述网页内容保存占用空间且查看保存的内容不方便的问题,提供一种保存网页内容的系统、方法及浏览器。本专利技术解决上述技术问题的技术方案是,提供一种保存网页内容的系统,包括内容选取单元,用于选取网页中的待保存内容,所述待保存内容为网页中的部分内容;文档转换单元,用于根据网页脚本将所述内容选取单元选取的内容转换为一个完整的文件;内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。在本专利技术所述的一种保存网页内容的系统中,所述文档转换单元进一步包括选区定位子单元,所述内容选取单元进一步包括内容输入子单元、内容预览子单元和内容调整子单元,其中所述内容输入子单元,用于从浏览器显示的网页中选取内容;所述选区定位子单元,用于将所述选取的待保存内容转换为脚本片段;所述内容预览子单元,用于将所述选区定位子单元获得的脚本片段显示为待保存内容; 所述内容调整子单元,用于调整并确认内容预览子单元中显示的待保存内容。在本专利技术所述的一种保存网页内容的系统中,所述文档转换单元进一步包括文档维护子单元,用于将<html>标签加入待保存内容对应的脚本片段的起始位置并将</html>标签加入所述脚本片段的结尾位置。在本专利技术所述的一种保存网页内容的系统中,所述文档转换单元进一步包括语法校正子单元,用于修正所述选取或经过确认的待保存内容的脚本片段的语法错误。在本专利技术所述的一种保存网页内容的系统中,所述选区定位子单元根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。在本专利技术所述的一种保存网页内容的系统中,所述选区定位子单元根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。本专利技术还提供一种保存网页内容的方法,包括以下步骤(a)选取网页中的待保存内容,并根据网页脚本将所述选取的待保存内容转换为一个完整的文件,所述待保存内容为网页中的部分内容;(b)将所述文件保存到存储空间。在本专利技术所述的一种保存网页内容的方法中,所述步骤(a)进一步包括(a1)将所述选取的待保存内容转换为脚本片段;(a2)将所述选区定位子单元获得的脚本片段显示为待保存内容;(a3)调整并确认内容预览子单元中显示的待保存内容;(a4)将所有确认的待保存内容对应的脚本片段转化为一个完整的文件。在本专利技术所述的一种保存网页内容的方法中,所述步骤(a)进一步包括修正所述选取或经过确认的待保存内容的脚本片段的语法错误。在本专利技术所述的一种保存网页内容的方法中,所述步骤(a1)中,根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。本专利技术还提供一种可保存网页内容的浏览器,包括 内容选取单元,用于选取网页中的待保存内容,所述待保存内容为网页中的部分内容;文档转换单元,用于根据网页脚本将所述内容选取单元选取的内容转换为一个完整的文件;内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。本专利技术一种保存网页内容的系统、方法及浏览器,通过选取并保存网页中的部分内容,而不保存网页中的其它无关内容,节省了存储空间且方便了对保存内容的浏览。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中图1是本专利技术一种保存网页内容的系统实施例的结构示意图;图2是图1中文档转换单元和内容选取单元的详细结构示意图;图3是本专利技术一种保存网页内容的方法第一实施例的流程图;图4是图3中选取待保存内容步骤的流程图。具体实施例方式本专利技术主要使用户在浏览网页时,能够灵活地保存需要的内容,而不用保存网页中其它无关内容,并且保存内容的样式能较好地忠实原文。如图1所示,在本专利技术一种保存网页内容的系统的实施例,包括内容选取单元11、文档转换单元12以及内容保存单元13。内容选取单元11用于选取网页中的待保存内容,其中待保存内容为网页中的部分内容。该内容选取单元11可通过在浏览窗口中使用鼠标拖动方式选取待保存内容;也可以使用弹出窗口显示网页内容列表从而通过该列表选取需保存的内容。在确定选取的待保存内容后,内容选取单元11将待保存内容发送到文档转换单元12。文档转换单元12用于根据网页脚本将上述内容选取单元11选取的待保存内容转换为一个完整的文件。由于一般的网页都是使用HTML和/或XML脚本实现的,而HTML和/或XML通过在文本文件中加入一系列的标签(tag)来表示网页中的不同内容及表现形式。标签是HTML和/或XML语法的基本元素,由“<”和“>”成对组成,两者之间是标签的内容。文档转换单元12根据网页脚本中的标签识别选取的内容,并将选取的内容对应的脚本片段从网页脚本中提取出来,重新生成一个仅包含待保存内容的网页脚本,从而实现了选取的内容的转换。在本实施例中,文档转换单元12不仅复制页面原始的<html>、<head>等标签内容,还将选取内容的样式、使用的附加javascript等代码都写入转换后的文件。内容保存单元13用本文档来自技高网
...

【技术保护点】
一种保存网页内容的系统,其特征在于,包括:内容选取单元,用于选取网页中的待保存内容,所述待保存内容为网页中的部分内容;文档转换单元,用于根据网页脚本将所述内容选取单元选取的内容转换为一个完整的文件;内容保存单元,用于 将所述文档转换单元转换获得的文件保存到存储空间。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1