网页文本压缩方法和装置制造方法及图纸

技术编号:8655933 阅读:155 留言:1更新日期:2013-05-01 23:36
本发明专利技术提供了一种网页文本压缩方法和装置,其中的方法包括:根据移动终端浏览器的网页打开请求获取终端当前的语言环境;根据语言环境初始化与所述语言环境对应的字符容器;接收所请求的网页数据;解析所述接收的网页数据,并利用所述相应的字符容器合并存储所述网页数据;其中,在根据所述语言环境初始化相应的字符容器的过程中,具体包括:判断所述语言环境是否属于拉丁语系,如果是,则初始化为存储uft-8编码方式的数据;否则初始化为存储uft-16编码方式的数据。本发明专利技术能够根据语言环境,智能的判断存储方式,并且对存储内容进行优化和适配处理,有效降低网页数据对浏览器的内存占用。

【技术实现步骤摘要】

本专利技术涉及移动互联网的网页浏览
,更为具体地,涉及一种网页文本压缩方法和装置
技术介绍
网页文件存储时使用的编码,是网页最为重要的编码。如果网页文件为静态的HTML文件,则Web Server将直接发送该文件至客户端的浏览器;如果网页文件为动态生成的HTML文件,则Web Server会根据动态脚本文件存储的编码来生成相应编码的数据,而这些数据将成为发送到Client Browser的HTML文件。由于网页文件自身的特性以及不同编码方式的特点,对于同一个网页文件,如果采用不同的编码方式进行存储,其占用的字节很有可能不同。例如在一个以gbk编码存放的PHP脚本当中,使用echo ‘我爱你’,则会产生数据CE D2B0AE C4E3六个字节的数据,这六个字节的数据是‘我爱你’的GBK编码;而如果在一个以utf-8编码存放的PHP脚本当中,执行echo ‘我爱你’,则会产生数据E68891E788B1E4BD AO九个字节的数据,这九个字节的数据是‘我爱你’的UTF-8编码。对于终端用户而言,服务端传输过来的HTML文件的编码主要由服务端HTML文件或者脚本文件的存储编码决定,而浏览器端提交用户数据时使用的编码,只取决于当前浏览器查看网页使用的编码,与HTML网页本身的文件的编码没有任何关系。在现有技术中,通过手机浏览器浏览网页时往往使用固定的编码方式处理,用户只能被动地采用既定的编码方式处理所有的网页数据,而不能够智能的选择一种合适的编码方式,经常会出现“大材小用”的情况,导致手机浏览器内存占用比较大,浪费了手机的内存。而对于手机这类硬件条件有限的移动终端而言,有限的内存往往不能容忍这种浪费,这种固定编码方式对内存的“盲目”占用极大地影响了用户的体验。这种情况在一些低端的手机上面问题尤为明显,用户往往打开1-2个窗口就可能出现爆内存网页打不开的情况,严重影响用户体验。
技术实现思路
鉴于上述问题,本专利技术提供一种能够根据不同的语言环境智能选择合适编码方式存储网页页面的方法和装置,以达到节省终端内存的目的。根据本专利技术的一个方面,提供了一种网页文本压缩方法,包括根据移动终端浏览器的网页打开请求获取终端当前的语言环境;根据所述语言环境初始化与所述语言环境对应的字符容器;接收所请求的网页数据,解析所述网页数据,并利用所述相应的字符容器合并存储所述网页数据;其中,在根据所述语言环境初始化相应的字符容器的过程中,具体包括判断所述语言环境是否属于拉丁语系,如果是,则将所述字符容器初始化为存储uft-8编码方式的数据;否则初始化存储uft-16编码方式的数据。根据本专利技术的另一方面,提供了一种网页文本压缩装置,包括语言环境确定单元,用于根据移动终端浏览器的网页打开请求获取终端当前的语言环境;字符容器初始化单元,用于根据所述语言环境初始化与所述语言环境对应的字符容器;数据传输单元,用于接收所请求的网页数据;数据解析存储单元,用于解析所述网页数据,并利用所述相应的字符容器合并存储所述网页数据;其中,所述字符容器初始化单元包括判断单元,用于判断所述语言环境是否属于拉丁语系,如果是,则所述字符容器初始化单元将字符容器初始化为存储uft-8编码方式的数据;否则初始化为存储uft-16编码方式的数据。本专利技术采用智能的切换编码方式存储网页,对于采用拉丁语系语言(如英语)的网页米用utf-8编码方式存储,中文的网页就米用utf-16编码存储,从而为不同语言的网页选用不同的编码,“量体裁衣”,在硬件条件有限的移动终端尤其是一些低端的手机平台很好的利用的极为有限的内存,让用户能够多开几个窗口,极大的提高了用户体验。为了实现上述以及相关目的,本专利技术的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本专利技术的某些示例性方面。然而,这些方面指示的仅仅是可使用本专利技术的原理的各种方式中的一些方式。此外,本专利技术旨在包括所有这些方面以及它们的等同物。附图说明通过参考以下结合附图的说明及权利要求书的内容,并且随着对本专利技术的更全面理解,本专利技术的其它目的及结果将更加明白及易于理解。在附图中图1为根据本专利技术实施例的网页文本压缩方法的流程图;图2为根据本专利技术实施例的存储容器的适配和存储优化的示意图;图3为根据本专利技术实施例的网页文本压缩装置的方框示意图。在所有附图中相同的标号指示相似或相应的特征或功能。具体实施例方式在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。由于目前作为移动互联网载体的主要为手机,因此,在下面对比本专利技术具体实施方式的表述中,“移动终端”、“手机”均是指用户访问移动互联网所使用的目标载体,同时可以将“手机”理解为“移动终端”的一种但不是唯一的一种具体表现形式。以下将以手机为例对本专利技术提供的网页文本压缩方法和装置进行示例性说明。为了解决现有技术中使用固定的编码方式存储网页给手机内存带来的浪费问题,本专利技术提出一种根据语言环境确定存储网页内容的编码方式的网页文本压缩方法,根据语言环境,判断使用什么编码来存储网页的内容,从而尽量用合适的编码方式来储存页面,达到节省手机内存的目的。从通常的手机应用角度出发,用户手机中使用的语言和用户所处的位置密切相关,如果是欧美国家或地区,手机中一般使用拉丁语系(又称印欧语系)的语言,如英语、德语、法语等;而在亚洲所使用的语言,本专利技术中将其划分为非拉丁语系,比如中国用户的手机中使用的语言一般是中文,日本、韩国用户的手机中使用的语言一般是日文、韩文。本专利技术就根据手机应用语言的不同这一特点采用不同的编码方式存储网页内容,根据手机的语言环境智能判断存储方式,优化手机浏览器的内存使用。另外,为了表述的方便,在下面的具体实施方式表述中,仅以拉丁语系中的英语和非拉丁语系的中文为例来对本专利技术的根据语言环境的不公采用不同的网页文本压缩策略的技术方案进行说明。图1示出了根据本专利技术的网页文本压缩方法的流程图。如图1所示,在步骤SlOl中,移动浏览器通过用户打开网页的请求获取当前的语言环境。具体地,所述当前的语言环境是根据网站所在的国家或其它对语言进行说明的标示来进行判断的。在一个优选的实施例中移动浏览器初始化的时候要求用户选择语言,然后移动浏览器根据用户选择的语言确定所述当前的语言环境。在步骤S102中,根据所述语言环境初始化字符容器。本专利技术所述的“字符容器”,指的是存储相关网页数据的存储空间,具体实现的时候是通过在软件代码中申请一个“类”来存储网页数据,例如在Java语言里面通过申请String类来存储网页数据,比如“导航”等这些网页文字。在一个优选的实施例中,会先申请一些额外的空间来储存类的头部(一些附加的描述信息),然后再申请真正的空间来存储网页文字,一个不放文字的空字符容器要占用空间,例如4byte的空间。具体地,本步骤中移动浏览器获取当前语言环境后判断是否为属于拉丁语系(如英语)。如果判断属于拉丁语系,则将字符容器初始化为存储uft-8编码方式的数据;否则将字符容器初始化为存储uft-16编码方式本文档来自技高网
...

【技术保护点】
一种网页文本压缩方法,包括:根据移动终端浏览器的网页打开请求获取终端当前的语言环境;根据所述语言环境初始化与所述语言环境对应的字符容器;接收所请求的网页数据,解析所述网页数据并利用所述相应的字符容器合并存储所述网页数据;其中,在根据所述语言环境初始化相应的字符容器的过程中,具体包括:判断所述语言环境是否属于拉丁语系,如果是,则将所述字符容器初始化为存储uft?8编码方式的数据;否则初始化为存储uft?16编码方式的数据。

【技术特征摘要】
1.一种网页文本压缩方法,包括: 根据移动终端浏览器的网页打开请求获取终端当前的语言环境; 根据所述语言环境初始化与所述语言环境对应的字符容器; 接收所请求的网页数据,解析所述网页数据并利用所述相应的字符容器合并存储所述网页数据;其中, 在根据所述语言环境初始化相应的字符容器的过程中,具体包括: 判断所述语 言环境是否属于拉丁语系,如果是,则将所述字符容器初始化为存储Uft-S编码方式的数据;否则初始化为存储uft-16编码方式的数据。2.如权利要求1所述的网页文本压缩方法,其中,在解析所述接收的网页数据,并利用所述相应的字符容器存储所述网页数据的过程中,进一步对所述网页数据进行适配处理和内容优化,具体包括: 将所述网页数据的源码中零散分开的文字对象合并、首尾相接存储在字符容器中; 为所述字符容器增加适配索引,以根据索引值从所述字符容器中适配相应的文字对象。3.如权利要求1所述的网页文本压缩方法,其中, 所述属于拉丁语系的语言环境包括英语、德语、法语。4.如权利要求1所述的网页文本压缩方法,其中,所述字符容器为存储相关网页数据的存储空间,通过在软件代码中申请一个“类”来存储网页数据实现。5.如权利要求4所述的网页文本压缩方法,其中,在通过在软件代码中申请一个“类”来存储网页数据的过程中, 先申请部分额外的空间来储存表示附加的描述信息的类的头部,然后再申...

【专利技术属性】
技术研发人员:梁捷俞永福何小鹏朱顺炎杨兴
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[北京市联通] 2015年01月15日 23:39
    文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。
    0
1