网页文件处理方法及移动终端技术

技术编号:15880607 阅读:60 留言:0更新日期:2017-07-25 21:28
本发明专利技术公开一种网页文件处理方法及移动终端,其方法包括:从移动终端浏览器上识别单一网页文件格式的网页;从单一网页文件格式的网页中解析出文件头信息;根据文件头信息获取边界字符串及字符编码格式,对单一网页文件格式的网页进行内容分块及解码处理;将内容分块及解码处理所得的数据以页面展示出来,从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件;此外,本发明专利技术还可以实现了在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件,从而实现手机浏览器对MHT文件等单一网页格式文件格式网页的处理支持,满足了用户在手机上保存和阅读MHT文件等单一网页文件格式网页的需求。

【技术实现步骤摘要】
网页文件处理方法及移动终端
本专利技术涉及互联网及移动通信
,尤其涉及一种网页文件处理方法及移动终端。
技术介绍
MHT/MHTML是一种单一网页文件格式,它是MIMEHTML的缩写(以下统一用MHT来指代这种单一网页文件格式),MHT文件又称为聚合HTML文档、Web档案。与HTML不同,它可以把网页里面相关的标签和图片/css等资源按一定的编码格式保存在一个文件里面,便于使用和保存。这种封装可将整个网站发布为单个内嵌MIME或将整个网站作为一个电子邮件或附件发送。随着移动通信技术与互联网技术的不断融合,产生了在手机浏览器中阅读MHT文件的需求,但是,目前在手机浏览器中(包括手机firefox、手机Opera、手机UC浏览器以及手机Chrome浏览器等)没有对MHT文件格式的相关支持,在打开MHT文件时只能看到MHT文件里面的文本。PC浏览器中虽然提供有对MHT文件的支持,但大多只能是在本地打开,直接访问网站上的MHT文件也不会立即解码还原成网页显示出来。另外,对于手机浏览器而言,很多网页很难直接抽取正文,而且无法根据手机情况进行优化,由此降低了系统运行性能。
技术实现思路
本专本文档来自技高网
...
网页文件处理方法及移动终端

【技术保护点】
一种网页文件处理方法,其特征在于,包括:从移动终端浏览器上识别单一网页文件格式的网页;从所述单一网页文件格式的网页中解析出文件头信息;根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;将内容分块及解码处理所得的数据以页面展示出来;所述根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理的步骤包括:从所述文件头信息中获取边界字符串;以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块,每一分块带有一头信息;根据每一分块的头信息获取该分块的字符编码格式;根据...

【技术特征摘要】
1.一种网页文件处理方法,其特征在于,包括:从移动终端浏览器上识别单一网页文件格式的网页;从所述单一网页文件格式的网页中解析出文件头信息;根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;将内容分块及解码处理所得的数据以页面展示出来;所述根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理的步骤包括:从所述文件头信息中获取边界字符串;以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块,每一分块带有一头信息;根据每一分块的头信息获取该分块的字符编码格式;根据每一分块的字符编码格式进行相应的解码。2.根据权利要求1所述的方法,其特征在于,所述资源文件数据包括图片、css和/或js数据,所述根据每一分块的字符编码格式进行相应的解码的步骤包括:对分块中的图片进行base64解码,将解码后的图片放入移动终端浏览器的缓存中;对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码,将其中的css和/或js数据放入移动终端浏览器的缓存中。3.根据权利要求2所述的方法,其特征在于,所述将内容分块及解码处理所得的数据以页面展示出来的步骤包括:以页面打开所述网页HTML源代码;根据所述网页HTML源代码中的引用地址,从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中。4.根据权利要求2或3所述的方法,其特征在于,所述从移动终端浏览器上识别单一网页文件格式的网页的步骤之前还包括:在移动终端浏览器中读取网页HTML源代码,获取所述网页的页面信息;解析所述网页的页面信息,获取文件头信息及资源文件数据;对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码;将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存。5.根据权利要求4所述的方法,其特征在于,所述网页的页面信息至少包括...

【专利技术属性】
技术研发人员:凌艺宾李雪峰肖曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1