一种页面快速转换方法、装置和系统制造方法及图纸

技术编号:8517320 阅读:137 留言:0更新日期:2013-03-30 20:20
本申请提供了一种面快速转换方法、装置和系统,涉及网页技术领域。所述方法包括接收用户端页面请求;根据所述请求获取页面文档,并解析所述文档的DOM树结构;依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架;返回整理后的结果至用户端。通过本申请页面转换的整个过程可以实时在线完成,不需要任何本地存储,并且运算速度快,可在内存中完成数据处理过程的存储缓存,不需要过多的文件IO操作和数据库操作。

【技术实现步骤摘要】
一种页面快速转换方法、装置和系统
本申请涉及网页
,特别涉及一种页面快速转换方法、装置和系统。
技术介绍
随着具备上网功能的移动终端的普及,多数用户已经开始使用移动终端上网, 浏览网页信息。针对这一趋势,各大网站专门优化了自己的WAP网站(WAP,Wireless Application Protocol,无线应用协议,一种实现移动电话与互联网结合的应用协议标 准),做了针对移动终端用户体验的WAP网站。现有技术中,在当服务器接收到页面请求后,服务器需要大量本地存储在后台去 抓取网页(web)和建立模板训练分析,并使用几个固化的模板直接套取web页面的内容,从 而生成WAP页面。这使现有技术存在下述缺点和不足(I)大量本地存储,现有技术因为要抓取网页和建立模板训练分析,因此需要大量 的本地存储。(2)局限性,对于千变万化的各种互联网web页面,现有技术大多使用固化模板直 接套取web页面的内容,影响了普适性。对于大多数页面,通常只是在个人电脑(PC)正常或完整显示,而在移动终端上其 显示效果并不不理想,并且现有技术的这种解决方案往往耗费大量的很多的人力和物力。
技术实现思路
本申请所要解决的技术问题是提供一种页面快速转换方法、装置和系统,以解决 无线应用环境中耗费资源多的问题。为了解决上述问题,本申请公开了一种页面快速转换方法,包括请求接收步骤,接收用户端页面请求;页面获取步骤,根据所述请求获取页面文档,并解析所述文档的DOM树结构;标签过滤步骤,依据标签库和结构标签词典,对所述DOM树中的各级标签进行过 滤;页面整理步骤,将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写 入显示框架;页面返回步骤,返回整理后的结果至用户端。优选的,所述的标签过滤步骤具体包括,针对DOM树中的各级标签,执行以下步 骤初步标签过滤步骤,对于当前层级的子标签,依据标签库对该级子标签进行过 滤;结构型标签过滤步骤,针对过滤后所述保留的结构型标签,依据结构标签词典,对 其进行过滤。优选的,所述初步标签过滤步骤包括标签判断步骤对于保留的文本标签,将所述的文本标签及其内容和对应的父标签转入页面整理步骤;对于保留的图像标签,当所述图像标签指示的图像的尺寸大小低于预定尺寸大小阈值,则将所述的图像标签及其内容和对应的父标签转入页面整理步骤;对于保留的结构型标签,转入结构型标签过滤步骤。优选的,所述的结构标签词典的标签词包括标签id属性和class属性包含的文本中的标签词;其中,所述的标签词根据统计频次选定。优选的,所述的结构型标签过滤步骤具体包括查找步骤,针对每一个结构型标签,根据其id属性和/或class属性文本中的标签词,在结构标签词典的标签词中进行匹配查找;标签相似度计算步骤,根据匹配查找结果,按照标签规则集,计算所述结构型标签与结构型标签词典中标签词的标签相似度;判断过滤步骤,将计算得到的标签相似度与预置的阈值进行比较,并根据比较结果,对所述结构型标签进行过滤。优选的,所述的标签相似度根据标签文本相似度和标签语义相似度计算得到。优选的,所述的标签文本相似度的计算方法为权利要求1.一种页面快速转换方法,其特征在于,包括 请求接收步骤,接收用户端页面请求; 页面获取步骤,根据所述请求获取页面文档,并解析所述文档的DOM树结构; 标签过滤步骤,依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;页面整理步骤,将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架; 页面返回步骤,返回整理后的结果至用户端。2.如权利要求1所述的方法,其特征在于 所述的标签过滤步骤具体包括,针对DOM树中的各级标签,执行以下步骤 初步标签过滤步骤,对于当前层级的子标签,依据标签库对该级子标签进行过滤; 结构型标签过滤步骤,针对过滤后所述保留的结构型标签,依据结构标签词典,对其进行过滤。3.如权利要求2所述的方法,其特征在于 所述初步标签过滤步骤包括标签判断步骤 对于保留的文本标签,将所述的文本标签及其内容和对应的父标签转入页面整理步骤; 对于保留的图像标签,当所述图像标签指示的图像的尺寸大小低于预定尺寸大小阈值,则将所述的图像标签及其内容和对应的父标签转入页面整理步骤; 对于保留的结构型标签,转入结构型标签过滤步骤。4.如权利要求1所述的方法,其特征在于 所述的结构标签词典的标签词包括标签id属性和class属性包含的文本中的标签词;其中,所述的标签词根据统计频次选定。5.如权利要求4所述的方法,其特征在于 所述的结构型标签过滤步骤具体包括 查找步骤,针对每一个结构型标签,根据其id属性和/或class属性文本中的标签词,在结构标签词典的标签词中进行匹配查找; 标签相似度计算步骤,根据匹配查找结果,按照标签规则集,计算所述结构型标签与结构型标签词典中标签词的标签相似度; 判断过滤步骤,将计算得到的标签相似度与预置的阈值进行比较,并根据比较结果,对所述结构型标签进行过滤。6.如权利要求5所述的方法,其特征在于 所述的标签相似度根据标签文本相似度和标签语义相似度计算得到。7.如权利要求6所述的方法,其特征在于 所述的标签文本相似度的计算方法为8.如权利要求5所述的方法,其特征在于 所述判断过滤步骤具体包括 当所述的标签相似度大于阈值时,对所述结构型标签进行过滤。9.如权利要求5所述的方法,其特征在于 所述的结构标签词典包括导航过滤词典和页脚过滤词典;所述的导航过滤词典用于过滤的标签词包括导航标签词、广告标签词,所述的页脚过滤词典过滤的标签词包括页眉标签词、页脚标签词。10.一种页面快速转换装置,其特征在于,包括 请求接收模块,用于接收用户端页面请求; 页面获取模块,用于获取页面文档,并解析所述的页面文档的DOM树结构; 标签过滤模块,用于依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤; 页面整理模块,用于将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架; 页面返回模块,用于返回整理后的结果至用户端。全文摘要本申请提供了一种面快速转换方法、装置和系统,涉及网页
所述方法包括接收用户端页面请求;根据所述请求获取页面文档,并解析所述文档的DOM树结构;依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架;返回整理后的结果至用户端。通过本申请页面转换的整个过程可以实时在线完成,不需要任何本地存储,并且运算速度快,可在内存中完成数据处理过程的存储缓存,不需要过多的文件IO操作和数据库操作。文档编号G06F17/30GK102999511SQ201110270268公开日2013年3月27日 申请日期2011年9月13日 优先权日2011年9月13日专利技术者贾宇 申请人:阿里巴巴集团控股有限公司本文档来自技高网
...

【技术保护点】
一种页面快速转换方法,其特征在于,包括:请求接收步骤,接收用户端页面请求;页面获取步骤,根据所述请求获取页面文档,并解析所述文档的DOM树结构;标签过滤步骤,依据标签库和结构标签词典,对所述DOM树中的各级标签进行过滤;页面整理步骤,将过滤后的DOM树中的标签及其所包含的内容按照所对应结构写入显示框架;页面返回步骤,返回整理后的结果至用户端。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾宇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1