一种计算机实现的用于优化标记语言文本的方法与设备技术

技术编号:8215628 阅读:158 留言:0更新日期:2013-01-17 13:16
本发明专利技术的目的是提供一种用于优化标记语言文本的方法与设备,其中,优化设备获取待处理的标记语言文本;基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列;对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。与现有技术相比,本发明专利技术在保证标记语言文本内容逻辑正确的前提下,对更多内容进行优化,在提高优化准确性的基础上实现了页面的高速加载,进而提升了页面的可访问性和易维护性。

【技术实现步骤摘要】
一种计算机实现的用于优化标记语言文本的方法与设备
本专利技术涉及网络优化计算领域,尤其涉及一种优化标记语言文本的技术。
技术介绍
随着互联网技术的发展与应用,人们对网页下载速度有了更高的要求,由此标记语言文本,如HTML等的优化技术受到越来越多的关注并得到一定程度的发展。由于许多标记语言文本中包含大堆冗余信息,这些冗余信息给本来应该尽可能保持轻量级的页面增加一定不必要的负担且占据大量存储空间,降低页面加载速度,进而降低了页面的可访问性和易维护性。现有技术主要利用正则表达式匹配的方法对例如HTML文本进行优化处理,以减少其文本大小,但该方法仅能够去除HTML文本中有限的冗余内容,如换行、注释等,不能对HTML标签中的内容进行优化,并且利用正则表达式匹配的方式进行优化可能导致对HTML内容的破坏。因此,如何有效地优化标记语言文本,成为目前亟待解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于优化标记语言文本的方法与设备。根据本专利技术的一个方面,提供一种用于优化标记语言文本的方法,该方法包括以下步骤:a获取待处理的标记语言文本;b基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列;c对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;d将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。根据本专利技术的另一个方面,还提供了一种用于优化标记语言文本的设备,该设备包括:文本获取装置,用于获取待处理的标记语言文本;词法分析装置,用于基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列;优化装置,用于对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;优化文本获取装置,用于将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。与现有技术相比,本专利技术对待处理的标记语言文本进行词法分析,以获得与该标记语言文本相对应的单词序列,再对该些单词序列进行优化处理从而得到优化单词序列;本专利技术在保证标记语言文本内容逻辑正确的前提下,对更多内容进行优化,在提高优化准确性的基础上实现了页面的高速加载,进而提升了页面的可访问性和易维护性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面用于识别失序文本的设备示意图;图2示出根据本专利技术另一个方面用于识别失序文本的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面用于优化标记语言文本的设备示意图。优化设备1包括文本获取装置11、词法分析装置12、优化装置13和优化文本获取装置14。在此,优化设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。具体地,文本获取装置11获取待处理的标记语言文本。更具体地,文本获取装置11按预定周期或应事件触发实时地获取待处理的目标文本,例如通过实时监听用户通过用户设备提交的标记语言文本提交请求,接收该标记语言文本提交请求,并根据该请求获取待处理的标记语言文本,或者定期地通过约定的通信方式直接从第三方设备读取标记语言文本。例如,假设优化设备1为网站服务器,用户通过用户设备输入一条访问某HTML网页的URL,然后,用户设备将该URL通过预定的通信协议如http、https等提交到优化设备1的文本获取装置11,接着,文本获取装置11通过实时监听用户消息接收该URL,根据该URL获取其所对应的网页,并提取该网页中的HTML文本信息作为待处理的标记语言文本。再如,文本获取装置11按一定周期,定期地通过调用预定的应用编程接口(API)向第三方设备发送获取待处理的标记语言文本的请求,并接收该第三方设备基于该请求返回的标记语言文本。在此,标记语言文本包括但不限于1)超文本标记语言(HTML),2)可扩展超文本标记语言(XHTML),3)可缩放矢量图形(SVG)等。本领域技术人员应能理解上述获取标记语言文本的方式仅为举例,其他现有的或今后可能出现的获取标记语言文本的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。随后,词法分析装置12基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列。具体地,词法分析装置12根据文本获取装置11提供的标记语言文本,例如通过将该标记语言的所有固有标签,作为词法分析中进行分词处理的标记;或者通过将该标记语言的指定的若干固有标签作为词法分析中进行分词处理的标记,对该标记语言文本进行分词处理,将该标记语言文本划分成若干单词序列。例如,词法分析装置12根据文本获取装置11提供的HTML文本:<pstyle=″″>文本框<textarea>welefen</textarea><inputclass=″input″onclick=″alert(′hello-->′)″type=″text″/></p>,将HTML的所有固有标签如该HTML文本中的input标签、textarea标签、p标签作为词法分析中进行分词处理的标记,并根据HTML的语言规范利用队列对该HTML文本进行分词处理,首先词法分析装置12将该HTML文本的第一个字符“<”入队,并记录该字符“<”为一个新标签的开始,接着将后续字符“p”和空格字符入队,并根据该队列中字符“<”与空格字符之间的字符序列“p”确定该标签为HTML固有标签,即p标签,随后词法分析装置12依次将后续字符“s”、“t”、“y”、“l”、“e”、“=”、“″”、“″”入队,接着当词法分析装置12将字符“>”入队时,其确定该字符“>”与队首的字符“<”相对应,并表示该固有标签p的结束,据此,词法分析装置12将该队列中的字符全部输出,以获得一个单词序列<pstyle=″″>,再接着词法分析装置12将字符“文”、“本”、“框”和“<”入队,并记录该字符“<”为一个新标签的开始,然后词法分析装置12将该HTML文本中的后续字符“t”、“e”、“x”“t”、“a”、“r”“e”、“a”和“>”入队,当词法分析装置12将字符“>”入队时,其确定该字符“>”与队首的字符“<”相对应,并根据其间的字符序列“textarea”确定其为HTML固有标签,即textarea标签,则词法分析装置12据此将该队列中字符“<”之前的所有字符全部输出,以获得单词序列“文本框”,并将该队列中的其余字符全部输出,以获得另一个单词序列“<textarea>”,词法分析装置12按照此方式对该HTML文本进行分词处理,本文档来自技高网...
一种计算机实现的用于优化标记语言文本的方法与设备

【技术保护点】
一种计算机实现的用于优化标记语言文本的方法,其中,该方法包括以下步骤:a获取待处理的标记语言文本;b基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列;c对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;d将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。

【技术特征摘要】
1.一种计算机实现的用于优化标记语言文本的方法,其中,该方法包括以下步骤:a获取待处理的标记语言文本;b基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列,其中,所述单词序列是指根据词法分析对所述标记语言文本进行划分的最小单位;c对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;d将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。2.根据权利要求1所述的方法,其中,所述步骤b还包括:-对所述标记语言文本进行词法分析,获得所述单词序列及与所述单词序列相对应的单词序列类型;其中,所述步骤c还包括:-根据所述单词序列类型,对所述单词序列进行优化处理,以获得所述优化单词序列。3.根据权利要求2所述的方法,其中,所述步骤c还包括:-根据所述单词序列类型,结合用户相关信息,对所述单词序列进行优化处理,以获得所述优化单词序列。4.根据权利要求3所述的方法,其中,所述用户相关信息包括以下至少任一项:-用户偏好设置;-用户浏览器信息。5.根据权利要求2至4中任一项所述的方法,其中,所述单词序列类型包括以下至少任一项:-开始标签;-结束标签;-纯文本。6.根据权利要求1所述的方法,其中,所述步骤b还包括:-基于根据预置分析规则对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得所述一个或多个单词序列。7.根据权利要求6所述的方法,其中,所述分析规则基于以下至少任一项对所述标记语言文本进行词法分析:-所述标记语言的标签信息;-用户自定义标签信息。8.根据权利要求1所述的方法,其中,所述步骤d还包括:-根据所述优化单词序列所对应的所述单词序列在所述标记语言文本中的位序,将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。9.根据权利要求8所述的方法,其中,所述步骤a还包括:-获取与用户通过用户设备提交的访问请求相对应的所述标记语言文本;其中,该方法还包括:将所述标记语言优化文本提供给所述用户设备。10.一种用于优化标记语言文本的设备,其中,该设备包...

【专利技术属性】
技术研发人员:李成银
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1