一种快速加载HTML DOM的方法技术

技术编号:4179672 阅读:679 留言:0更新日期:2012-04-11 18:40
一种快速加载HTML DOM的方法,首先建立HTML DOM加载器;应用程序将HTML字符串传递给HTML DOM加载器;加载器调用前向遍历器,并将HTML字符串传递给它;前向遍历器逐步分析HTML字符串并逐步返回各个节点的HTML;然后HTML DOM加载器根据前向遍历器分析出来的各个节点名称加载该节点的分析器;HTML DOM加载器调用节点分析器来分析该节点的HTML;节点分析器调用该节点的语法分析器来验证是否有错误;语法分析器检查该节点HTML并修正错误;节点分析器生成DOM节点并记录在DOM树中;最后节点分析器根据节点的特点指定前向遍历器如何进行下一步的操作;HTML DOM加载器将生成的DOM树返回给应用程序。本发明专利技术使得加载HTML时速度快捷并且可以方便地扩展纠错机制。

【技术实现步骤摘要】

本专利技术涉及一种快速加载HTML DOM的方法,特别涉及一种在分析HTML的时 候,预先快速地将其加载为DOM的方法。
技术介绍
由于HTML的不规范性,对HTML的分析会比较复杂,通常的办法是将其先加 载为DOM。加载HTML的最大的技术难点在于纠正一些错误的语法,例如缺少结束 标记,节点出现在错误的位置上(例如〈td〉出现在〈table〉之外)等这些错误。本发 明将使用一种灵活快速的方式来加载HTML,它最大的好处是速度快捷并且可以 方便地扩展纠错机制。
技术实现思路
本专利技术所要解决的技术问题是提供一种在分析HTML的时候,预先快速地将其加载为DOM的方法。本专利技术所述的一种快速加载HTML DOM的方法,该方法至少包括如下的步骤步骤l:建立HTML DOM加载器,它包含以下部件。步骤2:应用程序将HTML字符串传递给HTML DOM加载器。步骤3: HTML DOM加载器调用前向遍历器,并将HTML字符串传递给它。步骤4:前向遍历器逐步分析HTML字符串并逐步返回各个节点的HTML,并纠正一些基本的语法错误,例如缺失结束标记。步骤5: HTML DOM加载器根据前向遍历器分析出来的各个节点名称加载该节点的分析器。步骤6: HTML DOM加载器调用节点分析器来分析该节点的HTML。3步骤7:节点分析器调用该节点的语法分析器来验证是否有错误。步骤8:语法分析器检查该节点HTML并修正错误。步骤9:节点分析器生成DOM节点并记录在DOM树中。步骤10:节点分析器根据节点的特点指定前向遍历器如何进行下一步的操作。步骤11:前向遍历器逐步遍历出所有的节点并传递给分析器来生成DOM节点。步骤12: HTML DOM加载器将生成的DOM树返回给应用程序。 本专利技术所述的一种快速加载HTML DOM的方法,建立HTML DOM加载器,它 包含以下部件HTML前向遍历器它将使用指针技术来快速遍历HTML字符串,并且逐步返 回各个节点的HTML。节点分析器分析遍历器传来的节点,并根据节点的特点指示遍历器的下 一步操作。错误修正器由节点分析器调用,用于修正一些节点位置错误的语法。 DOM树节点分析器将不断生成DOM节点,并加到DOM树上,DOM树作为分 析的结果返回。本专利技术所述的一种快速加载HTML DOM的方法,建立HTML DOM加载器,它 包含以下部件,HTML前向遍历器,其要求为要求l:它要求有HTML语法错误的修正功能,例如缺失结束节点等。 要求2:要求忽略节点大小写。本专利技术涉及的一种快速加载HTML DOM的方法使得加载HTML时速度快捷并 且可以方便地扩展纠错机制。附图说明图1为本专利技术的流程图。 具体实施例方式参见图1,本专利技术的主要步骤如下步骤l:建立HTML D0M加载器,它包含以下部件。步骤2:应用程序将HTML字符串传递给HTML DOM加载器。步骤3: HTML DOM加载器调用前向遍历器,并将HTML字符串传递给它。步骤4:前向遍历器逐步分析HTML字符串并逐步返回各个节点的HTML,并纠正一些基本的语法错误,例如缺失结束标记。步骤5: HTML DOM加载器根据前向遍历器分析出来的各个节点名称加载该节点的分析器。步骤6: HTML DOM加载器调用节点分析器来分析该节点的HTML。步骤7:节点分析器调用该节点的语法分析器来验证是否有错误。步骤8:语法分析器检查该节点HTML并修正错误。步骤9:节点分析器生成DOM节点并记录在DOM树中。步骤10:节点分析器根据节点的特点指定前向遍历器如何进行下一步的操作。步骤11:前向遍历器逐步遍历出所有的节点并传递给分析器来生成DOM节点。步骤12: HTML DOM加载器将生成的DOM树返回给应用程序。 上述步骤1建立HTML DOM加载器,它包含以下部件HTML前向遍历器它将使用指针技术来快速遍历HTML字符串 并且逐步返 回各个节点的HTML。节点分析器分析遍历器传来的节点,并根据节点的特点指示遍历器的下 一步操作。错误修正器由节点分析器调用,用于修正一些节点位置错误的语法。 D0M树节点分析器将不断生成DOM节点,并加到D0M树上,D0M树作为分 析的结果返回。上述步骤1建立HTMLDOM加载器,它包含以下部件,HTML前向遍历器,其 要求为要求l:它要求有HTML语法错误的修正功能,例如缺失结束节点等。 要求2:要求忽略节点大小写。上述的技术方案实施时使得加载HTML时速度快捷并且可以方便地扩展纠错 机制。最后所应说明的是,以上实施例仅用以说明而并非限制本专利技术所描述的技但是,本领域的普通技术人员应当理解,仍然可以对本专利技术进行修改或者等同 地替换;而一切不脱离本专利技术的精神和范围的技术方案及其改进,其均应涵盖 在本专利技术的权利要求范围当中。权利要求1、一种快速加载HTML DOM的方法,其特征在于该方法至少包括如下的步骤步骤1建立HTML DOM加载器。步骤2应用程序将HTML字符串传递给HTML DOM加载器。步骤3HTML DOM加载器调用前向遍历器,并将HTML字符串传递给它。步骤4前向遍历器逐步分析HTML字符串并逐步返回各个节点的HTML,并纠正一些基本的语法错误。步骤5HTML DOM加载器根据前向遍历器分析出来的各个节点名称加载该节点的分析器。步骤6HTML DOM加载器调用节点分析器来分析该节点的HTML。步骤7节点分析器调用该节点的语法分析器来验证是否有错误。步骤8语法分析器检查该节点HTML并修正错误。步骤9节点分析器生成DOM节点并记录在DOM树中。步骤10节点分析器根据节点的特点指定前向遍历器如何进行下一步的操作。步骤11前向遍历器逐步遍历出所有的节点并传递给分析器来生成DOM节点。步骤12HTML DOM加载器将生成的DOM树返回给应用程序。全文摘要一种快速加载HTML DOM的方法,首先建立HTML DOM加载器;应用程序将HTML字符串传递给HTML DOM加载器;加载器调用前向遍历器,并将HTML字符串传递给它;前向遍历器逐步分析HTML字符串并逐步返回各个节点的HTML;然后HTML DOM加载器根据前向遍历器分析出来的各个节点名称加载该节点的分析器;HTML DOM加载器调用节点分析器来分析该节点的HTML;节点分析器调用该节点的语法分析器来验证是否有错误;语法分析器检查该节点HTML并修正错误;节点分析器生成DOM节点并记录在DOM树中;最后节点分析器根据节点的特点指定前向遍历器如何进行下一步的操作;HTML DOM加载器将生成的DOM树返回给应用程序。本专利技术使得加载HTML时速度快捷并且可以方便地扩展纠错机制。文档编号G06F9/445GK101655799SQ20081011859公开日2010年2月24日 申请日期2008年8月20日 优先权日2008年8月20日专利技术者徐友春, 朱红军, 汤海京, 蒋海涛 申请人:北京闻言科技有限公司 本文档来自技高网...

【技术保护点】
一种快速加载HTML DOM的方法,其特征在于:该方法至少包括如下的步骤: 步骤1:建立HTML DOM加载器。 步骤2:应用程序将HTML字符串传递给HTML DOM加载器。 步骤3:HTML DOM加载器调用前向遍历器 ,并将HTML字符串传递给它。 步骤4:前向遍历器逐步分析HTML字符串并逐步返回各个节点的HTML,并纠正一些基本的语法错误。 步骤5:HTML DOM加载器根据前向遍历器分析出来的各个节点名称加载该节点的分析器。 步骤 6:HTML DOM加载器调用节点分析器来分析该节点的HTML。 步骤7:节点分析器调用该节点的语法分析器来验证是否有错误。 步骤8:语法分析器检查该节点HTML并修正错误。 步骤9:节点分析器生成DOM节点并记录在DOM 树中。 步骤10:节点分析器根据节点的特点指定前向遍历器如何进行下一步的操作。 步骤11:前向遍历器逐步遍历出所有的节点并传递给分析器来生成DOM节点。 步骤12:HTML DOM加载器将生成的DOM树返回给应用程序

【技术特征摘要】

【专利技术属性】
技术研发人员:汤海京徐友春朱红军蒋海涛
申请(专利权)人:北京闻言科技有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1