当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于处理文档的方法技术

技术编号:4082209 阅读:177 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于处理文档的方法。该方法包括:将样式表中的表达式的至少一部分特征化为在文档转换设备中将样式表应用到文档以转换文档的编译阶段、分析阶段或转换阶段的其中一个阶段上是可求值的;在特征化时确定的阶段,将表达式的至少一部分应用于文档;组合将表达式的至少一部分应用到文档的结果和将其他表达式应用到文档的结果以生成转换的文档;以及将转换的文档写入存储器。其中,仅当表达式的至少一部分不包括谓词,也不包括祖先/后代引用时,该表达式的该至少一部分在编译阶段是可求值的。

【技术实现步骤摘要】

本专利技术涉及处理和转换诸如可扩展标记语言(XML)、标准化通用标记语言 (SGML)、超文本标记语言(HTML)之类的结构化文档,以及数据库和/或文件系统中的非结 构化数据和文档的领域。
技术介绍
随着计算机和计算机存储器变得无所不在,各种组织维护的信息量显著地增大。 信息常常以许多不同的格式存储,如字处理器文档、电子表格文件、数据库、可移植文档格 式(PDF)文档、图像化文档(例如,扫描为各种图形显示格式)、纯文本等等。此外,文档可 以以诸如SGML、HTML、XML等等之类的标记语言格式进行存储。使信息具有如此多的不同格式使得在组织内以及在组织外部共享信息复杂化。近 来,XML已经作为用于描述文档中的内容并向非结构化数据和/或文档提供结构的标准。 XML提供了灵活而可扩展的机制,用于为文档定义标记,允许为所描述的信息自定义标记。作为处理XML的装置实现的一种机制是可扩展的样式表语言(XSL)和使用XSL编 写的样式表。可以编写样式表,以将XML文档从在XML内定义的一种标记定义(或“词汇 表”)转换为另一种词汇表,从XML标记转换为另一种结构化或非结构化文档格式(如纯文 本、字处理器、电子表格、数据库、PDF、HTML等等),或从另一种结构化或非结构化文档格式 转换为XML标记。如此,样式表可以用来通过将文档的结构从其存储的格式转换为给定用 户预期的格式来简化对组织的信息的访问(以其许多不同的格式)。还有其他样式表类型 (例如,作为对HTML的扩展定义的级联样式表或CSS)。通常,以在通用计算机(例如,对文档存储进行管理的服务器,用户计算机等等) 上执行的软件执行文档转换处理。在访问这样的文档时会遇到严重的延迟。
技术实现思路
在一个实施例中,一种装置包括分析电路和表达式处理器。连接为接收文档的分 析电路被配置为对文档进行分析,并生成对应于分析的事件。用于从分析电路接收事件的 表达处理器被配置为将由事件所标识的节点应用于从样式表中的多个表达式派生出来的 一个或多个表达式树。表达式处理器标识满足在一个或多个表达式树中表示的表达式的节 点,作为将节点应用于一个或多个表达式树的结果。在另一个实施例中,设想了一种方法。样式表中的每一个表达式被特征化为,将样 式表应用于文档转换装置中的文档的多个阶段的某一个阶段是可求值的。在特征化时确定 的多个阶段中的某一个阶段,每一个表达式被应用于文档。在又一个实施例中,设想了一种方法,该方法包括将样式表中的表达式的至少一部分特征化为在文档转换设备中将样式表应用到文档以转换文档的编译阶段、分析阶段或 转换阶段的其中一个阶段上是可求值的;在特征化时确定的阶段,将表达式的至少一部分 应用于文档;组合将表达式的至少一部分应用到文档的结果和将其他表达式应用到文档的 结果以生成转换的文档;以及将转换的文档写入存储器。其中,仅当表达式的至少一部分不 包括谓词,也不包括祖先/后代引用时,该表达式的该至少一部分在编译阶段是可求值的。附图说明下面的详细描述参考了简要描述的附图。图1是内容转换设备的一个实施例的方框图。图2是图1所示的文档处理器的一个实施例的方框图。图3是图2所示的文档处理器和图1所示的处理器的一部分的一个实施例的方框 图,说明了它们之间的通信和对它们的输入。图4是说明了样式表编译和表达式求值的方法的一个实施例的流程图。图5是说明了样式表编译器的一个实施例的操作的流程图。图6是说明了架构编译器的一个实施例的操作的流程图。图7是说明了图2和3所示的分析器的一个实施例的输入数据结构和输出数据结 构的一个实施例的方框图。图8是说明了图7所示的用于向节点标识符分配序列号的分析器的一个实施例的 操作的流程图。图9是说明了图2和3所示的表达式处理器的一个实施例的输入数据结构和输出 数据结构的一个实施例的方框图。图10是图2和9所显示的分析时表达式树的一个实施例的方框图。图11是表达式树的一部分和对应于此的分析时表达式树条目的示例。图12A-12B是说明了响应元素开始事件的表达式处理器的一个实施例的操作的 流程图。图13是说明了响应元素结束事件的表达式处理器的一个实施例的操作的流程 图。图14A-14B是说明了响应属性名称事件的表达式处理器的一个实施例的操作的 流程图。图15是说明了响应元素关闭事件的表达式处理器的一个实施例的操作的流程 图。图16是说明了转换引擎的一个实施例的操作的流程图。图17是图2和9所显示的分析时表达式树的另一个实施例的方框图。图18是说明图17所示的某些字段的示范性编码的一组表。图19A-19B是说明了响应元素开始事件的表达式处理器的一个实施例的操作的 流程图。图20是说明了响应元素结束事件的表达式处理器的一个实施例的操作的流程 图。图21A-21B是说明了响应属性名称事件的表达式处理器的一个实施例的操作的流程图。图22A-22B是说明了响应文本事件的表达式处理器的一个实施例的操作的流程 图。图23A-23B是说明了响应注释事件的表达式处理器的一个实施例的操作的流程 图。图24A-24B是说明了响应处理指令事件的表达式处理器的一个实施例的操作的 流程图。尽管本专利技术可进行各种修改,并且还可采用其他的形式,但是,本专利技术的各具体实 施例均以结合附图的举例的方式说明,并将在以下的说明书中进行详细描述。然而,应该理 解,图形和详细描述不将本专利技术限制于所说明的特定形式,相反,本专利技术涵盖不偏离所附的 权利要求所定义的本专利技术的精神和范围的所有修改方案、等效内容和替代方案。具体实施例方式现在请参看图1,该图显示了内容转换设备10的一个实施例的方框图。在图1的 实施例中,内容转换设备10可以包括网络接口电路12,诸如处理器14A和14B (可选)之类 的一个或多个处理器,文档处理器16以及存储器18。网络接口电路12通过一个或多个网 络连接而连接到一个或多个网络。各种计算机系统(图1中未显示)也可以连接到一个或 多个网络。网络接口电路12也连接到处理器14A-14B。处理器连接到存储器18和文档处 理器16,而文档处理器16还连接到存储器18。在所说明的实施例中,存储器18存储了样 式表编译器20、架构编译器22、一个或多个符号表24、一个或多个分析时表达式树26、指令 表30、空格表32、文档类型定义(DTD)表34、表达式列表36、模板列表38,以及各种文档处 理器数据结构39。内容转换设备10可以通过网络连接接收待应用于文档的样式表、待应用于文档 的架构,和/或文档本身(带有将样式表/架构应用到文档的请求)。响应应用样式表的请 求,内容转换设备10可以将样式表应用到文档,并生成待通过网络传输到请求者的转换的 文档。在一些实施例中,内容转换设备10还可以接收对文档进行分析的请求(例如,分析 为诸如针对XML的简单应用程序编程接口(API) (SAX)或文档对象模型(DOM)之类的已定 义的格式)。响应应用架构(或DTD)的请求,内容转换设备10可以根据架构或DTD对文档 进行验证,并对请求者生成成功消息或失败消息(指出失败)。在一些实施例中,内容转换设备10可以接收用于对XML数据库进行访问的XPath 表达式。在这样的实施例中,可以类似于样式表对表达式进行编译(下面将本文档来自技高网
...

【技术保护点】
一种用于处理文档的方法,包括:将样式表中的表达式的至少一部分特征化为在文档转换设备中将样式表应用到文档以转换所述文档的编译阶段、分析阶段或转换阶段的其中一个阶段上是可求值的;在特征化时确定的所述一个阶段中,将所述表达式的所述至少一部分应用于所述文档;组合将所述表达式的所述至少一部分应用于所述文档的结果和将其他表达式应用于所述文档的结果以生成转换的文档;以及将所述转换的文档写入存储器;其中,仅当所述表达式的所述至少一部分不包括谓词,也不包括祖先/后代引用时,所述表达式的所述至少一部分在编译阶段是可求值的。

【技术特征摘要】
US 2003-10-22 60/513,306;US 2004-7-12 10/889,547一种用于处理文档的方法,包括将样式表中的表达式的至少一部分特征化为在文档转换设备中将样式表应用到文档以转换所述文档的编译阶段、分析阶段或转换阶段的其中一个阶段上是可求值的;在特征化时确定的所述一个阶段中,将所述表达式的所述至少一部分应用于所述文档;组合将所述表达式的所述至少一部分应用于所述文档的结果和将其他表达式应用于所述文档的结果以生成转换的文档;以及将所述转换的文档写入存储器;其中,仅当所述表达式的所述至少一部分不包括谓词,也不包括祖先/后代引用时,所述表达式的所述至少一部分在编译阶段是可求值的。2.根据权利要求1所述的方法,其中...

【专利技术属性】
技术研发人员:卡姆普蒂V卡玛拉奥理查德P特鲁吉洛丹尼尔M瑟马克
申请(专利权)人:英特尔公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1