一种用于对标记语言文档存档的方法、系统和程序产品。所述方法包括步骤:识别在所述文档中的至少一个被引用资源;确定是否所述至少一个识别出的被引用资源存储在存储设备中;以及响应于不成功的确定步骤,将所述至少一个被识别出的被引用资源存储在存储设备中。(*该技术在2024年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及数据存档的领域,尤其涉及用于存档和检索标记语言文档的方法和系统。
技术介绍
诸如标准通用标记语言(Standard Generalized Markup Language)(SGML)、可扩展标记语言(XML)、超文本标记语言(HTML)等的标记语言被用来在电子文档中定义数据是如何格式化和分类的。SGML是用于定义不同类型电子文档的结构描述的国际标准。SGML非常大、功能强且复杂。它已经在重工业和商务中应用了许多年,并且存在与之相随的专家知识和软件的重要实体。XML是SGML的简装删节版,它保留了其足够的功能使之可用,但是删除了使得SGML对在Web环境中编程太复杂的全部可选特征。设计XML使得通过提供特定工业的厂商中枢数据交换来满足大规模网络内容提供商的需求。HTML是在网上所使用的SGML的最小应用。HTML定义了非常简单的一类报告样式文档,附有章节标题、段落、列表、表格以及图解,附有一些信息和描述项,以及一些超文本和多媒体。最初的设计是为了迎接大规模的电子出版的挑战,XML在Web和其他地方的各种数据交换中也扮演了越来越重要的角色。当各组织继续采用XML作为表示文档和转发数据的标准时,存在对用于存档该数据的安全、有效和可靠方法的增长的需要。然而,由于XML结构的原因,这种数据类型不能用使用标准存档处理保存传统数据的方法来存档。其原因是存在多个必须与XML文档相关联的外部项目/资源。为了真正存档和检索XML文档,并保持文档的保真度(fidelity),在XML文档中所引用的所有资源必须要么存档,要么在web服务器上可不确定地得到,因此,它们能够由XML文档引用。XML文档由多个标记符(tag)组成。标记符定义了用于描述一个或者多个数据元素的语法,例如,<day>Monday</day>或者<customer name>IBM</customer name>,其中<day>和<customer name>是定义包括在起始<>标记符和结束</>标记符内的数据类型的标记符,而“Monday”和“IBM”是数据元素。下面提供了XML文档(EXAMPLE1)的例子。用斜体和下划线所示的是要求用来正确格式化和显示XML文档内容的资源。EXAMPLE 1<?xml version=″1.0″encoding=″UTF-8″standalone=″no″?> <?xml-stylesheet type=″text/css″href=″song.css″?> <!DOCTYPE SONG SYSTEM″expanded_song.dtd″> <TITLE>Great song</TITLE> <PHOTOxlinktype=″simple″xlinkshow=″onLoad″xlinkhref=″blogg.jpg″ALT=″Blogg″WIDTH=″100″HEIGHT=″200″/> <COMPOSER>Bloggs</COMPOSER> <COMPOSER>Bloggs</COMPOSER> <PRODUCER>Bloggs</PRODUCER> <LENGTH>6:20</LENGTH> <YEAR>1995</YEAR> <ARTIST>The blogg brothers</ARTIST> </SONG> 在EXAMPLE1中,能够看到所述XML文档不是孤立文档,而是引用诸如样式表(style sheet)(song.css)、数据类型定义文件(expanded_song.dtd)和图像文件(blogg.jpg)的其他资源。如果blogg.jpg图像文件、song.css样式表和expanded_song.dtd数据类型定义文件没有和XML文档一起存档,则所存档的XML文档在观看时不会正确地显示。这是因为在XML文档里面的引用,即,<?xml-stylesheet type=″text/css″href=″song.css″?>,<!DOCTYPESONG SYSTEM″expanded_song.dtd″>以及xlinktype=″simple″xlinkshow=″onLoad″xlinkhref=″blogg.jpg″不能够分别定位所引用的资源,即song.css、expanded_song.dtd和blogg.jpg。因此,失去XML文档的保真度。当试图存档XML时所面临的一个问题是XML经常引用多个资源(资源可以是图像、音频文件、样式表、数据类型定义文档、数据文件等),因此,和传统的其结构是“扁平(flat)”的数据不同,XML文档具有层次结构。因此,为了完全地存档和检索XML文档,并保持所述数据的保真度,在XML文档中所引用的资源的每一个必须要么被存档,要么在web服务器上在不定量时间可获得。如果前述的情形没有出现,则因为XML文档将是不完整的,所以XML文档不会被正确地显示。现存的已有技术系统试图通过将XML文档作为XML标记符集合来对待,而不是分析各个XML标记符和在XML文档中所引用的资源,来解决上述问题。本方法的缺点是对于每个XML文档,可以引用多个资源。随着XML文档的数量增加,要求存储的引用资源数量也增加。这又反过来产生资源的复制,并增加要求的数据存储量。厂商正在采用的另一个解决方案是“允许关系数据库的XML”方法。不幸的是,如果诸如XML文档的层次文档放入关系数据库,则所述关系数据库将使得XML文档具有和XML自身不兼容的结构。为了克服这个问题,用模仿XML存储的外部转换层通过在XML和另一个数据格式之间转换它来配置关系数据库。这种转换是易出错的,并且导致大量的处理开销,尤其增加了事务处理率和XML文档复杂度。这种方法没有提供对诸如样式表和图像的资源的交叉引用和链接,而这对保持XML文档的完整性和保真度是基本的。已知解决方案的另一个缺点是从数据表示格式而不是文档或者内容表示格式的观点观察XML。这意味着要求已知解决方案的厂商重新设计他们的关系数据库的数据模型,使得可以支持XML文档的复杂的多部分和层次结构。因此,有需要提供用于存档和检索标记文档的方法和系统,使得所述文档的保真度和完整性不丢失。
技术实现思路
本专利技术的第一方面指向一种用本文档来自技高网...
【技术保护点】
一种用于存档标记语言文档的方法,所述标记语言文档包括至少一个被引用资源和用于存储至少一个被引用资源的存储设备,所述方法包括步骤:识别在所述文档中的至少一个被引用资源;确定是否所述至少一个识别出的被引用资源存储在存储设备中;以 及响应于不成功的确定步骤,将所述至少一个被识别出的被引用资源存储在存储设备中。
【技术特征摘要】
US 2003-10-29 10/696,6941.一种用于存档标记语言文档的方法,所述标记语言文档包括至少一个被引用资源和用于存储至少一个被引用资源的存储设备,所述方法包括步骤识别在所述文档中的至少一个被引用资源;确定是否所述至少一个识别出的被引用资源存储在存储设备中;以及响应于不成功的确定步骤,将所述至少一个被识别出的被引用资源存储在存储设备中。2.如权利要求1所述的方法,其中所述识别步骤包括解析在所述文档中包含的至少一个标记符,其中每个标记符对应被引用资源。3.如权利要求1所述的方法,其中所述确定步骤包括在所述存储设备上进行查询,以确定在所述文档中的每一个被识别的被引用资源和在所述存储设备中所存储的被引用资源之间的匹配。4.如权利要求3所述的方法,其中,如果发现匹配,则不再将所述被引用资源存储到所述存储设备中。5.如权利要求1所述的方法,其中将被引用资源的一个版本存储在数据存储中。6.如权利要求1所述的方法,其中从由样式表、数据类型定义文件和图像组成的组选择识别出的被引用资源。7.如权利要求1所述的方法,其中所述标记语言文档包括XML文档。8.一种能直接加载到数字计算机的内部存储器中的计算机程序产品,包括软件代码部分,用于当所述产品在计算机上运行时执行...
【专利技术属性】
技术研发人员:马丁佩珀,马克A斯蒂芬斯,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。