生成结构模式候选对象的方法、系统技术方案

技术编号:2870101 阅读:135 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种自动生成许多种复杂结构模式候选对象和便于选择适合的结构模式的生成结构模式候选对象的方法、系统和程序。在为系统提供了一个指向用户指定的一个结构化文档的文档逻辑结构内的一个元或一个元集的结构模式时,需编辑项确定装置在一些组成这个结构模式的项中确定一个需编辑项。结构模式候选对象生成装置根据结构化文档的文档逻辑结构信息用一些在不同表示内的项代替需编辑项,生成结构模式候选对象。结构模式候选对象表生成装置根据为用户提供选择准则的显示条件和指标对生成的结构模式候选对象进行排列,生成结构模式候选对象表。如果为系统提供了用户指定的对这个结构模式希望编辑的项,需编辑项确定装置就将这个希望编辑的项确定为需编辑项。

【技术实现步骤摘要】

本专利技术涉及生成一些指向在一个结构化文档(structureddocument)内的一个元(element)或一个元集(element set)的结构模式(structure pattern)的候选对象(can didate)的方法、系统和程序。
技术介绍
结构化文档是涉及文档元和文档元之间的逻辑关系(文档逻辑结构)的文档。结构化文档包括例如SGML(标准通用标注语言)文档和XML(可扩展标注语言)文档。SGML是一个由ISO(国际标准化组织)制定的标准,而XML是一个由W3C(全球网协会)制定的标准。XML制定成可以在继承SGML的一些功能的同时考虑基本上是因特网的标准文档格式的HTML(超文本标注语言)的一些操作上的问题。在这种结构化文档中文档变换和处理是很重要的。例如,PDA(个人数字助理)和移动电话近来都安装了web浏览器,但是这些小型的移动终端设备通常配备的是有限的显示区和低速的通信装置。因此,需要对台式PC的HTML文档进行处理,用一种遵从XML的注释语言从中提取只是适合小型显示屏显示的内容。此外,还强烈希望能在遵从HTML的浏览器上显示以XML描述的内容和很容易变换各企业之间格式不同的数据。因此,用XSLT(XSL变换)执行将以XML描述的内容变换成遵从HTML或PDF的显示格式的变换或者对XML文档的变换。XSL(可扩展页面格式语言)是XML文档的页面格式语言,由对需格式化的XML文档的结构变换和描述需得到的格式的意义的词汇表组成。上面提到的XSLT是实现结构变换部分的技术。在这种对结构化文档的变换/处理中,需变换/处理的元由结构模式(structure pattern)指定。结构模式是一种指向结构化文档的文档逻辑结构内的元的表示,在这里所谓“结构模式”是指一种采用一串层次指定项(hierarchy specifying item)的表示,每个层次指定项包括一个指定目标结构的层次/层次组的层次说明符(hierarchy specifier)和一个指定在这层内需选择的元/元集的元模式(elemeni pattern)。层次指定项以下简称为“项(item)”例如,XML结构模式包括一种由WSC(全球网协会)制定的XPath(XML路径语言)模式。在XPath内,项称为定位步(location step)。稍后将以XPath作为结构模式的具体例子进行详细说明。然而,用结构模式指定需处理的目标有着以下问题。结构模式在所讨论的结构化文档改变时可能不指向原来的元。因此,必须在原来的结构化文档改变时改变结构模式。然而,这样的维护工作必须手动执行,因此需要大量的劳力。如果所涉及的结构化文档是一个通过因特网接入的HTML文档,其内容是逐日改变的,这个问题的影响就更为显著。一种现有的技术是给每个需指定的元一个唯一标识符。例如,在Amaya(W3C(全球网协会)开发的一种Web编辑工具)中,一个元用一个ID属性规定(见非专利文献1Irene Vatton等七人的“Amaya内的注释(Annotations in Amaya)”,W3C自2002年12月起在线提供,2003年1月经因特网(URLhttp//www.w3.org/Amaya/User/Annotations.html)检索得到)。采用通过ID属性指定一个元,文档的改变就不会影响这个元,除非删去这个元本身。然而,用ID指定元需要花费编辑成本,因此不是现实的解决方案。另一种现有技术是使结构模式适应在改变后文档内的任何改变(见非专利文献2Thomas A.Phelps和Robert Wilensky的“强健的文档内定位(Robust intra-document location)”,第9届全球网会议(2000年)在线提供,2003年1月14日经因特网(URLhttp//www9.org/w9cdrom/312/312.html)检索得到)。采用这种方法,对原来的元用它的名称作为线索按照一种策略沿文档的分层结构进行搜索。然而,有着怎样确定这个预定策略即怎样规定搜索范围或搜索次序的问题。可以有多种结构模式指向一个结构化文档内的一个特定元。下面将举例对此进行说明。图15(a)示出了一个树形结构化文档的层次结构。文档次序,即元在文档内出现的次序为元R130、元A131、元B132、元C133和元D134。图15(a)所示的指向元D134的一种结构模式是相继从父至子搜索,也就是说,一种表示为“命名为R的元的命名为A的子元的命名为B的子元的命名为D的子元”的结构模式。在稍后要说明的XPath表示法中,这可以表示为“/child∷R/child∷A/child∷B/child∷D ”(第一结构模式)。在另一种指向元D134的结构模式中,可以直接从元R130指定。在这种情况下,元D134是元R130的后代,可以表示为“命名为R的元的命名为D的孙元”。在XPath表示法中,这可以表示为“child∷R/descendant∷D”(第二结构模式)。类似,在只跳过元B132时,可以表示为“命名为R的元的命名为A的子元的命名为D的孙元”。在XPath表示法中,这可以表示为“/child∷R/child∷A/descendant∷D”(第三结构模式)。虽然上面提到的三种结构模式都指向元D134,但后两种结构模式具有对上述文档改变的耐受性。例如,假设删去元B132,改变文档,结果元C133和元D134成为元A131的子元(参见图15(b))。在这种情况下,第一结构模式指向一个在这个文档中不存在的元。相反,后两种结构模式仍然继续指向元D134。此外,后两种结构模式在它们的耐受性上也是不同的。例如,具有与元D134相同的名称的元D135添加在元R130之下,使它出现在元A131之前(参见图15(c))。在这种情况下,指向元R130的命名为D的第一孙元的第二结构模式指向新添加的元D135。相反,指向元R130的元A131的命名为D的第一孙元的第三结构模式继续正确地指向原来的元D134。这样,上面提到的由于文档内作了改变而引起的问题可以通过采用一种耐久的结构模式解决。然而,一种耐久的结构模式不是象相继从父至子搜索(以下称为“固定路径”)的结构模式那样简单,而是很难建立。此外,有许多种耐久的结构模式,因此很难选择一种最为适合将来可能对文档作出的改变。尽管有上述情况,还没有用现有技术提供的建立耐久的结构模式的编辑环境。有一些XSLT编辑系统,包括例如excelon公司(http//www.exceloncorp.com)的“excelon Stylus”、Altova公司(http//www.xmlspy.com)的“XML Spy”、IBM公司(http//www.alphaworks.ibm.com/tech/xsleditor)的“IBM XSLEditor”等等。虽然这些编辑环境提供了一种自动产生XPath的功能,但是所产生的XPath只局限于一种简单的相继从父至子的固定路径搜索。因此,为了产生一个耐久的结构模式,用户必须通过直接输入字符串或者应用通过菜单选择的辅助工具编辑固定路径。因此它难以产生许多种复杂的结构模式。此外,还要求用户具有结构模式的详细知识。在本文档来自技高网...

【技术保护点】
一种生成指向一个结构化文档内的一个元或一个元集的结构模式的一个或多个候选对象的方法,所述方法包括下列步骤:准备结构化文档的文档逻辑结构信息和为用户提供选择准则的显示条件和指标;接收用户指定的指向所述结构化文档内的一个元或一个 元集的所述结构模式,其中所述结构模式由一个或多个项组成;在这一个或多个项中确定一个需编辑项;通过根据所述文档逻辑结构信息用一些不同表示的项代替所述需编辑项生成一个或多个结构模式候选对象;以及根据所述显示条件和指标重新 排列所述生成的一个或多个结构模式候选对象,生成一个结构模式候选对象表。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:安部麻里堀雅洋小野康一小柳光生
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1