基于XML的图书内容结构的形式化表示方法技术

技术编号:2821355 阅读:403 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种数字化出版领域中基于XML(可扩展标记语言)的图书内容结构形式化表示方法,将图书看作由封面、正文前辅文、正文和正文后辅文四个部分组成的,并将其表示成XML数据。为便于图书内容的检索和重用,对图书及图书的某些内容标注元数据,不同的内容用特定的DTD(文档类型定义)元素来标注,主要包括结构、内容、版式及重用四类DTD元素。本方法将图书加工分为结构、内容本身和版式三个部分,各环节各有侧重,有助于提高图书加工的质量和效率,同时将图书的内容结构与表现形式分离开,实现一次内容加工为多种内容表现形式(纸质印刷图书、电子图书、网络课程等)和多种应用服务,并且能够实现交叉引用,方便了信息的交流。

【技术实现步骤摘要】

本专利技术涉及一种基于XML的图书内容结构的形式化表示方法,尤其是一种数字化出版领域中有关图书内容结构的数据组织方法。
技术介绍
目前国内的图书出版大都采用方正集团的方正书版9.0来录入和存储图书内容。使用方正书版9.0录入图书内容时,内容和表现形式混合在一起,并且只能出版纸质印刷图书,一次加工一次使用。显然,方正书版已经不能满足目前数字化出版的多样化需求,出版社不仅要出版纸质印刷的图书,还要出版电子图书、网络课程等。 为了能够满足数字化出版时代出版多种表现形式的出版物的需求,以及降低出版成本、提高效益的需求,新形式的出版模式就应该能够实现一次加工能灵活自如地发布多种产品(纸质印刷图书、网络课程、电子图书等)。为此,一种基于XML的图书内容结构形式化表示方法的需求应运而生,该方法可以通过文档类型定义将图书内容和结构进行详细定义,使图书的内容结构与其表现形式无关,从而实现一次加工可以产生多种形式的产品。 选择XML来实现本专利技术的方法的原因在于XML是一种能够让用户自己创造标识的语言,它可以将数据与格式从网页中分开,它可以储存数据和共享数据的特性使得XML无所不能。我们先回到XML的定义上,XML(ExtensibleMarkup Language),扩展性标识语言。“扩展性”、“标识”、“语言”,每一个词都明确的点明了XML的重要特点和功能。 XML的第一个词是“扩展性”,这正是XML强大的功能和弹性的原因。在HTML里,有许多固定的标记,用户必须记住然后使用它们,并且不能使用HTML规范里没有的标记。而在XML中,用户能建立任何需要的标记。可以充分发挥想象力,只要清晰、易于理解用户就可以建立任何数量的标记。 XML的第二个词是“标识”,这表明了XML的目的是标识文档中的元素。不论是HTML,还是XML,标识的本质在于便于理解,如果没有标识,文档在计算机看来只是一个很长的字符串,每个字看起来都一样,没有重点之分。通过标识,文档才便于阅读和理解,使用户可以划分段落,列明标题。在XML中,用户更可以利用其扩展性来为文档建立更合适的标识。不过,需要注意的是标识仅仅是用来识别信息,它本身并不传达信息。 XML的第三个词是“语言”。这表明了作为一种语言XML必须遵循一定的规则。虽然XML的扩展性允许用户创建新标识,但它仍然必须遵循特定的结构、语法和明确的定义。在计算机领域,语言常常表示“程序语言”,用来编程实现一些功能和应用,但不是所有的“语言”都是用来编程的,XML就只是一种用来定义标识和描述信息的语言。 由于XML设计的目的就是用来方便的共享和交互数据的,所以在此本专利技术将其应用在数字化出版领域中进行图书内容结构的数据组织就再恰当不过了。
技术实现思路
本专利技术的目的在于提供一种结合数字化出版的需求,采用XML来制定图书内容结构的文档类型定义(Document Type Definition,DTD)的方法,以解决目前数字化出版中需求多样化的问题。 本专利技术的技术方案是这样实现的将文档类型定义词汇,即DTD词汇分为结构类、内容类、版式类和重用类四个大类。 (1)结构类 图书(Book)一般由封面、前辅文、正文、后辅文和附件组成。附件是指图书附带的图袋、光盘、音像制品等,在DTD中暂不考虑。正文结构一般分为绪论(或概述)和主题内容两部分。主题内容的结构一般采取篇章节目式。 与图书结构相关的DTD词汇主要有 (2)内容类 图书的内容,无论是正文前辅文中的十几个部分,绪论、篇、章、节、习题还是正文后辅文,其基本内容大都是由标题(Title)、副标题(SubTitle)、正文段落(Para)、预排版文本(LiteralLayout)、插图(Figure)、多媒体对象(MediaObject)、表格(Table)、公式(Equation)、行内公式(InlineEquation)、脚注(FootNote)、边文(SideBar)、列表(List)、可重用单元(Segment)、内部引用(InternalRef)、外部链接(URL)、行间定义(InParaDefinition)、人物(Person)、参考引用(CitationRef)、行内多媒体对象(InlineMediaObject)、标签(Label)、时间(Date)等构成的。 (3)版式类 对出版规范中要求的版式规则,也定义相关的DTD词汇。例如,规则对于计量和计数的数字,书写4位和4位以上的数字,要采用三位分节法。如26690 787 737。对这样的数字,用“Number”标签标记出来。 版式类的DTD词汇主要有 (4)重用类 内容重用类DTD词汇主要用于图书的再版、同一内容在不同载体上不同形式的发布、内容的查找及个性化定制等。为了达到以上重用要求,定义的DTD词汇主要包括 对可重用单元(从一本书、某一篇、某一章到某一小节、一个段落或者一张图片,都可以是一个可重用单元),有一些DTD词汇的属性描述对内容重用很重要,如 OutputMedium发布的媒体形式(paper online all) Selected选学层次 Required教学要求 Type应用类型, 以下是根据应用需求来定义的Type的取值 最重要的重用类的DTD词汇就是hepmd-BookMetadata和hepmd-UnitMetadata,即图书的元数据和重用单元的元数据。元数据是关于图书内容的描述性数据,定义元数据的目的是为了增强图书内容的可获取性,方便内容查找、内容聚类、建立内容之间的关联关系,有助于对图书内容进行有效管理和应用。 图书的元数据(hepmd-BookMetadata)的DTD词汇主要有 重用单元的元数据(hepmd-UnitMetadata)的DTD词汇主要有 本专利技术的有益效果是 (1)基于XML的图书内容结构形式化表示方法,将图书的加工分为结构、内容本身和版式三个部分。各个环节各有侧重,有助于提高图书加工的质量和效率。 (2)基于XML的图书内容结构形式化表示方法,能够将图书的内容结构与其表现形式分离开,内容结构与载体无关,内容结构与版式分离,从而实现一次内容加工为多种内容表现形式(纸质印刷图书、电子图书、网络课程等)和多种应用服务。 (3)基于XML的图书内容结构形式化表示方法,不同的内容用不同的标签标注,能够结合标签和内容本身实现基于语义的快速精确查询。 (4)基于XML的图书内容结构形式化表示方法,能够实现交叉引用,为学习社区提供更加丰富的学习资源。 (5)基于XML的图书内容结构形式化表示方法,元数据标注信息能够方便内容查找、内容聚类、建立内容之间的关联,有助于对历史图书内容进行有效管理和应用。 此外,结合XML自身的优点,可以看到它的自我描述性质能够很好地表现许多复杂的数据关系,使得基于XML的应用程序可以在XML文件中准确高效地搜索相关数据内容,忽略其他不相关部分。XML还有其他许多优点,如有利于不同系统之间的信息交流,完全可以充当网际语言,并有希望成为数据和文档交换的标准机制等。 附图说明 下面结合附图和实施例对本本文档来自技高网
...

【技术保护点】
一种基于XML的图书内容结构的形式化表示方法,是基于可扩展标记语言XML来对图书内容结构进行形式化表示的方法,其特征在于:本方法使用可扩展标记语言XML来表示图书内容结构。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴向张泽彭玲林涛杨京峰路秋丽
申请(专利权)人:高等教育出版社
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1