一种结构化数字内容析取与重组方法技术

技术编号:7700420 阅读:225 留言:0更新日期:2012-08-23 05:48
本发明专利技术公开一种结构化数字内容析取与重组方法,包括将数字化出版的备选内容存储在以可扩展标记语言(XML)格式为代表的非结构化数据存储器内;将所述的数据存储器内的信息单元,依据结构化数字内容析取与重组的标准定义的析取信息单元的标签进行格式化,形成信息主体的主题块;使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档;对所述的结构化文档通过可扩展样式语言(XSL)及可扩展样式语言转换(XSLT)根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。采用本发明专利技术,能适应未来出版物内容承载形式多元化,展示形式和终端多样化的特点。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及,利用数字化出版技术、数据库文档管理技术,解决传统数字出版制作中,文档内容的存储方式不利于重复利用以及信息冗余的问题。
技术介绍
数字内容出版作为ー种新兴的出版 业态,随着互联网和移动通信的发展而逐步普及到多种阅读終端。目前数字内容出版物的展示終端日益丰富,产业服务链趋于完善,技术不断革新,成为出版业界新的增长点,得到出版从业人员和相关研究机构的广泛关注和积极參与。面对数字化出版浪潮,传统内容组织与发布形式已不适应新形势下的出版业态,数字出版产业的发展需要引入新的内容组织方式和技术标准。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供,以有效减少数字化出版过程中的信息冗余,为内容深加工和多渠道发布提供了崭新的模式。通过结构化内容析取重组与映射的特点和优势来适应数字化出版时代多終端,多形态,多渠道传播的出版模式的特点,从而实现信息制作和传播效益的最大化。为达到上述目的,本专利技术的技术方案是这样实现的 ,该方法包括 A、将数字化出版的备选内容存储在以可扩展标记语言XML格式为代表的非结构化数据存储器内; B、将所述的数据存储器内的信息単元,依据结构化数字内容析取与重组的标准定义的析取信息単元的标签进行格式化,形成信息主体的主题块; C、使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档; D、对所述的结构化文档通过可扩展语言XSL及扩展样式转换XSLT根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。其中,所述步骤C,同时还包括支持领域专门化,所述领域专门化包括主题专门化和映射专门化;所述主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主題;所述映射专门化,是面向映射领域实现专门化。所述步骤A中,所述备选内容存储在内容仓库中,该内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,能够实现垓字节TB级非结构化数据资源的全文检索。所述步骤B中采用析取目标内容形成信息主体的主题块的过程包括将具备语义自包含性的析取的主题,并使用XML描述构成主题块的结构体,将出版物的内容与形式相分离。所述具备语义自包含性的析取的主题,是指需要具备信息描述完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。步骤C所述将分散的主题块重组为具备逻辑关系的结构化文档的过程为以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档。所述步骤D中,根据不同的阅读终端的差异,采用不同的渲染方式;所述渲染方式是采用XSL格式化对象语言XSL-FO。所述采用XSL-FO处理文档分为两个阶段一、文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档;ニ、根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树种读入并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物。所述阶段一,具体为所述文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格的要求,转换为根据版面设计指定的XSL-FO文档;在该阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。所述阶段ニ,具体为将读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物,通过该阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含HF、PCL、PS、SVG的多种目标格式。本专利技术所提供的结构化数字内容析取与重组方法,具有以下优点 该方法通过对XML格式对文档进行描述结构化的描述,生成的结构化模块即主题(Topic).利用对象映射(Mapping)机制对相同对象的主题进行逻辑顺序组织,形成结构化文档。最后经由可扩展样式语言(XSL)及扩展样式语言转换(XSLT)进行渲染,成为具备排版格式样式美观的出版物文档。本专利技术方法能适应未来出版物内容承载形式多元化,展示形式和終端多祥化的特点,井能根据这些特点合并重复内容,減少信息冗余,让信息内容以多种出版形态,多种发布渠道在传统介质和多媒体介质中传播,从而提高了信息传播的效率,实现了信息制作和传播效益的最大化。附图说明图I为本专利技术结构化数字内容析取与重组方法的流程 图2为本专利技术中主题的基础结构示意 图3为本专利技术中映射的基础结构 图4为本专利技术中内容主题的重组映射示意 图5为本专利技术中领域专门化的结构示意 图6为本专利技术的方法的第四步中样式渲染的流程示意图。具体实施例方式下面结合附图及本专利技术的实施例对本专利技术的方法作进ー步详细的说明。、本专利技术的核心思想在于通过结构化内容析取重组与映射的特点和优势来适应数字化出版时代多終端,多形态,多渠道传播的出版模式的特点,从而实现信息制作和传播效应的最大化。图I为本专利技术结构化数字内容析取与重组方法的流程图,如图I所示,该方法主要包括如下步骤 步骤11 :将数字化出版的备选内容存储在以可扩展标记语言(extensible MarkupLanguage, XML)格式为代表的非结构化数据存储的容器内。在数字化出版的内容流转过程中,备选内容存储在内容仓库中。内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,实现垓字节(lTbyte=1024Gbyte)级非结构化数据资源的全文检索。步骤12:对所述步骤11中已形成的容器内的信息単元,根据结构化数字内容析取与重组方法的标准来定义的析取信息単元的标签进行格式化,形成信息主体的主题(Topic)块。其中,采用的析取目标内容形成主题块的过程为析取的主题要具备语义的自包含性,即主题需要具备信息描述的完备性,能准确完整的表达内容含义,井能满足上下文灵活有效的重组重用。构成主题块的结构体使用XML来描述,可将出版物的内容与形式分离。特定领域的出版编辑用DTD文档类型定义。同时该方法还支持主题专门化,首先由领域专家分析并建立面向领域出版的要素模型,之后根据模型定义面向领域的主题标签并形成DTD模板。在对主题粒度的划分上,要根据内容编辑的需求遵循一定准则实施划分。主题作为信息段落的载体,具备语义自包含的特性,即主题需具有信息描述的完备性,能够准确完整的表达内容含义,所以划分的粒度不易过于细碎。从另ー个角度看,主题是建立上下文关联映射的基础单元(如图3所示),为便于通过结构化数字内容析取与重组方法下的映射文件进行内容段落的重用,主题的划分粒度也不宜过粗,以避免影响内容重组的灵活性。主题的粒度划分既要求大到能自我容纳,同时又要求小到满足上下文灵活有效的重组重用的程度,最終形成如图2所示的信息主体的主题(Topic)块的形式,即该主题块要包括标题(Title)、摘要(Abstract)、内容主体(Content)、任务(Task)、引用(Reference)。其中,所述任务(Task)还可以进ー步包括子任务,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结构化数字内容析取与重组方法,其特征在于,该方法包括 A、将数字化出版的备选内容存储在以可扩展标记语言XML格式为代表的非结构化数据存储器内; B、将所述的数据存储器内的信息単元,依据结构化数字内容析取与重组的标准定义的析取信息単元的标签进行格式化,形成信息主体的主题块; C、使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档; D、对所述的结构化文档通过可扩展语言XSL及扩展样式转换XSLT根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。2.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤C,同时还包括支持领域专门化,所述领域专门化包括主题专门化和映射专门化;所述主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主题;所述映射专门化,是面向映射领域实现专门化。3.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤A中,所述备选内容存储在内容仓库中,该内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,能够实现垓字节TB级非结构化数据资源的全文检索。4.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤B中采用析取目标内容形成信息主体的主题块的过程包括将具备语义自包含性的析取的主题,并使用XML描述构成主题块的结构体,将出版物的内容与形式相分离。5.根据权利要求4所述的结构化数字内容析取与重组方法,其特征在于,所述具备语义自包含性的析取的主題,是指需要具备信息描述完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。6.根据权利要求I...

【专利技术属性】
技术研发人员:高昂邢立强孙广芝程越
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1