A large XML document conversion method. First, a large XML document is set up, then the document is segmented and processed. Finally, XSLT is used to convert the XML document generated by segmentation. The segmentation process is used in iterative way, and each time the segmentation process can be described as similar, specifically comprises the following steps: 1) setting the threshold; 2) preliminary segmentation, two non \good form\ XML document; 3) preliminary reconstruction, get two new XML documents, which are \deleted incomplete data\ and \the XML document has been added to the incomplete data\ XML documents; 4) re reconstruction with two \good form\ of the XML document. The invention can effectively process large XML documents, and the method has the advantages of high accuracy and accuracy, short data processing time and low computational complexity.
【技术实现步骤摘要】
一种大型XML文档转换方法
本专利技术涉及一种XML文档转换方法。
技术介绍
XML (Extensible Markup Language,可扩展标记语言)是 W3C (World Wide WebConsortium,万维网联盟)于1998年2月10日推出的用于数据传输和存储的标准,它是Internet上的不兼容系统之间进行数据交换的最常用的工具。一个拥有正确语法的XML文档被称为“形式良好的”(well-formed) XML文档,它应该满足以下5个特性:I) XML文档必须要有关闭标签。在XML中,开始标签和结束标签必须配套,例如:<age>…〈/age〉。空元素标签必须被关闭,例如:〈age/>。2) XML标签对大小写敏感。在XML中,标签〈Name〉与标签〈name〉是不同的。3) XML元素必须被正确的嵌套。在XML中,所有的标签都必须合理嵌套,例如:〈patientXname〉…〈/nameX/patient〉。在此例中,正确嵌套的意思是:〈name>元素是在〈patient〉元素内打开的,那么它必须在〈patient〉元素内关闭。4) XML文档必须有根元素。XML文档必须有一个元素是所有其他元素的父元素。该元素称为根元素。5) XML属性必须加引号。所有标签的属性值都必须使用双引号或单引号。XML文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶”。图1所示为一个简单的XML文档的树结构。在此树形结构中,树上的每个元素都可称为节点(node),顶层元素〈hospital〉称为“根节点”,节点之间的 ...
【技术保护点】
一种大型XML文档转换方法,其特征在于:所述转换方法包括以下步骤:1)分割XML源文档,过程如下:设定一个将要进行转换的XML源文档FS,其大小为TS,计算机可用的最大内存为Tm,如果XML文档非常大,远远大于计算机可用的最大内存,即Ts>>Tm,或者说,若满足条件:Ts≈nTm,n>>1,在进行转换之前对该文档进行分割处理,包括以下步骤:1.1)设定分割阈值T,即,文档转换时只使用不超过一半的内存空间;1.2)进行第一次分割,分割后得到两个形式良好的XML文档:①Fs1,大小记为Ts1,Ts1≈T;②Fb1,大小记为Tb1,Tb1=Ts?Ts1≈Ts?T;1.3)若Tb(k?1)>Tm,进行第k次分割,分割后得到两个形式良好的XML文档:①Fsk,大小记为Tsk,Tsk≈T;②Fbk,大小记为Tbk,Tbk=Tb(k?1)?Tsk≈[Ts?(k?1)T]?T=Ts?kT;1.4)若进行第n次分割,分割后得到两个形式良好的XML文档:①Fsn,大小记为Tsn,Tsn≈T;②Fbn,大小记为Tbn,Tbn=Tb(n?1)?Tsn≈[Ts?(n?1)T]?T=Ts?nT;这时分割生成的XM ...
【技术特征摘要】
1.一种大型XML文档转换方法,其特征在于:所述转换方法包括以下步骤: 1)分割XML源文档,过程如下: 设定一个将要进行转换的XML源文档Fs,其大小为Ts,计算机可用的最大内存为Tm,如果XML文档非常大,远远大于计算机可用的最大内存,即Ts?Tm,或者说,若满足条件:Ts ^ ηΤω, η>>1,在进行转换之前对该文档进行分割处理,包括以下步骤: 1.0设定分割阈值Τ,τ = ¥,即,文档转换时只使用不超过一半的内存空间; 1.2)进行第一次分割,分割后得到两个形式良好的XML文档: ①Fsl,大小记为Tsl,Tsl乂 T ;②Fbl,大小记为 Tbl,Tbl=Ts-Tsl ^ Ts-T ; 1.3)若进行第k次分割,分割后得到两个形式良好的XML文档: ①Fsk,大小记为Tsk,Tsk~T;②Fbk,大小记为 Tbk,Tbk=Tb(H)-Tsk ^ [Ts-(k-l)T]-T=Ts-kT ; 1.4) ^Tb(n_t) > T = 进行第η次分割,分割后得到两个形式良好的XML文档: ①Fsn,大小记为Tsn,Tsn^ T ;②Fbn,大小记为 Tbn,Tbn=Tb(Jri)-Tsn ^ [Ts-(n-l)T]-T=Ts-nT ; 这时分割生成的XML文档Fbn的大小不超过所设的分割阈值,即Tbn ( T,不再满足分割条件时分割结束; 2)利用XSLT转换分割生成的多个XML目标文档。2.如权利要求1所述的一种大型XML文档转换方法,其特征在于:所述步骤1.2)中,第一次分割的处理过程如下: (1)设定分割阈值1',1'= ¥; (2)初步分割XML源文档Fs,生成两个非“形式良好的”XML文档: ①Fsl,大小记为Tsl,Tsl乂 T ;②Fbl,大小记为 Tbl,Tbl=Ts-Tsl ^ Ts-T ; (3)重构上一步生成的两个XML文档Fsl和Fbl,具体实现过程如下: (3....
【专利技术属性】
技术研发人员:王冬雪,麻锐,孟利民,王辉,张标标,
申请(专利权)人:银江股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。