【技术实现步骤摘要】
一种基于XML的自动排版方法及系统
[0001]本专利技术涉及自动排版
,尤其涉及一种基于XML的自动排版方法及系统。
技术介绍
[0002]网络编纂平台、内容系统有着大量印刷出版需求,传统方法是平台导出相关数据,由编辑进行整理,交于排版员进行排版输出印刷文件,中间环节多,费时费力,容易出错、效率低。
[0003]中国专利公开号:CN110032720A,公开了一种基于XML的可视化报告排版及自动生成方法及系统,包括:设计XML报告模板格式;所述XML报告模板格式直接映射报告批量生产程序;基于可视化方式自动生成XML报告模板;所述可视化方式是通过在线页面应用的方式来实现;XML报告模板自动抽取可映射报告内容模板文件;并在替换内容后自动回填XML报告模板;基于XML报告模板生成报告。由此可见,该方案未对XML数据精确分析,存在排版精度低、排版效率低的问题。
技术实现思路
[0004]为此,本专利技术提供一种基于XML的自动排版方法及系统,用以克服现有技术中排版数据分析不精确,存在排版精度低、排版效率低的问题。
[0005]为实现上述目的,一方面,本专利技术提供一种基于XML的自动排版系统,包括:
[0006]导入模块,用以导入XML格式数据;
[0007]分析模块,用以对导入的XML格式数据进行分析,其与所述导入模块连接,所述分析模块包括:分类单元、识别单元和校验单元,所述分类单元用以对导入的XML格式数据进行数据类别划分,划分为文字数据和图片数据,所述识别单元用以 ...
【技术保护点】
【技术特征摘要】
1.一种基于XML的自动排版系统,其特征在于,所述系统包括:导入模块,用以导入XML格式数据;分析模块,用以对导入的XML格式数据进行分析,其与所述导入模块连接,所述分析模块包括:分类单元、识别单元和校验单元,所述分类单元用以对导入的XML格式数据进行数据类别划分,划分为文字数据和图片数据,所述识别单元用以对分类后的文字数据进行标签识别,其与所述分类单元连接,在进行标签识别时,所述识别单元用以将各标签关键字与文字数据的各段落内容进行匹配,并计算各段落的标签匹配度P,计算完成后,所述识别单元还用以根据段落中是否出现相同关键字对标签匹配度P进行调节,调节完成后,所述识别单元还用以根据段落中出现的相同关键字数量对调节后的标签匹配度P
’
进行修正,修正完成后,所述识别单元还用以根据修正后的标签匹配度P”对段落的标签进行初次判断,并根据段落字数对标签初次判断时标签匹配成功的段落进行标签二次判断,所述校验单元用以对标签二次判断结果进行校验,在进行校验时,所述校验单元用以根据同一段落对应的标签数量对该段落的标签二次判断结果进行校验,其与所述识别单元连接;重组模块,用以对校验后的各标签进行结构重组,其与所述分析模块连接;建模模块,用以创建标签样式模板,其与所述重组模块连接;排版模块,用以将标签结构重组后的数据导入标签样式模板中进行排版,其与所述重组模块连接;调整模块,用以对排版后的数据进行版面调整,其与所述排版模块连接,在进行调整时,所述调整模块还用以调整动态页眉格式,以使调整后各页面页眉格式相同,并创建索引标签和参见标签;导出模块,用以导出版面调整后的文件,其与所述调整模块连接。2.根据权利要求1所述的基于XML的自动排版系统,其特征在于,所述识别单元在计算各段落的标签匹配度P时,设定P=(P1+P2+
…
Pn)/n,n为段落内相似关键字的数量,n≥1,Pi为段落中相似关键字的匹配度,Pi=L/L0,设定i=1,2
…
n,L为相似关键字的字数,L≥2,L0为标签关键字的字数。3.根据权利要求2所述的基于XML的自动排版系统,其特征在于,所述识别单元在对标签匹配度P进行调节时,根据段落中是否出现相同关键字对标签匹配度P进行调节,其中,当段落中出现相同关键字时,所述识别单元选取调节系数t对标签匹配度P进行调节,以增加标签匹配度,1<t<1.2,调节后的标签匹配度为P
’
,设定P
’
=P
×
t;当段落中未出现相同关键字时,所述识别单元不进行调节。4.根据权利要求3所述的基于XML的自动排版系统,其特征在于,所述识别单元在对调节后的标签匹配度P
’
进行修正时,将段落中出现的相同关键字数量S与预设相同关键字数量S0进行比对,并根据比对结果对调节后的标签匹配度P
’
进行修正,其中,当1<S≤S0时,所述识别单元选取第一修正系数g1对调节后的标签匹配度P
’
进行修正,以增加标签匹配度,1<g1<1.1;当S>S0时,所述识别单元选取第二修正系数g2对调节后的标签匹配度P
...
【专利技术属性】
技术研发人员:万捷,彭干,程成,肖辉,
申请(专利权)人:雅昌文化集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。