一种基于XML的自动排版方法及系统技术方案

技术编号:38758495 阅读:9 留言:0更新日期:2023-09-10 09:43
本发明专利技术涉及一种基于XML的自动排版方法及系统,涉及自动排版技术领域,所述系统包括:导入模块,用以导入XML格式数据;分析模块,用以对导入的XML格式数据进行分析,所述分析模块包括:分类单元、识别单元和校验单元,分类单元用以对导入的XML格式数据进行数据类别划分,识别单元用以对分类后的文字数据进行标签识别,校验单元用以对标签二次判断结果进行校验;重组模块,用以对校验后的标签进行结构重组;建模模块,用以创建标签样式模板;排版模块,用以将重组后的数据导入标签样式模板中进行排版;调整模块,用以对排版后的数据进行版面调整;导出模块,用以导出版面调整后的文件。本发明专利技术有效提高了排版效率。本发明专利技术有效提高了排版效率。本发明专利技术有效提高了排版效率。

【技术实现步骤摘要】
一种基于XML的自动排版方法及系统


[0001]本专利技术涉及自动排版
,尤其涉及一种基于XML的自动排版方法及系统。

技术介绍

[0002]网络编纂平台、内容系统有着大量印刷出版需求,传统方法是平台导出相关数据,由编辑进行整理,交于排版员进行排版输出印刷文件,中间环节多,费时费力,容易出错、效率低。
[0003]中国专利公开号:CN110032720A,公开了一种基于XML的可视化报告排版及自动生成方法及系统,包括:设计XML报告模板格式;所述XML报告模板格式直接映射报告批量生产程序;基于可视化方式自动生成XML报告模板;所述可视化方式是通过在线页面应用的方式来实现;XML报告模板自动抽取可映射报告内容模板文件;并在替换内容后自动回填XML报告模板;基于XML报告模板生成报告。由此可见,该方案未对XML数据精确分析,存在排版精度低、排版效率低的问题。

技术实现思路

[0004]为此,本专利技术提供一种基于XML的自动排版方法及系统,用以克服现有技术中排版数据分析不精确,存在排版精度低、排版效率低的问题。
[0005]为实现上述目的,一方面,本专利技术提供一种基于XML的自动排版系统,包括:
[0006]导入模块,用以导入XML格式数据;
[0007]分析模块,用以对导入的XML格式数据进行分析,其与所述导入模块连接,所述分析模块包括:分类单元、识别单元和校验单元,所述分类单元用以对导入的XML格式数据进行数据类别划分,划分为文字数据和图片数据,所述识别单元用以对分类后的文字数据进行标签识别,其与所述分类单元连接,在进行标签识别时,所述识别单元用以将各标签关键字与文字数据的各段落内容进行匹配,并计算各段落的标签匹配度P,计算完成后,所述识别单元还用以根据段落中是否出现相同关键字对标签匹配度P进行调节,调节完成后,所述识别单元还用以根据段落中出现的相同关键字数量对调节后的标签匹配度P

进行修正,修正完成后,所述识别单元还用以根据修正后的标签匹配度P”对段落的标签进行初次判断,并根据段落字数对标签初次判断时标签匹配成功的段落进行标签二次判断,所述校验单元用以对标签二次判断结果进行校验,在进行校验时,所述校验单元用以根据同一段落对应的标签数量对该段落的标签二次判断结果进行校验,其与所述识别单元连接;
[0008]重组模块,用以对校验后的各标签进行结构重组,其与所述分析模块连接;
[0009]建模模块,用以创建标签样式模板,其与所述重组模块连接;
[0010]排版模块,用以将标签结构重组后的数据导入标签样式模板中进行排版,其与所述重组模块连接;
[0011]调整模块,用以对排版后的数据进行版面调整,其与所述排版模块连接,在进行调整时,所述调整模块还用以调整动态页眉格式,以使调整后各页面页眉格式相同,并创建索
引标签和参见标签;
[0012]导出模块,用以导出版面调整后的文件,其与所述调整模块连接。
[0013]进一步地,所述识别单元在计算各段落的标签匹配度P时,设定P=(P1+P2+

Pn)/n,n为段落内相似关键字的数量,n≥1,Pi为段落中相似关键字的匹配度,Pi=L/L0,设定i=1,2

n,L为相似关键字的字数,L≥2,L0为标签关键字的字数。
[0014]进一步地,所述识别单元在对标签匹配度P进行调节时,根据段落中是否出现相同关键字对标签匹配度P进行调节,其中,
[0015]当段落中出现相同关键字时,所述识别单元选取调节系数t对标签匹配度P进行调节,以增加标签匹配度,1<t<1.2,调节后的标签匹配度为P

,设定P

=P
×
t;
[0016]当段落中未出现相同关键字时,所述识别单元不进行调节。
[0017]进一步地,所述识别单元在对调节后的标签匹配度P

进行修正时,将段落中出现的相同关键字数量S与预设相同关键字数量S0进行比对,并根据比对结果对调节后的标签匹配度P

进行修正,其中,
[0018]当1<S≤S0时,所述识别单元选取第一修正系数g1对调节后的标签匹配度P

进行修正,以增加标签匹配度,1<g1<1.1;
[0019]当S>S0时,所述识别单元选取第二修正系数g2对调节后的标签匹配度P

进行修正,以增加标签匹配度,设定g2=g1+g1
×
(S

S0)/S;
[0020]其中,当选取第i修正系数gi对调节后的标签匹配度P

进行修正时,设定i=1,2,修正后的标签匹配度为P”,设定P”=P
’×
gi。
[0021]进一步地,所述识别单元在根据修正后的标签匹配度P”判断段落的标签时,将修正后的标签匹配度P”与预设标签匹配度P0进行比对,并根据比对结果对段落的标签进行初次判断,其中,
[0022]当P”≥P0时,所述识别单元判断标签匹配成功,并将该匹配成功的标签作为该段落的标签;
[0023]当P”<P0时,所述识别单元判断标签匹配失败。
[0024]进一步地,所述识别单元在进行标签二次判断时,将标签匹配成功的段落的字数Z与各预设标签段落字数进行比对,并根据比对结果对标签初次判断后标签匹配成功的段落进行标签二次判断,其中,
[0025]当Z<Z1或Z>Z2时,所述识别单元判断该匹配成功的标签不能作为该段落的标签,并对该段落重新进行标签初次判断;
[0026]当Z1≤Z≤Z2时,所述识别单元判断该匹配成功的标签作为该段落的标签;
[0027]其中,Z1为第一预设标签段落字数,Z2为第二预设标签段落字数,Z1<Z2。
[0028]进一步地,所述校验单元在对标签二次判断结果进行校验时,根据同一段落对应的标签数量对该段落的标签二次判断结果进行校验,其中,
[0029]当同一段落存在多个标签时,所述校验单元判断校验失败,并对该段落的多个标签按照匹配度由大到小进行排序,将匹配度最大的标签作为该段落的标签;
[0030]当同一段落存在单个标签时,所述校验单元判断校验成功。
[0031]进一步地,所述重组模块对校验后的各标签进行结构重组时,将校验成功的标签名称与预设标签结构中的标签名称进行匹配,并根据匹配结果对标签进行结构重组,其中,
[0032]当校验成功的标签名称与预设标签结构中的标签名称匹配成功时,所述重组模块按照预设标签结构对该标签进行结构重组;
[0033]当校验成功的标签名称与预设标签结构中的标签名称匹配失败时,所述重组模块对匹配失败的标签对应的段落重新进行标签判断,在对段落重新进行标签判断时,已选择过的标签不再使用,直至段落的标签名称与预设标签结构中的标签名称匹配成功。
[0034]进一步地,所述标签样式模板包括标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XML的自动排版系统,其特征在于,所述系统包括:导入模块,用以导入XML格式数据;分析模块,用以对导入的XML格式数据进行分析,其与所述导入模块连接,所述分析模块包括:分类单元、识别单元和校验单元,所述分类单元用以对导入的XML格式数据进行数据类别划分,划分为文字数据和图片数据,所述识别单元用以对分类后的文字数据进行标签识别,其与所述分类单元连接,在进行标签识别时,所述识别单元用以将各标签关键字与文字数据的各段落内容进行匹配,并计算各段落的标签匹配度P,计算完成后,所述识别单元还用以根据段落中是否出现相同关键字对标签匹配度P进行调节,调节完成后,所述识别单元还用以根据段落中出现的相同关键字数量对调节后的标签匹配度P

进行修正,修正完成后,所述识别单元还用以根据修正后的标签匹配度P”对段落的标签进行初次判断,并根据段落字数对标签初次判断时标签匹配成功的段落进行标签二次判断,所述校验单元用以对标签二次判断结果进行校验,在进行校验时,所述校验单元用以根据同一段落对应的标签数量对该段落的标签二次判断结果进行校验,其与所述识别单元连接;重组模块,用以对校验后的各标签进行结构重组,其与所述分析模块连接;建模模块,用以创建标签样式模板,其与所述重组模块连接;排版模块,用以将标签结构重组后的数据导入标签样式模板中进行排版,其与所述重组模块连接;调整模块,用以对排版后的数据进行版面调整,其与所述排版模块连接,在进行调整时,所述调整模块还用以调整动态页眉格式,以使调整后各页面页眉格式相同,并创建索引标签和参见标签;导出模块,用以导出版面调整后的文件,其与所述调整模块连接。2.根据权利要求1所述的基于XML的自动排版系统,其特征在于,所述识别单元在计算各段落的标签匹配度P时,设定P=(P1+P2+

Pn)/n,n为段落内相似关键字的数量,n≥1,Pi为段落中相似关键字的匹配度,Pi=L/L0,设定i=1,2

n,L为相似关键字的字数,L≥2,L0为标签关键字的字数。3.根据权利要求2所述的基于XML的自动排版系统,其特征在于,所述识别单元在对标签匹配度P进行调节时,根据段落中是否出现相同关键字对标签匹配度P进行调节,其中,当段落中出现相同关键字时,所述识别单元选取调节系数t对标签匹配度P进行调节,以增加标签匹配度,1<t<1.2,调节后的标签匹配度为P

,设定P

=P
×
t;当段落中未出现相同关键字时,所述识别单元不进行调节。4.根据权利要求3所述的基于XML的自动排版系统,其特征在于,所述识别单元在对调节后的标签匹配度P

进行修正时,将段落中出现的相同关键字数量S与预设相同关键字数量S0进行比对,并根据比对结果对调节后的标签匹配度P

进行修正,其中,当1<S≤S0时,所述识别单元选取第一修正系数g1对调节后的标签匹配度P

进行修正,以增加标签匹配度,1<g1<1.1;当S>S0时,所述识别单元选取第二修正系数g2对调节后的标签匹配度P
...

【专利技术属性】
技术研发人员:万捷彭干程成肖辉
申请(专利权)人:雅昌文化集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1