一种排版方法和系统技术方案

技术编号:15690835 阅读:103 留言:0更新日期:2017-06-24 03:33
本发明专利技术提供一种排版方法和系统,方法包括:根据排版要求将待处理的文本拆分成单字符或字符串;对单字符或字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断得到的各个标识符进行存储;遍历各个标识符来对单字符进行替换处理或遍历各个标识符来对字符串之间的文本进行合并处理。本发明专利技术能够根据排版要求将文档中的文本拆分成单字符或字符串的形式,再利用设置的正则表达式对单字符或字符串进行判定,用标识符进行标记,再根据标识符对文本内容进行重新排版,极大的减少不规范的情况,也减轻了录入员的工作压力和难度。

Typesetting method and system

The present invention provides a method and system for typesetting, method comprises: according to the requirements of typesetting text split into single character or string; indexing of single character or string index to determine a single character or string is in line with the regular expression set, and the results were used to judge the identifier tag set will be judged; each identifier was stored; through every identifier to replace or traverse the various identifiers to merge the text string between the single character. The invention can according to the requirements of the text in the document layout will be split into a single character or a string in the form of regular expressions by setting the single character or string to determine, labeled with an identifier, and then according to the identifier re layout of text content, greatly reduce the irregularities, but also reduce the data entry work the pressure and difficulty.

【技术实现步骤摘要】
一种排版方法和系统
本专利技术主要涉及数字排版
,具体涉及一种排版方法和系统。
技术介绍
扫描文档内容进行二次排版时,扫描到的原始内容格式存在着不规范的情况,不符合数字化排版的要求,例如:1、行后空格;2、题干、选项的行前空格;3、多余回车符。目前,在纸质文档转化成数字文档时,录入者扫描纸质文档成数字化文档后,由于存在上述不规范情况,一般的处理方式是人工逐一进行规范排版处理,因此需要耗费大量时间精力去完成这件事,效率低且容易出错,而现有的一些自动排版方法处理的“不规范”情况比较单一且效果不佳。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种排版方法和系统,能够根据排版要求及设置的正则表达式对文档中不规范的情况进行排版,大大减轻录入员的工作压力和难度。本专利技术解决上述技术问题的技术方案如下:一种排版方法,包括如下步骤:根据排版要求将待处理的文本拆分成单字符或字符串;将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。本专利技术的有益效果是:能够根据排版要求将文档中的文本拆分成单字符或字符串的形式,再利用设置的正则表达式对单字符或字符串进行判定,用标识符进行标记,再根据标识符对文本内容进行重新排版,极大的减少不规范的情况,也减轻了录入员的工作压力和难度。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述索引时判断单字符是否符合设置的正则表达式,将判断结果分别用设置的标识符标记的具体方法为:预先设置第一正则表达式,并预先设置标识符:标识符An和标识符0n;对第一数组中的单字符进行索引时,先判断当前索引的单字符是否为空字符,如果该单字符是空字符再判断该单字符的前一个索引的单字符与后一个索引的单字符是否符合设置的第一正则表达式,如果前一个索引的单字符与后一个索引的单字符均不符合第一正则表达式则用标识符0n标记该单字符,否则标记为An。进一步,进行替换处理的具体方法为:将标记有标识符0n的单字符用预设的占位符进行替换处理。进一步,判断当前索引的单字符是否为空字符的具体方法为:判断单字符的长度是否为0,如果为0则为空字符。采用上述进一步方案的有益效果是:可根据需要设置一个正则表达式,用设定的标识符对符合或不符合正则条件的单字符进行标识,根据标识进行替换处理,用占位符替换单字符来区别无需替换的单字符,将占位符去除能够实现非空字符与其他非空字符之间只保留一个空格的效果。进一步,所述索引时判断单字符是否符合设置的正则表达式的具体方法为:预先设置第二正则表达式和第三正则表达式,并预先设置标识符:标识符A1、标识符B1和标识符01;对第一数组中的单字符进行索引时用设置的第二正则表达式和第三正则表达式对索引的单字符进行判别,如果该单字符符合第二正则表达式则用标识符A1标记,如果该单字符符合第三正则表达式则用标识符B1标记,如果均不符合第二正则表达式和第三正则表达式则用标识符01标记。进一步,进行替换处理的具体方法为:将标记有标识符01的单字符用预设的占位符进行替换处理。替换处理时,遍历单字符的数组,同时遍历存储有对应标识符的数组(第三数组),如果当前索引的单字符对应为标识符A1,该索引的单字符为起始索引,之后的遍历只有标识符不为“01”,即标识符为“A1”或者“B1”,就可把该索引定位结尾索引,如果标识符不为“01”的单字符无需替换,即标识符“01”所对应的单字符都无需进行占位符替换处理。采用上述进一步方案的有益效果是:可根据需要设置两个正则表达式,用设定的标识符对符合或不符合正则条件的单字符进行标识,根据标识进行替换处理,用占位符替换单字符来区别无需替换的单字符,将占位符去除能够实现非空字符与其他非空字符之间空格的效果。进一步,进行替换处理后还包括将替换的占位符进行删除的步骤。采用上述进一步方案的有益效果是:实现非空字符与其他非空字符之间空格的效果。进一步,索引时判断字符串是否符合设置的正则表达式,将判断结果分别用设置的标识符标记的具体方法为:预先设置第四正则表达式和第五正则表达式,并预先设置标识符:标识符A2、标识符B2、标识符02和标识符X;对第二数组中的字符串进行索引时用设置的第四正则表达式和第五正则表达式对索引的字符串进行判别,如果该字符串符合第四正则表达式则用标识符A2标记,如果该字符串符合第五正则表达式则用标识符B2标记,如果该字符串同时符合第四正则表达式和第五正则表达式则用标识符X标记,如果该字符串均不符合第四正则表达式和第五正则表达式则用标识符02标记。采用上述进一步方案的有益效果是:可根据需要设置两个正则表达式,用设定的标识符对符合或不符合正则条件的单字符进行标识,根据标识进行合并处理,可实现去除多余“回车”的效果。进一步,对字符串之间的文本进行合并处理的具体方法为:根据第四数组中的各个标识符来确定字符串之间的文本合并范围,并根据合并范围删除字符串之间的文本。合并范围的确定可根据下面两种方式:方式一:遍历字符串的数组,同时遍历存储有对应标识符的数组(第四数组),如果当前索引的字符串对应为标识符A2,则递增索引,如果递增索引的字符串对应为标识符A2,此索引项作为需合并字符串的起始自字符串的索引项;如果递增索引的字符串对应为标识符B2,此索引项做为需合并字符串的结尾自字符串的索引项;遇到不符合任一正则表达式条件的标识符02,可不做处理继续下一个索引。方式二:遍历字符串的数组,同时遍历存储有对应标识符的数组第四数组),如果当前索引的字符串对应为标识符B2或标识符X,则递增索引,递增的索引项做为需合并字符串的起始自字符串的索引项;如果递增索引的字符串对应为标识符B2,此索引项做为需合并字符串的结尾自字符串的索引项;遇到不符合任一正则表达式条件的标识符02,可不做处理继续下一个索引。最后,使用起始索引和结尾索引去对应字符串之间的文本,得到文本合并范围,处于两个索引区间的文本使用循环的方式全部拼接合并,即删除合并范围内的文本,从而完成去回车的操作。采用上述进一步方案的有益效果是:可实现去除多余“回车”的效果。本专利技术解决上述技术问题的另一技术方案如下:一种排版系统,包括:拆分模块,用于根据排版要求将待处理的文本拆分成单字符或字符串;存储模块,用于将所述拆分模块中拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;还用于将所述标记模块中判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;标记模块,用于对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;处理模块,用于遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。附图说明本文档来自技高网...
一种排版方法和系统

【技术保护点】
一种排版方法,其特征在于,包括如下步骤:根据排版要求将待处理的文本拆分成单字符或字符串;将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。

【技术特征摘要】
1.一种排版方法,其特征在于,包括如下步骤:根据排版要求将待处理的文本拆分成单字符或字符串;将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。2.根据权利要求1所述的排版方法,其特征在于,所述索引时判断单字符是否符合设置的正则表达式,将判断结果分别用设置的标识符标记的具体方法为:预先设置第一正则表达式,并预先设置标识符:标识符An和标识符0n;对第一数组中的单字符进行索引时,先判断当前索引的单字符是否为空字符,如果该单字符是空字符再判断该单字符的前一个索引的单字符与后一个索引的单字符是否符合设置的第一正则表达式,如果前一个索引的单字符与后一个索引的单字符均不符合第一正则表达式则用标识符0n标记该单字符,否则标记为An。3.根据权利要求2所述的排版方法,其特征在于,进行替换处理的具体方法为:将标记有标识符0n的单字符用预设的占位符进行替换处理。4.根据权利要求2所述的排版方法,其特征在于,判断当前索引的单字符是否为空字符的具体方法为:判断单字符的长度是否为0,如果为0则为空字符。5.根据权利要求1所述的排版方法,其特征在于,所述索引时判断单字符是否符合设置的正则表达式的具体方法为:预先设置第二正则表达式和第三正则表达式,并预先设置标识符:标识符A1、标识符B1和标识符01;对第一数组中的单字符进行索引时用设置的第二正则表达式和第三正则表达式对索引的单字符进行判别,如果该单字符符合第二正则表达式则用标识符A1标记,如果该单字符符合第三正则表达式则用标识符B1...

【专利技术属性】
技术研发人员:兰涛
申请(专利权)人:广西英腾教育科技股份有限公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1