The present invention provides a method and system for typesetting, method comprises: according to the requirements of typesetting text split into single character or string; indexing of single character or string index to determine a single character or string is in line with the regular expression set, and the results were used to judge the identifier tag set will be judged; each identifier was stored; through every identifier to replace or traverse the various identifiers to merge the text string between the single character. The invention can according to the requirements of the text in the document layout will be split into a single character or a string in the form of regular expressions by setting the single character or string to determine, labeled with an identifier, and then according to the identifier re layout of text content, greatly reduce the irregularities, but also reduce the data entry work the pressure and difficulty.
【技术实现步骤摘要】
一种排版方法和系统
本专利技术主要涉及数字排版
,具体涉及一种排版方法和系统。
技术介绍
扫描文档内容进行二次排版时,扫描到的原始内容格式存在着不规范的情况,不符合数字化排版的要求,例如:1、行后空格;2、题干、选项的行前空格;3、多余回车符。目前,在纸质文档转化成数字文档时,录入者扫描纸质文档成数字化文档后,由于存在上述不规范情况,一般的处理方式是人工逐一进行规范排版处理,因此需要耗费大量时间精力去完成这件事,效率低且容易出错,而现有的一些自动排版方法处理的“不规范”情况比较单一且效果不佳。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种排版方法和系统,能够根据排版要求及设置的正则表达式对文档中不规范的情况进行排版,大大减轻录入员的工作压力和难度。本专利技术解决上述技术问题的技术方案如下:一种排版方法,包括如下步骤:根据排版要求将待处理的文本拆分成单字符或字符串;将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。本专利技术的有益效果是:能够根据排版要求将文档中的文本拆分成单字符或字符串的形式,再利用设置的正则表达式对单字符或字符串进行判定,用标识符进行标记,再根据 ...
【技术保护点】
一种排版方法,其特征在于,包括如下步骤:根据排版要求将待处理的文本拆分成单字符或字符串;将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。
【技术特征摘要】
1.一种排版方法,其特征在于,包括如下步骤:根据排版要求将待处理的文本拆分成单字符或字符串;将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。2.根据权利要求1所述的排版方法,其特征在于,所述索引时判断单字符是否符合设置的正则表达式,将判断结果分别用设置的标识符标记的具体方法为:预先设置第一正则表达式,并预先设置标识符:标识符An和标识符0n;对第一数组中的单字符进行索引时,先判断当前索引的单字符是否为空字符,如果该单字符是空字符再判断该单字符的前一个索引的单字符与后一个索引的单字符是否符合设置的第一正则表达式,如果前一个索引的单字符与后一个索引的单字符均不符合第一正则表达式则用标识符0n标记该单字符,否则标记为An。3.根据权利要求2所述的排版方法,其特征在于,进行替换处理的具体方法为:将标记有标识符0n的单字符用预设的占位符进行替换处理。4.根据权利要求2所述的排版方法,其特征在于,判断当前索引的单字符是否为空字符的具体方法为:判断单字符的长度是否为0,如果为0则为空字符。5.根据权利要求1所述的排版方法,其特征在于,所述索引时判断单字符是否符合设置的正则表达式的具体方法为:预先设置第二正则表达式和第三正则表达式,并预先设置标识符:标识符A1、标识符B1和标识符01;对第一数组中的单字符进行索引时用设置的第二正则表达式和第三正则表达式对索引的单字符进行判别,如果该单字符符合第二正则表达式则用标识符A1标记,如果该单字符符合第三正则表达式则用标识符B1...
【专利技术属性】
技术研发人员:兰涛,
申请(专利权)人:广西英腾教育科技股份有限公司,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。