一种双层PDF生成及校对方法和装置制造方法及图纸

技术编号:33527472 阅读:24 留言:0更新日期:2022-05-19 01:52
本发明专利技术提供了一种双层PDF生成及校对方法和装置,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。装置主要包括OCR识别引擎、存储模块、段落合成模块、错误检测纠正模块和输出模块。输出模块。输出模块。

【技术实现步骤摘要】
一种双层PDF生成及校对方法和装置


[0001]本专利技术涉及计算机信息处理
,尤其涉及双层PDF生成制作以及校对相关技术。

技术介绍

[0002]双层PDF(Portable Document Format,便携文件格式)文件是一种具有多层结构的PDF格式文件,其文件内容既包含文本层,也包含图像层,且文本层与图像层的位置上下一一相对应。它是在扫描版PDF的基础上,经过去污、纠偏和OCR(光学字符识别,即用软件把扫描图像识别成文字),然后把OCR出来的文字做成透明文字层,蒙到原始扫描图像层上,所以称为“双层PDF”。与纯扫描版PDF相比,这种PDF可以进行文字检索、复制、导出,因此又被称为“可检索扫描PDF”。这样可以基于文字建立索引数据库,进行科学管理。
[0003]然而OCR识别结果存在一定的错误率,OCR效果都不太好,经常出现的情况是扫描版PDF上有某个词,但搜索的时候却没有;或者从双层PDF复制、粘贴出来的内容错字较多。这都是OCR识别结果不精确导致的。

技术实现思路

[0004]本专利技术的目的在于提供一种双层PDF生成及校对方法和装置,提高双层PDF文本准确率。
[0005]为了达到上述的目的,本专利技术提供一种双层PDF生成及校对方法,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。
[0006]上述双层PDF生成及校对方法,其中,包括:1)OCR识别引擎模块识别图片,输出识别结果;2)对识别结果进行过滤获取识别结果元信息;识别结果元信息包括所有文本块的文本块内容、文本块外接矩形坐标、文本块得分;3)识别文本块合成文本段落;根据文本块外接矩形坐标将各文本块合并成文本段落,生成新的文本段落及该段落的外接矩形坐标;4)对文本段落进行错误检测;4.1)错误检测先通过中文分词器切词,从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;4.2)错误检测结果存库持久化,为后续人工介入纠错提供错误位置信息;4.3)读取错误检测结果,遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对候选集中所有疑似错误位置替换结果比较并排序,得到最优纠正词;4.4)错误纠正结果和排序信息存库持久化,为后续人工介入纠错提供纠错建议;5)纠错;包括自动纠错和/或人工介入纠错;6)根据纠错结果生成双层PDF文件。
[0007]上述双层PDF生成及校对方法,其中,包括:所述步骤2)包括:2.1)获取文档MD5值:根据识别图片文档路径,读取文档内容,根据文档内容计算该文档MD5值;2.2)识别结果是一个json数组,对识别结果进行过滤,获取所有文本块的文本块内容、文本块外接矩形坐
标、文本块得分,以步骤2.1获取的文档MD5值作为主键,将识别结果元信息存储入库;以某文本块外接矩形的左上角作为原点(0,0),向右延伸线作为X轴,向下延伸线作为Y轴,建立坐标系,过滤后文本块外接矩形坐标以该矩形左上角和右下角在该坐标系下的坐标表示。
[0008]上述双层PDF生成及校对方法,其中,所述步骤3)包括:3.1)找到最左侧文本块外接矩形左上角坐标的X值,记为X1;3.2)找到最右侧文本块外接矩形左上角坐标的X值,记为X2;3.3)遍历所有识别结果,取每个文本块外接矩形左上角坐标的X值,在Y值相同的情况下,X值介于X1与X2之间的文本块组装为一行,将所有行按文本块外接矩形左上角坐标的Y值升序排序;3.4)找到存在段落头的行;3.5)依据段落文档排版样式,段落的首字符会缩进两个的原则,将行组装成段落。
[0009]上述双层PDF生成及校对方法,其中,包括:所述步骤3.4)中,遍历所有行,计算每行的开始文本块外接矩形左上角坐标的X值与X1的差,若差值非零则标识该行为段落头,否则标识该行为普通行。
[0010]上述双层PDF生成及校对方法,其中,所述步骤3.5)中,遍历所有行,若当前行为段落头则向后继续遍历,直到下一行为段落头,将所有这些行组装成一个段落,然后再重新开始下一轮循环,直到将所有的行处理完成。
[0011]上述双层PDF生成及校对方法,其中,所述步骤5)中,若系统设置自动纠错程序,系统自动纠正检测到的出错的地方。
[0012]上述双层PDF生成及校对方法,其中,所述步骤5)中,若系统设置人工介入文本纠错,则显示校对页面进行人工纠错;校对页面划分为两部分,一部分为原图片,另一部分为基于识别文本外接矩形坐标和检测错误文本外接矩形坐标所恢复出来的文档,其中含有检测错误文本的区域会被以不同的颜色高亮显示,使用户可立即发现出错文本区域并检查,当用户单击出错文本区域时系统会给出纠错建议,用户双击纠错建议即可更新出错文本区域;用户单击出错文本区域时,原图相应坐标区域也以高亮显示,以方便用户进行原图和识别结果进行区域对比。
[0013]上述双层PDF生成及校对方法,其中,所述步骤6)包括:6.1)将用户修改正确的所有文本段落内容和文本段落外接矩形坐标更新到数据库持久化;6.2)读取当前识别文档最新的所有文本段落内容和文本段落外接矩形坐标,结合系统设定文字大小输出双层PDF文件。
[0014]本专利技术提供的另一技术方案是一种双层PDF生成及校对装置,包括以下模块:OCR识别引擎模块,对图片进行识别并输出识别结果;存储模块,存储识别结果元信息和错误检测结果;段落合成模块,根据OCR识别文档的各文本块内容及其外接矩形坐标将各文本块合并成文本段落,并生成新的文本段落及该段落的外接矩形坐标;错误检测纠正模块,对合成的文本段落应用中文词法分析检测存在词法错误的文本段落,存储相关文本段落信息,并进一步对存在词法错误的文本段落进行纠正;输出模块,根据原图片、识别文本段落内容、识别文本段落外接矩形坐标和字体大小输出双层PDF文件。
[0015]与现有技术相比,本专利技术的有益技术效果是:
[0016]OCR识别过程中,存在少量文字识别错误,传统的校对方式只能是以人工读取原文,一点点检查,在校对之前无法确定文档本身哪里有错,人工查错校对方式效率低下。本专利技术一种双层PDF生成及校对方法和装置的优点在于:对OCR输出的文本进行二次处理,进
行中文词法分析,自动检查识别文本中存在的错误,也支持人工介入检查修正,以可视化对比的形式将原文和识别结果显示出来,文本识别错误一目了然;同时可根据出错检测结果给出相关修改建议,极大的提升了校对效率;最后再根据校对的结果输出双层PDF,使输出的双层PDF文件和该装置校对时的效果达到所见即所得的效果,提高了校对效率和输出精度。
附图说明
[0017]图1是本专利技术实施例的双层PDF生成及校对方法流程图。
具体实施方式
[0018]以下将结合图1对本专利技术的双层PDF生成及校对方法和装置作进一步的详细描述。
[0019]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.双层PDF生成及校对方法,其特征在于,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。2.如权利要求1所述的双层PDF生成及校对方法,其特征在于,包括:1)OCR识别引擎模块识别图片,输出识别结果;2)对识别结果进行过滤获取识别结果元信息;识别结果元信息包括所有文本块的文本块内容、文本块外接矩形坐标、文本块得分;3)识别文本块合成文本段落;根据文本块外接矩形坐标将各文本块合并成文本段落,生成新的文本段落及该段落的外接矩形坐标;4)对文本段落进行错误检测;4.1)错误检测先通过中文分词器切词,从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;4.2)错误检测结果存库持久化,为后续人工介入纠错提供错误位置信息;4.3)读取错误检测结果,遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对候选集中所有疑似错误位置替换结果比较并排序,得到最优纠正词;4.4)错误纠正结果和排序信息存库持久化,为后续人工介入纠错提供纠错建议;5)纠错;包括自动纠错和/或人工介入纠错;6)根据纠错结果生成双层PDF文件。3.如权利要求2所述的双层PDF生成及校对方法,其特征在于,所述步骤2)包括:2.1)获取文档MD5值:根据识别图片文档路径,读取文档内容,根据文档内容计算该文档MD5值;2.2)识别结果是一个json数组,对识别结果进行过滤,获取所有文本块的文本块内容、文本块外接矩形坐标、文本块得分,以步骤2.1获取的文档MD5值作为主键,将识别结果元信息存储入库;以某文本块外接矩形的左上角作为原点(0,0),向右延伸线作为X轴,向下延伸线作为Y轴,建立坐标系,过滤后文本块外接矩形坐标以该矩形左上角和右下角在该坐标系下的坐标表示。4.如权利要求3所述的双层PDF生成及校对方法,其特征在于,所述步骤3)包括:3.1)找到最左侧文本块外接矩形左上角坐标的X值,记为X1;3.2)找到最右侧文本块外接矩形左上角坐标的X值,记为X2;3.3)遍历所有识别结果,取每个文本块外接矩形左上角坐标的X值,在Y值相同的情况下,X值介于X1与X2之间的文本块组装为一行,将所有行按文本块外接矩形左上角坐标的Y...

【专利技术属性】
技术研发人员:王东云李丽芬孙凡丁毅
申请(专利权)人:上海精密计量测试研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1