一种双层PDF生成及校对方法和装置制造方法及图纸

技术编号：33527472 阅读：24 留言：0更新日期：2022-05-19 01:52

本发明专利技术提供了一种双层PDF生成及校对方法和装置，针对OCR引擎识别结果进行二次处理，将识别结果整理成逻辑完整的段落，再以段落为单位，针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错，最后根据纠错结果进一步生成双层PDF文档。装置主要包括OCR识别引擎、存储模块、段落合成模块、错误检测纠正模块和输出模块。输出模块。输出模块。

全部详细技术资料下载

【技术实现步骤摘要】
一种双层PDF生成及校对方法和装置

[0001]本专利技术涉及计算机信息处理
，尤其涉及双层PDF生成制作以及校对相关技术。

技术介绍

[0002]双层PDF(Portable Document Format，便携文件格式)文件是一种具有多层结构的PDF格式文件，其文件内容既包含文本层，也包含图像层，且文本层与图像层的位置上下一一相对应。它是在扫描版PDF的基础上，经过去污、纠偏和OCR(光学字符识别，即用软件把扫描图像识别成文字)，然后把OCR出来的文字做成透明文字层，蒙到原始扫描图像层上，所以称为“双层PDF”。与纯扫描版PDF相比，这种PDF可以进行文字检索、复制、导出，因此又被称为“可检索扫描PDF”。这样可以基于文字建立索引数据库，进行科学管理。
[0003]然而OCR识别结果存在一定的错误率，OCR效果都不太好，经常出现的情况是扫描版PDF上有某个词，但搜索的时候却没有；或者从双层PDF复制、粘贴出来的内容错字较多。这都是OCR识别结果不精确导致的。

技术实现思路

[0004]本专利技术的目的在于提供一种双层PDF生成及校对方法和装置，提高双层PDF文本准确率。
[0005]为了达到上述的目的，本专利技术提供一种双层PDF生成及校对方法，针对OCR引擎识别结果进行二次处理，将识别结果整理成逻辑完整的段落，再以段落为单位，针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错，最后根据纠错结果进一步生成双层PDF文档。
[0006]上述双层PDF生成及校对方法...

【技术保护点】

【技术特征摘要】
1.双层PDF生成及校对方法，其特征在于，针对OCR引擎识别结果进行二次处理，将识别结果整理成逻辑完整的段落，再以段落为单位，针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错，最后根据纠错结果进一步生成双层PDF文档。2.如权利要求1所述的双层PDF生成及校对方法，其特征在于，包括：1)OCR识别引擎模块识别图片，输出识别结果；2)对识别结果进行过滤获取识别结果元信息；识别结果元信息包括所有文本块的文本块内容、文本块外接矩形坐标、文本块得分；3)识别文本块合成文本段落；根据文本块外接矩形坐标将各文本块合并成文本段落，生成新的文本段落及该段落的外接矩形坐标；4)对文本段落进行错误检测；4.1)错误检测先通过中文分词器切词，从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，形成疑似错误位置候选集；4.2)错误检测结果存库持久化，为后续人工介入纠错提供错误位置信息；4.3)读取错误检测结果，遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，然后通过语言模型计算句子困惑度，对候选集中所有疑似错误位置替换结果比较并排序，得到最优纠正词；4.4)错误纠正结果和排序信息存库持久化，为后续人工介入纠错提供纠错建议；5)纠错；包括自动纠错和/或人工介入纠错；6)根据纠错结果生成双层PDF文件。3.如权利要求2所述的双层PDF生成及校对方法，其特征在于，所述步骤2)包括：2.1)获取文档MD5值：根据识别图片文档路径，读取文档内容，根据文档内容计算该文档MD5值；2.2)识别结果是一个json数组，对识别结果进行过滤，获取所有文本块的文本块内容、文本块外接矩形坐标、文本块得分，以步骤2.1获取的文档MD5值作为主键，将识别结果元信息存储入库；以某文本块外接矩形的左上角作为原点(0，0)，向右延伸线作为X轴，向下延伸线作为Y轴，建立坐标系，过滤后文本块外接矩形坐标以该矩形左上角和右下角在该坐标系下的坐标表示。4.如权利要求3所述的双层PDF生成及校对方法，其特征在于，所述步骤3)包括：3.1)找到最左侧文本块外接矩形左上角坐标的X值，记为X1；3.2)找到最右侧文本块外接矩形左上角坐标的X值，记为X2；3.3)遍历所有识别结果，取每个文本块外接矩形左上角坐标的X值，在Y值相同的情况下，X值介于X1与X2之间的文本块组装为一行，将所有行按文本块外接矩形左上角坐标的Y...

【专利技术属性】
技术研发人员：王东云，李丽芬，孙凡，丁毅，
申请(专利权)人：上海精密计量测试研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人