一种双层PDF批量生成WORD的方法技术

技术编号:21343634 阅读:26 留言:0更新日期:2019-06-13 22:31
本发明专利技术公开了一种双层PDF批量生成WORD的方法,涉及数据录入技术领域。将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标:在录入平台上进行录入,并对录入结果进行比较、校检和抽检;把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息;通过规律和算法,还原文字的位置,生成WORD文件;根据录入结果和坐标信息,还原文字的位置和排版,生成WORD,又可以实现批量化大数据处理,不仅效率较高,位置也比较精确,还解决手工复制粘贴和排版效率低下的难题。此种转化方法特别实用,而且极易操作和学习。

A Method of Batch Generation of WORD with Double-Layer PDF

The invention discloses a method for batch generation of WORD by double-layer PDF, which relates to the technical field of data entry. The image is fragmented, and OCR technology is used to cut the image and record the coordinates of the fragments: input on the input platform, compare, check and sample the input results; process the coordinate information of the recorded fragments into a data table to store the data information, so as to facilitate the further operation of the data; input the coordinate information of the input results and the corresponding fragments into the table. Line-to-line matching can get complete data information; restore the position of text and generate WORD files through rules and algorithms; restore the position and layout of text according to the input results and coordinate information, and generate WORD. It can also realize large-scale data processing in batches. It is not only more efficient, but also more precise, and can solve the problem of low efficiency of manual copy, paste and typesetting. This transformation method is particularly practical and easy to operate and learn.

【技术实现步骤摘要】
一种双层PDF批量生成WORD的方法
本专利技术涉及一种双层PDF批量生成WORD的方法,具体为数据录入

技术介绍
在互联网信息时代,大量的传统的客户端应用技术被应用到互联网,如客户关系管理、办公管理系统等,大多数采用了软件即服务的设计模式。目前,电子文档的浏览,如POWERPOINT、WORD、TXT、PDF等格式的文件,现有的通常做法是计算机用户安装文档阅读软件,通过软件打开文件的方式来进行浏览。除此之外,还有一些免费开放的文档分享网站,实现文档的在线阅读,不需要对文档进行下载,直接进行基于浏览器的阅读,非常方便,改变了以往的操作和阅读模式。然而有些文档分享网站大部分采用PDF的方式来进行文档的阅读。然而PDF文件不利于关键信息的提取,所以通常要转化为WORD文档进行操作。双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。现有开发的PDF转换器需要人工操作来完成PDF文件向WORD文档的转换,不能解决现有技术中大量文档进行手工转换效率低下的问题。
技术实现思路
本专利技术的目的在于提供一种可以实现批量化大数据处理,效率较高的双层PDF批量生成WORD的方法,以解决上述
技术介绍
存在的问题。为实现上述目的,本专利技术提供如下技术方案:一种双层PDF批量生成WORD的方法包含以下步骤:1、将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标;步骤2、在录入平台上进行录入,并对录入结果进行比较、校检和抽检;步骤3、把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;步骤4、把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息;通过上述步骤3中得到的数据表,让存储录入结果的数据表和其进行精确匹配,得到既有文字又有坐标信息的新的数据表;步骤5、通过规律和算法,还原文字的位置,生成WORD文件;根据上述步骤4中得到的新的数据表,对文字进行排序以及算法上的处理,使其按照原稿上文字一一排序;再经过坐标上的算法和规律,还原原稿中每列的数据,最后通过碎片图片名还原每张稿子对应着的数据,即可实现快速批量生成WORD文件。作为优选,所述的步骤1中OCR技术的具体方法为:首先定位文字区域,进而识别文字的行数和列数,确定每个文字所在的矩形块;然后在人工干预下,调整矩形块的大小以及位置,得到更精准的文字矩形块,最后切割成一个个碎片图。作为优选,所述的步骤3中数据表的生成过程为:通过代码读取到记录坐标信息的TXT文件,把读取的信息复制粘贴到Excel中,经过一系列的分列以及替换等过程,得到主要信息的数据表。作为优选,所述的步骤5中对文字进行排序的步骤为:步骤5-1、通过对碎片名和横纵坐标的排序,得到所有单个文字的排列顺序。步骤5-2、再通过碎片名进行加以区分,把一列数据转换成一行行完整的数据。步骤5-3、再最后利用代码进行控制,最终可批量生成多个WORD文件,即一张大原图对应一个WORD文件。与现有技术相比,本专利技术的有益效果是:1、根据录入结果和坐标信息,还原文字的位置和排版,生成WORD,又可以实现批量化大数据处理,不仅效率较高,位置也比较精确,还解决手工复制粘贴和排版效率低下的难题。2、准确还原文字,快速而又可实现批量对大数据进行处理,效率高,精度高。3、此种转化方法特别实用,切割准确,还原文字位置也相当的精准,而且极易操作和学习。4、系统性能稳定,易于维护,适用性特别高,应用很广泛。5、方法普遍化,走向群众,更容易学习和接受。附图说明图1为本专利技术实施例中含有古籍图片的PDF文本结构示意图;图2为本专利技术实施例中含有古籍图片的PDF文本转换为WORD文档的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例:参照图1和2所示,将含有古籍字符图片的PDF转换为WORD文档,具体的步骤为:1:将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标:由于古籍字符间距较窄,文字内容生僻,市面上流行的OCR软件对古籍的识别度普遍较低。因此采用用OCR定位文字区域,进而识别文字的行数和列数,确定每个文字所在的矩形块;然后在人工干预下,调整矩形块的大小以及位置,得到更精准的文字矩形块,最后切割成一个个碎片图。(2)在录入平台上进行录入,并对录入结果进行比较、校检和抽检;(3)把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据的进一步操作:先调用读取TXT文件的代码,获取到TXT文件,然后打开TXT文件,全选复制粘贴到Excel中,最后对数据进行筛选和处理,截取有用的数据作为数据表;(4)把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息:把步骤(3)中得到的数据表作为数据库,通过库查找方法和录入结果一一匹配;(5)通过规律和算法,还原文字的位置,生成WORD文件。根据切割得到碎片的坐标信息,将网上作业人员录入的文字存入相应的位置,因古籍文字间距相对较窄,生僻字也相对较多,OCR不能做到100%识别,根据排序和算法上的处理,还原原有稿子文字排版,快速的生成WORD文件。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种双层PDF批量生成WORD的方法,其特征在于:所述的PDF批量生成WORD的方法包含以下步骤:步骤(1)、将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标:步骤(2)、在录入平台上进行录入,并对录入结果进行比较、校检和抽检;步骤(3)、把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;步骤(4)、把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息;通过上述步骤(3)中得到的数据表,让存储录入结果的数据表和其进行精确匹配,得到既有文字又有坐标信息的新的数据表;步骤(5)、通过规律和算法,还原文字的位置,生成WORD文件;根据上述步骤(4)中得到的新的数据表,对文字进行排序以及算法上的处理,使其按照原稿上文字一一排序;再经过坐标上的算法和规律,还原原稿中每列的数据,最后通过碎片图片名还原每张稿子对应着的数据,即可实现快速批量生成WORD文件。

【技术特征摘要】
1.一种双层PDF批量生成WORD的方法,其特征在于:所述的PDF批量生成WORD的方法包含以下步骤:步骤(1)、将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标:步骤(2)、在录入平台上进行录入,并对录入结果进行比较、校检和抽检;步骤(3)、把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;步骤(4)、把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息;通过上述步骤(3)中得到的数据表,让存储录入结果的数据表和其进行精确匹配,得到既有文字又有坐标信息的新的数据表;步骤(5)、通过规律和算法,还原文字的位置,生成WORD文件;根据上述步骤(4)中得到的新的数据表,对文字进行排序以及算法上的处理,使其按照原稿上文字一一排序;再经过坐标上的算法和规律,还原原稿中每列的数据,最后通过碎片图片名还原每张稿子对应着的数据,即可实现快速批量生成WORD文件。2.根据权利要求1所述的一种双层PDF...

【专利技术属性】
技术研发人员:陈伟曹勇殷绪成王旭
申请(专利权)人:江苏奥博洋信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1