The invention discloses a method for batch generation of WORD by double-layer PDF, which relates to the technical field of data entry. The image is fragmented, and OCR technology is used to cut the image and record the coordinates of the fragments: input on the input platform, compare, check and sample the input results; process the coordinate information of the recorded fragments into a data table to store the data information, so as to facilitate the further operation of the data; input the coordinate information of the input results and the corresponding fragments into the table. Line-to-line matching can get complete data information; restore the position of text and generate WORD files through rules and algorithms; restore the position and layout of text according to the input results and coordinate information, and generate WORD. It can also realize large-scale data processing in batches. It is not only more efficient, but also more precise, and can solve the problem of low efficiency of manual copy, paste and typesetting. This transformation method is particularly practical and easy to operate and learn.
【技术实现步骤摘要】
一种双层PDF批量生成WORD的方法
本专利技术涉及一种双层PDF批量生成WORD的方法,具体为数据录入
技术介绍
在互联网信息时代,大量的传统的客户端应用技术被应用到互联网,如客户关系管理、办公管理系统等,大多数采用了软件即服务的设计模式。目前,电子文档的浏览,如POWERPOINT、WORD、TXT、PDF等格式的文件,现有的通常做法是计算机用户安装文档阅读软件,通过软件打开文件的方式来进行浏览。除此之外,还有一些免费开放的文档分享网站,实现文档的在线阅读,不需要对文档进行下载,直接进行基于浏览器的阅读,非常方便,改变了以往的操作和阅读模式。然而有些文档分享网站大部分采用PDF的方式来进行文档的阅读。然而PDF文件不利于关键信息的提取,所以通常要转化为WORD文档进行操作。双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。现有开发的PDF转换器需要人工操作来完成PDF文件向WORD文档的转换,不能解决现有技术中大量文档进行手工转换效率低下的问题。
技术实现思路
本专利技术的目的在于提供一种可以实现批量化大数据处理,效率较高的双层PDF批量生成WORD的方法,以解决上述
技术介绍
存在的问题。为实现上述目的,本专利技术提供如下技术方案:一种双层PDF批量生成WORD的方法包含以下步骤:1、将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标;步骤2、在录入平台上进行录入,并对录入结果进行比较、校检和抽检;步骤3、把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;步骤4、把录入结果和 ...
【技术保护点】
1.一种双层PDF批量生成WORD的方法,其特征在于:所述的PDF批量生成WORD的方法包含以下步骤:步骤(1)、将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标:步骤(2)、在录入平台上进行录入,并对录入结果进行比较、校检和抽检;步骤(3)、把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;步骤(4)、把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息;通过上述步骤(3)中得到的数据表,让存储录入结果的数据表和其进行精确匹配,得到既有文字又有坐标信息的新的数据表;步骤(5)、通过规律和算法,还原文字的位置,生成WORD文件;根据上述步骤(4)中得到的新的数据表,对文字进行排序以及算法上的处理,使其按照原稿上文字一一排序;再经过坐标上的算法和规律,还原原稿中每列的数据,最后通过碎片图片名还原每张稿子对应着的数据,即可实现快速批量生成WORD文件。
【技术特征摘要】
1.一种双层PDF批量生成WORD的方法,其特征在于:所述的PDF批量生成WORD的方法包含以下步骤:步骤(1)、将图片进行碎片化,利用OCR技术对图片进行切割,并记录碎片坐标:步骤(2)、在录入平台上进行录入,并对录入结果进行比较、校检和抽检;步骤(3)、把记录碎片的坐标信息进行数据处理,转化为存储数据信息的数据表,方便对数据进一步操作;步骤(4)、把录入结果和碎片对应的坐标信息进行一一匹配,得到完整的数据信息;通过上述步骤(3)中得到的数据表,让存储录入结果的数据表和其进行精确匹配,得到既有文字又有坐标信息的新的数据表;步骤(5)、通过规律和算法,还原文字的位置,生成WORD文件;根据上述步骤(4)中得到的新的数据表,对文字进行排序以及算法上的处理,使其按照原稿上文字一一排序;再经过坐标上的算法和规律,还原原稿中每列的数据,最后通过碎片图片名还原每张稿子对应着的数据,即可实现快速批量生成WORD文件。2.根据权利要求1所述的一种双层PDF...
【专利技术属性】
技术研发人员:陈伟,曹勇,殷绪成,王旭,
申请(专利权)人:江苏奥博洋信息技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。