【技术实现步骤摘要】
文档转换方法及装置、计算机可读存储介质、计算机设备
[0001]本申请涉及文档转换
,尤其涉及一种文档转换方法及装置、计算机可读存储介质、计算机设备。
技术介绍
[0002]目前的文档各种各样,有不可编辑的文档也有可编辑的文档。例如,PDF和Word文档分别是我们常用的不可编辑的文档和可编辑的文档。由于不可编辑文档的不可编辑特性,在使用文档过程中往往需要将不可编辑的文档转换为可编辑的文档。例如,PDF文档大部分是不可编辑的,也有一部分软件也可以实现PDF文档的编辑功能,但往往不如Word文档方便。因此,用户想使用一些PDF文档中的内容进重新编辑得到新的文档内容时,通常需要将PDF文档转换Word文档。
[0003]目前也出现将PDF文档转换为Word文档的方法,然而,由于PDF文档不存在Word文档中以行、节、栏进行的流式布局,目前的转换方法一般仅是根据PDF文档每页的各元素的位置在Word文档中排版,有时候会出现元素重叠或者排错行,也就是说采用目前的转换方法往往出现转换出来的Word文档元素的位置和PDF文档 ...
【技术保护点】
【技术特征摘要】
1.一种文档转换方法,文档转换方法用于将不可编辑的第一文档转换为可编辑的第二文档,其特征在于,所述文档转换方法包括:逐页解析第一文档获得所述第一文档每页内容的所有元素,每一元素具有位置和内容;将每页内容的所有元素对应映射于每一预设页面,使所述每一预设页面包含第一文档中对应页的所有元素;根据在所述每一预设页面中各元素的位置和内容构建出若干文本块和/或若干形状块;按照预设的布局规则确定出每个文本块和/或每个形状块在每一预设页面中的分节和分栏,得到每页内容的所有元素在对应的预设页面中的布局;以及根据布局好所有元素的每个预设页面生成第二文档,所述第二文档每页的元素布局与对应的预设页面的元素布局相同。2.如权利要求1所述的文档转换方法,其特征在于,按照预设的布局规则确定出每个文本块和/或每个形状块在每一预设页面中的分节和分栏,得到每页内容的所有元素在对应的预设页面中的布局具体为:先确定分节后确定分栏。3.如权利要求2所述的文档转换方法,其特征在于,所述文本块包括一行或者多行,每行的分栏为单栏或者双栏;按照预设的布局规则确定出每个文本块和/或每个形状块在每一预设页面中的分栏包括:逐行计算出每一行的各个文本块之间的间隙;根据各个文本块之间的间隙确定出所述每一行的分栏数量,其中,当两个文本块之间的间隙大于第一预设值时,确定所述两个文本块位于两个不同分栏;当两个文本块之间的间隙小于或者等于第一预设值时,确定所述两个文本块位于同一分栏;若一行的分栏数量大于二时,将所述行设置为单栏。4.如权利要求3所述的文档转换方法,其特征在于,按照预设的布局规则确定出每个文本块和/或每个形状块在每一预设页面中的分栏还包括:若一行的分栏数量等于二,且所述行存在一栏的分栏宽度小于第二预设值时,将所述行设置为单栏;所述分栏宽度为同一栏的所有文本块的宽度;或者若一行的分栏数量等于二时,检测所述行的前一个分节的分栏数量、所述前一个分节的分栏分割线、所述行所在的分节的分栏分割线;若所述行的前一个分节的分栏数量也等于二,且所述前一分节的分栏分割线与所述行所在的分节的分栏分割线不重合时,将所述行设置为单栏。5.如权利要求4所述的文档转换方法,其特征在于,按照预设的布局规则确定出每个文本块和/或每个形状块在每一预设页面中的分栏还包括:若一行的分栏数量等于一且所述行的前一个分节的分栏数量为二时,判断所述行的文本块是否完全位于所述行的前一个分节的左分栏,其中,在一个分节中从左到右排列,左边的分栏为左分栏,右边的分栏为右分栏;当所述行的文本块完全位于所述行的前一个分节的左分栏时,将所述行设置为双栏;或者若一行的分栏数量等于一且所述行的前一个分节的分栏数量为二时,检测所述行的前
一个分节的高度;判断所述行的前一个分节的高度是否小于第三预设值;当所述行的前一个分节的高度小于第三预设值时,将所...
【专利技术属性】
技术研发人员:李乐乐,刘海林,
申请(专利权)人:深圳市网旭科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。