一种文档格式的转换方法及装置制造方法及图纸

技术编号:4027210 阅读:165 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于文档应用领域,公开了一种文档格式的转换方法及装置,所述方法包括:获取原文档中的文本信息和图形信息;将获取的原文档中的文本信息和图形信息进行文本特效识别,识别所述文本信息与所述图形信息之间的对应关系;将识别出的所述文本信息与所述图形信息之间的对应关系进行存储;根据所述存储的文本信息与所述图形信息之间的对应关系生成用户指定的文档格式。本发明专利技术使得诸如PDF文档等原文档在转换为其他格式的文档时,能够保持原文档内容的还原度,增加文档转换后可编辑性,解决了转换后页面混乱的问题。

【技术实现步骤摘要】

本专利技术属于文档应用领域,具体涉及一种文档格式的转换方法及装置
技术介绍
随着电脑的不断普及,无纸化办公得到越来越多的应用,各种各样的文档也大量 的出现在用户的面前。以可移植文档格式(Portable Document Format,PDF)、office文档为例,在将PDF 格式的文档转换为office格式的文档时,面临较多的困难。在PDF格式的文档中,实际看到的文字特效,譬如例如下划线、删除线、字符底纹 等,都是将图形与文本叠加形成的。因此,在将PDF文件转换为office格式的文档时,如果 仅仅是从PDF文档中提取原始数据内容,有文字特效的文本就会变成分散的文本与图形混 合在一起,如果需要还原文本特效,需要手动删除多余的图形并重新设置文本特效。上述的转换方式不但丢失了原有PDF的文本效果,在转换后,还会造成页面的混 乱,给转换后的文档的编辑带来极大的不便。如何使得诸如PDF文档在转换为其他格式的文档时,能够保持原文档内容的还原 度,增加文档转换后可编辑性,是文档转换
研究的方向之一。
技术实现思路
本专利技术的目的在于提供一种文档格式的转换方法,旨在使得诸如PDF文档在转换 为其他格式的文档时,能够保持原文档内容的还原度,增加文档转换后可编辑性。本专利技术实施例是这样实现的,一种文档格式的转换方法,所述方法包括以下步 骤获取原文档中的文本信息和图形信息;将获取的原文档中的文本信息和图形信息进行文本特效识别,识别所述文本信息 与所述图形信息之间的对应关系;将识别出的所述文本信息与所述图形信息之间的对应关系进行存储;根据所述存储的文本信息与所述图形信息之间的对应关系生成用户指定的文档 格式。本专利技术实施例的另一目的在于提供一种文档格式的转换装置,所述装置包括信息获取模块,用于获取原文档中的文本信息和图形信息;文本特效识别模块,用于将获取的原文档中的文本信息和图形信息进行文本特效 识别,识别所述文本信息与所述图形信息之间的对应关系;存储模块,用于将识别出的所述文本信息与所述图形信息之间的对应关系进行存 储;文档格式转换模块,用于根据所述存储的文本信息与所述图形信息之间的对应关 系生成用户指定的文档格式。 本专利技术实施例通过获取PDF文档中的文本信息以及图形信息,并对PDF文档中 的文本信息和图形信息进行文本特效识别,识别文本信息和图形信息之间的关系并存储, 根据存储的文本信息和图形信息之间的关系将PDF文档转换为其他格式的文档,使得诸如 PDF文档在转换为其他格式的文档时,能够保持原文档内容的还原度,增加文档转换后可编 辑性,解决了转换后页面混乱的问题。附图说明图1为本专利技术实施例图2为本专利技术实施例图3为本专利技术实施例图4为本专利技术实施例图5为本专利技术实施例图6为本专利技术实施例图7为本专利技术实施例图8为本专利技术实施例图9为本专利技术实施例提供的文档格式的转换方法的流程提供的将矩形转换为线段的流程提供的特效图形中下划线的特征示意提供的特效图形中删除线的特征示意提供的特效图形中底纹与高亮的特征示意提供的对带圈字符的识别转换流程提供的对带圈字符之外的其他特效图形的处理流程提供的能与图形组合成为特效文本的文本块集合的流程图提供的文档格式的转换装置的结构图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不 用于限定本专利技术。图1示出了本专利技术实施例提供的文档格式的转换方法的流程。在步骤S101中,获取原文档中的文本信息和图形信息。为了便于说明,本专利技术实施例以PDF文档作为原文档为例进行说明,当然也可以 是将其他的文档格式进行转换,此处不一一列举。在步骤S102中,将获取的原文档中的文本信息和图形信息进行文本特效识别,识 别所述文本信息与所述图形信息之间的对应关系。在具体实施过程中,所述文本信息和所述图形信息包含的位置以及大小关系;所述图形信息包含的图形的属性、特征等基本信息。在步骤S103中,将识别出的所述文本信息与所述图形信息之间的对应关系进行 存储。本专利技术是将识别的结果保存至标识了文本所具有的特殊效果的独立中间数据结 构中。在步骤S104中,根据所述存储的文本信息与所述图形信息之间的对应关系生成 用户指定的文档格式。其中,步骤S101中的图形信息包括有特效图形的特征信息,所述的特效图形为下 划线、删除线、底纹与高亮以及带圈字符等图形。在根据所述存储的文本信息与所述图形信息之间的对应关系生成用户指定的文 档格式时,根据所述特效图形的特征信息查找符合条件的特效图形,删除所述图形信息中的特效图形。其中,由于PDF页面显示的内容均是由页面内容流中的一系列控制字来表示的, 所以步骤S101中在获取原文档中的文本信息和图形信息时,首先读入并接收文档中存储 的文档绘制指令,所述文档绘制指令包括绘制文本指令以及绘制图形指令;然后,根据接收 到的绘制文本指令提取绘制文本指令中对应的文本信息;根据接收到的绘制图形指令提取 所述绘制图形指令中对应的图形信息。作为本专利技术的优选的实施例,步骤S103中在将识别出的所述文本信息与所述图 形信息之间的对应关系进行存储时,还包括;将获取的文本信息保存至文本块集合中,将获取的图形信息保存至图形集合中。 其中,提取出的文本信息与图形信息均保存有位置、外界矩形区域大小等基本信息,所述的 图形信息还保存有组成该图形的边的属性、填充色等图形的基本信息。在具体实施过程中,由于PDF中表示线段的方式有多种,除了通常理解的绘制一 条线段之外,另一种方式就是绘制一个宽度很小的细长矩形。后一种方式在显示时与前一 种方式有同样的效果,为了简化识别的判断逻辑,本专利技术实施例将提取出的细长矩形全部 转换为线段,具体转换步骤请参阅图2 步骤S21、判断获取的图形是否为四边形,若是,进行步骤S22,否则终止;步骤S22、判断获取的图形是否为矩形,若是,进行步骤S23,否则终止;步骤S23、判断是否具有某一边的宽度是否小于PDF在正常显示时能够区分线段 和矩形的临界宽度,若是,则进行步骤S24,否则终止;其中,上述的临界宽度为一经验值,根据大量具体的PDF的属性而定。步骤S24、提取该矩形的区域信息,以该矩形的2条窄边的中点为线段的2个顶点, 转化为相应的线段,并用转化后的线段替换掉原来的矩形。下面详细的说明步骤S102中将获取的原文档中的文本信息和图形信息进行文本 特效识别,识别所述文本信息与所述图形信息之间的对应关系、以及特效图形的过程。在进行文本特效识别时,要明确各种文本特效图形的特征,这需要对各种PDF文 档中文本信息和图形信息进行样例分析,得出图形信息与对应文本信息之间的对应关系或 者特效图形一般特征,本专利技术实施例以A下划线、B删除线、C底纹与高亮以及D带圈字符为 例进行详细的说明。A、以下划线为例,请参阅图3,下划线a就是在文本下方与文字方向平行的线段。根据对大量PDF文本与下划线线段之间的位置关系的分析,下划线线段一般位于 文本对象外接矩形框内部下1/4位置到矩形框外部下方1/3位置,这些分数值也可以根据 具体情况相应进行调整,并不限定于前面列出的值,本专利技术实施例使用的分数均是按外接 矩形框高度为单位1来本文档来自技高网...

【技术保护点】
一种文档格式的转换方法,其特征在于,所述方法包括以下步骤:获取原文档中的文本信息和图形信息;将获取的原文档中的文本信息和图形信息进行文本特效识别,识别所述文本信息与所述图形信息之间的对应关系;将识别出的所述文本信息与所述图形信息之间的对应关系进行存储;根据所述存储的文本信息与所述图形信息之间的对应关系生成用户指定的文档格式。

【技术特征摘要】

【专利技术属性】
技术研发人员:李譞晏检平
申请(专利权)人:深圳市万兴软件有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1