去除从双层电子文件中复制的文本中的空格的方法与系统技术方案

技术编号:5221373 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种去除从双层电子文件中复制的文本中的空格的方法与系统,以解决现有技术中从双层电子文件中复制的文本中存在多余空格的问题。该方法包括:从双层电子文件中复制相邻的两个字符,然后判断所述两个字符是否为空格符;在所述相邻的两个字符都不是空格符的情况下,检查复制得到的所述两个字符之间是否存在空格,若存在空格,则对所述双层电子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉伸。使用本发明专利技术的技术方案,能够避免了多余空格的产生,使复制出的文本不包含多余空格,这样不致于影响用户对复制出的文本的使用。

【技术实现步骤摘要】

本专利技术涉及一种去除从双层电子文件中复制的文本中的空格的方法与系统
技术介绍
可移植文档格式(Portable Document Format,PDF)的双层电子文件例如书籍、文 件,是有图像层与文字层的PDF文件,图像层上显示原书例如纸书的版面,上面每一个字实 际上是一个字形图像;文字层在图像层下面,并不显示出来,文字层中包含文件的电子版文 本,通常是使用光学字符识别(Optical Character Recognition, OCR)的方式获得。文字 层的文本与图像层的字形图像按字对位,通常字符的左侧为对位基准侧。由于Acrobat或者Adobe reader在处理文本复制功能时,字符之间的间隔并不是 按照一行中是否真实存在空格符来生成复制的数据,而是根据字符的坐标确定字符间距, 按照该间距判断字符间是否“需要”空格;即如果两个字在同一行,并且按照Acorbat的判 断准则,这两个字之间的水平位置距离较远,这个时候选中本行文本,复制到剪贴板,查看 剪贴板的文本,则在水平位置较远的相邻两个字符之间多出了原文没有的空格。这个空格 就是由Acrobat或者Adobe reader根据文字位置插入的多余空格。在插入了多余空格的情况下,字符组成的文本会失去原有的文字意义。图1是根 据现有技术的从双层电子文件中复制的文本中存在多余空格以及该文本的原始状态的示 意图。如图1所示,文本区域11的文本中包含若干单词,在插入了多余空格的情况下成为 文本区域12所示的一个个离散的字母,这样会给使用者带来很多不便,例如影响阅读;又 如无法利用计算机检索其中的单词。现有技术中,从双层电子文件中复制的文本中存在多余空格,对于该问题,目前尚 未提出有效解决方案。
技术实现思路
本专利技术的主要目的是提供一种去除从双层电子文件中复制的文本中的空格的方 法与系统,用以解决现有技术中从双层电子文件中复制的文本中存在多余空格的问题。为解决上述问题,根据本专利技术的一个方面,提供了一种去除从双层电子文件中复 制的文本中的空格的方法。本专利技术的去除从双层电子文件中复制的文本中的空格的方法包括从双层电子文 件中复制相邻的两个字符,然后判断所述两个字符是否为空格符;在所述相邻的两个字符 都不是空格符的情况下,检查复制得到的所述两个字符之间是否存在空格,若存在空格,则 对所述双层电子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉伸。进一步地,从双层电子文件中复制相邻的两个字符之前还包括从所述双层电子 文件的当前页中复制文本块;在所述文本块中的非空格符的字符一侧或两侧出现空格的情 况下,在输出的所述文本块中标示出该空格。进一步地,从双层电子文件中复制相邻的两个字符包括根据所述双层电子文件的内核数据确定针对相邻两个字符的选择区域;从所述确定的选择区域中复制字符。进一步地,对所述两个字符中的至少一个字符向另一字符的方向拉伸之后还包 括判断所述两个字符之间是否存在空格,若存在则在输出的这两个字符之间标示出该空 格。进一步地,在输出的这两个字符之间标示出该空格之后,所述方法还包括对拉伸 后的字符再次进行已执行的拉伸的操作。进一步地,所述双层电子文件的图像层与文字层的对位基准侧是字符第一侧;对 所述双层电子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉伸包括 将所述双层电子文件文字层的所述两个字符中的第一侧字符向第二侧拉伸。进一步地,在所述相邻的两个字符中的至少一个为空格符的情况下,重复执行从 双层电子文件中复制相邻的两个字符及其后的步骤,并且对当前版面中的同一位置的两个 字符不重复进行复制。进一步地,所述双层电子文件为可移植文档格式(Portable Document Format)的 文件。为解决上述问题,根据本专利技术的另一方面,提供了一种去除从双层电子文件中复 制的文本中的空格的系统。本专利技术的去除从双层电子文件中复制的文本中的空格的系统包括复制模块,用 于从双层电子文件中复制相邻的两个字符;判断模块,用于判断所述两个字符是否为空格 符;检查模块,用于在所述相邻的两个字符都不是空格符的情况下,检查复制得到的所述两 个字符之间是否存在空格;拉伸模块,用于若所述两个字符之间存在空格,则对所述双层电 子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉伸。进一步地,所述复制模块还用于从所述双层电子文件的当前页中复制文本块;并 且所述系统还包括输出模块,用于输出所述文本块以及在所述文本块中的非空格符的字符 一侧或两侧出现空格的情况下,在输出的所述文本块中标示出该空格。进一步地,所述复制模块还用于根据所述双层电子文件的内核数据确定针对相 邻两个字符的选择区域;从所述确定的选择区域中复制字符。进一步地,所述判断模块还用于在所述拉伸模块完成拉伸操作后,判断所述两个 字符之间是否存在空格;所述输出模块还用于在所述拉伸模块完成拉伸操作后,若所述两 个字符之间仍存在空格则输出这两个字符并且在输出的这两个字符之间标示出该空格。进一步地,所述拉伸模块还用于将所述双层电子文件文字层的所述两个字符中 的第一侧字符向第二侧拉伸;其中,所述双层电子文件的图像层与文字层的对位基准侧是 字符第一侧。根据本专利技术的技术方案,检查复制出的字符中是否存在多余空格,若存在则对字 符拉伸,使Acrobat认为拉伸后的字符与相邻字符间的距离无需在复制字符之后插入空 格,从而避免了多余空格的产生,使复制出的文本不包含多余空格,这样不致于影响用户对 复制出的文本的使用。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1是根据现有技术的从双层电子文件中复制的文本中存在多余空格以及该文 本的原始状态的示意图;图2是根据本专利技术实施例的去除从双层电子文件中复制的文本中的空格的方法 的主要步骤的示意图;图3是根据本专利技术实施例的检测到多余空格的文本的示意图;图4是根据本专利技术实施例的去除多余空格的操作之后的文本的示意图;图5是根据本专利技术实施例的去除多余空格之后复制得到的文本的示意图;以及图6是根据本专利技术实施例的去除从双层电子文件中复制的文本中的空格的系统 的主要模块示意图。具体实施例方式下面将参考附图并结合实施例,来详细说明本专利技术。图2是根据本专利技术实施例的去除从双层电子文件中复制的文本中的空格的方法 的主要步骤的示意图。如图2所示,该方法主要包括如下的步骤S21至步骤S24。步骤S21 从双层电子文件中复制相邻的两个字符。一个字符可以是拼音文字的 一个字母,也可以是一个汉字或其他语言的一个单字,也可以是其他字符,包括各种标点 符号、技术符号等。在本步骤中,具体可以是先根据双层电子文件的内核数据例如PDF的 Touch Up文本,确定针对相邻两个字符的选择区域,再从确定的选择区域中复制字符。步骤S22 判断复制的两个字符是否为空格符。如果其中至少一个为空格符,则返 回步骤S21,这时在执行步骤S21时不重复地复制出另两个字符,即对当前版面中的同一位 置的两个字符不重复进行复制;如果这两个字符都不是空格符,则进入步骤S23。步骤S23 检查复制得到的两个字符之间是否存在空格。在本步本文档来自技高网
...

【技术保护点】
一种去除从双层电子文件中复制的文本中的空格的方法,其特征在于,包括:  从双层电子文件中复制相邻的两个字符,然后判断所述两个字符是否为空格符;  在所述相邻的两个字符都不是空格符的情况下,检查复制得到的所述两个字符之间是否存在空格,若存在空格,则对所述双层电子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉伸。

【技术特征摘要】
一种去除从双层电子文件中复制的文本中的空格的方法,其特征在于,包括从双层电子文件中复制相邻的两个字符,然后判断所述两个字符是否为空格符;在所述相邻的两个字符都不是空格符的情况下,检查复制得到的所述两个字符之间是否存在空格,若存在空格,则对所述双层电子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉伸。2.根据权利要求1所述的方法,其特征在于,从双层电子文件中复制相邻的两个字符 之前还包括从所述双层电子文件的当前页中复制文本块;在所述文本块中的非空格符的字符一侧或两侧出现空格的情况下,在输出的所述文本 块中标示出该空格。3.根据权利要求1所述的方法,其特征在于,从双层电子文件中复制相邻的两个字符 包括根据所述双层电子文件的内核数据确定针对相邻两个字符的选择区域;从所述确定的选择区域中复制字符。4.根据权利要求1所述的方法,其特征在于,对所述两个字符中的至少一个字符向另 一字符的方向拉伸之后还包括判断所述两个字符之间是否存在空格,若存在则在输出的这两个字符之间标示出该空格。5.根据权利要求4所述的方法,其特征在于,在输出的这两个字符之间标示出该空格 之后,所述方法还包括对拉伸后的字符再次进行已执行的拉伸的操作。6.根据权利要求1所述的方法,其特征在于,所述双层电子文件的图像层与文字层的对位基准侧是字符第一侧;对所述双层电子文件文字层的所述两个字符中的至少一个字符向另一字符的方向拉 伸包括将所述双层电子文件文字层的所述两个字符中的第一侧字符向第二侧拉伸。7.根据权利要求1所述的方法,其特征在于,在所述相邻的两个字符中的至少一个为 空格符的情况下,重复执行从双层电子文件中复制相邻的两个字符及其后...

【专利技术属性】
技术研发人员:周长岭赵海涛兰荣春
申请(专利权)人:方正国际软件有限公司
类型:发明
国别省市:32[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1