一种无损的从图片生成类富文本的方法与系统技术方案

技术编号:37972673 阅读:9 留言:0更新日期:2023-06-30 09:48
本发明专利技术提供一种无损的从图片生成类富文本的方法与系统。解决如何无损的从图片生成类富文本的问题。系统包含广义字的提取、排版信息的获取模块;生成类富文本模块;基于类富文本的一切应用或功能模块。所采取的技术方案为:行级别的检测与分离、排版信息的获取,可选地,对行的弯曲进行矫正,广义字级别(亚行级别)的检测与分离,生成类富文本模块,创建基于富文本的一切应用或功能。上述方法和系统使用户阅读和使用图片时,不会受制于屏幕大小和OCR等方式的转换疏漏。OCR等方式的转换疏漏。OCR等方式的转换疏漏。

【技术实现步骤摘要】
一种无损的从图片生成类富文本的方法与系统


[0001]本专利技术涉及一种方法,更具体地说涉及一种无损的从图片生成类富文本的方法与系统。

技术介绍

[0002]拍摄包含文字、公式等的版面图片时,经常遇到字小、变形等问题。用户直接阅读不仅费劲还伤害眼睛,尤其是在最常用的手机上。为了护眼,放大是必要的选择。此时,传统放大已经不能满足需求,它迫使用户不停左右滑动以阅读每个内容行,这将导致用户阅读效率和舒适度下降,不能一目了然,增加认知负担。针对上述情况,当下最优解似乎是深耕多年且被高度优化的OCR(Optical Character Recognition,光学文字识别)。只是OCR虽然效果相对理想,但是其成本较高;更重要的是,它有一个很难超越的瓶颈,即无论精度多高,OCR总是会有疏漏,生成错误的输出,尤其是对于手写、公式、或比较另类的变化等。无损转换的需求,似乎是OCR始终无法达到的终点。而从用户角度看,哪怕是一个微小的错误,尤其是小概率但却可能随时出现的易被忽视的错误,都可能对其产生很大的各种迷惑,浪费时间辨别真伪,甚至造成决策错误和损失。
[0003]因此,开发一种无损的从图片生成类富文本的系统,是必要而且新颖的。

技术实现思路

[0004]基于上述现状,本专利技术提供一种无损的从图片生成类富文本的方法与系统。系统可以自动处理用户的包含但不限于拍摄、截屏、图库选择、扫描、下载图片等内容,转换且允许用户交互式编辑,达到重新排版,内容无损转换,自由缩放等一切基于类富文本的应用的效果。
[0005]为解决上述技术问题,本专利技术采用的技术方案为:一种无损的从图片生成类富文本的方法与系统。
[0006]第一方面:本专利技术提供一种无损的从图片生成类富文本系统,所述系统包括:广义字的提取、排版信息的获取模块;生成类富文本模块;基于类富文本的一切应用或功能模块。
[0007]所述广义字的提取、排版信息的获取模块包含:输入数据为本系统所接受的输入图片数据;输出为所提取的广义字、所获取的排版信息。一个广义字为一个应作为完整整体展示,不应被进一步切割的内容;根据所需的不同应用,可以有选择地包含但不限于一个字、一个或部分个单词、一个或部分个公式、一个字母等。此处所述排版信息,包括但不限于某广义字在排版上的前驱与后继广义字、某广义字集合是否为排版学的段、段的前驱后继等信息。本模块可以使用任意的算法,下方将叙述一种多步骤的以行为中间数据的算法,但仍存在其他算法。输入数据不限字体,例如为印刷体,也可为手写体等;输入内容不限于拍摄,还包括截屏、图库选图、扫描、下载等。
[0008]所述生成类富文本模块,其中,类富文本,即带有排版信息的广义字的集合。为方
便叙述,命名为类富文本,读者可用常见的富文本、DOC、ODF等格式进行类比,但类富文本的具体实现与其可以完全无关。本步骤输入为上述步骤输出的分离后的广义字、以及上述步骤输出的行的排版信息。本步骤只需将所述数据合并且转换格式,即为本步骤输出。
[0009]所述基于类富文本的一切应用或功能模块,指的是一切基于传统富文本、或DOC、或ODF、或带有排版信息的字的集合的应用或功能,均可以用于上述步骤生成的类富文本。
[0010]第二方面:本专利技术提供一种无损的从图片生成类富文本方法,所述方法包括:
[0011]步骤1、行级别的检测、排版信息的获取。输入数据为本系统所接受的输入图片数据。本步骤使用版面分析(layout analysis)算法,检测、分离、并输出每一个行,以及行所对应的排版信息(例如一行是否为段尾行、哪些行是同一段)。本步骤可以使用版面分析的任意具体实现算法。输入数据不限字体,包含但不限于印刷体,也可为手写体等;输入内容不限于拍摄,还包括截屏、图库选图、扫描、下载等。
[0012]所述任意的算法的一种实现方式是,构造代价函数,其输入为一种可能的将图片切割为行的切割方式,其输出为一个代价值。通过最优化算法,寻找一种将图片切割为行的切割方式,使得得到最优的代价值。所述代价函数满足动态规划所需性质,可以利用动态规划高效求解。
[0013]步骤2、可选地,对行的弯曲进行矫正。本步骤输入数据为上述步骤输出的可能弯曲的行,本步骤输出数据为变为平直的行。本步骤可以使用任意具体实现算法,例如称为偏斜矫正(skew correction)的一类算法。所述任意具体实现算法的一种实现方式是,首先训练一个神经网络,其输入为可能弯曲的行、输出为表征所述输入行弯曲性质的曲线,其中一种为所述输入行的字体排印学基线。执行本步骤时,将本步骤的输入作为所述神经网络的输入,得到神经网络的输出;然后利用所述神经网络输出所表征的所述输入行弯曲性质变形所述输入行,使得所述输入行变得平直,即得到所述本步骤输出数据。
[0014]步骤3、广义字级别(亚行级别)的检测。本步骤的输入数据为上述步骤输出的每一个行。对于每一个行,本步骤检测行中的广义字,并将其分离。本步骤可以使用任意的检测与分离算法,例如基于机器学习的算法、基于专家知识的算法等。本步骤的输出为所述分离的广义字。
[0015]所述任意的检测与分离算法的一种实现方式是,对于每一个行,首先使用提议器提出可能的切分点横坐标,然后使用判别器判断每个可能的切分点将被保留或丢弃,最终将所述行通过被保留的切分点切分成多个块,每个块即为一个广义字。
[0016]其中,所述提议器的一种轻量级实现方式是,对于每一个行的每一个横坐标,若拥有与所述横坐标差值小于第一阈值的横坐标的像素点超过第二阈值百分比为背景像素,则该横坐标被作为一个提议。
[0017]其中,所述判别器的一种轻量级实现方式是机器学习。具体地,训练一个神经网络,其输入为图片像素数据,其输出为对输入的分类(例如分类为汉字、其它等)。对于输入的每一个提议切分点横坐标,将所述切分点横坐标左右邻域的像素分别输入神经网络,获得神经网络的输出,根据所述输出用一定的策略决定保留或丢弃该切分点,所述策略包含但不限于若左右邻域之一为汉字则保留切分点等。
[0018]步骤4、生成类富文本模块,即输入为上述步骤输出的分离后的广义字、以及上述步骤输出的行的排版信息。本步骤只需将所述数据合并且转换格式,即为本步骤输出。
[0019]步骤5、创建基于类富文本的一切应用或功能。
[0020]所述一切应用或功能的一个应用的例子为,自由重新排版,从而得到任意需要的字体大小、行间距、行宽等排版参数。普通排版算法(例如对可带有图和文字的文档的排版算法、或对普通富文本或DOC或ODF或类似格式的排版算法、或对普通文本的排版算法等),均可用于上述的类富文本,只需简单地将广义字视为普通字或普通图即可。例如,最简单的常见排版算法为,按序考虑每一个广义字,若将所述广义字排版于所述广义字的上一个广义字的右侧不会导致溢出排版空间,且所述上一个广义字不是某段的最后一个广义字,则将所述广义字排版于所述广义字的上一个广义字的右侧,否则将所述广义字排版于下方左侧。所述一切应用或功能的又一个应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无损的从图片生成类富文本系统,其特征在于,所述系统包括下述模块:广义字的提取、排版信息的获取模块;生成类富文本模块;基于类富文本的一切应用或功能模块;其中,一个广义字为一个应作为完整整体展示,不应被进一步切割的内容;类富文本为带有排版信息的广义字的集合。2.一种无损的从图片生成类富文本方法,其特征在于,所述方法包括下述步骤:步骤1、行级别的检测、排版信息的获取;步骤2、可选地,对行的弯曲进行矫正;步骤3、广义字级别(亚行级别)的检测;步骤4、生成类富文本;步骤5、使用基于类富文本的一切应用或功能。3.根据权利要求2所述的一种无损的从图片生成类富文本方法,其特征在于:所述步骤1中,可以使用任意算法中的一种实现方式是,构造代价函数,其输入为一种可能的将图片切割为行的切割方式,其输出为一个代价值;通过最优化算法,寻找一种将图片切割为行的切割方式,使得得到最优的代价值;所述代价函数满足动态规划所需性质,可以利用动态规划高效求解。4.根据权利要求2所述的一种无损的从图片生成类富文本方法,其特征在于:所述步骤2中,可以使用任意具体实现算法中的一种实现方式是,首先训练一个神经网络,其输入为可能弯曲的行、输出为表征所述输入行弯曲性质的曲线,其中一种为所述输入行的字体排印学基线;执行本步骤时,将本步骤的输入作为所述神经网络的输入,得到神经网络的输出;然后利用所述神经网络输出所表征的所述输入行弯曲性质变形所述输入行,使得所述输入行变得平直,即得到所述本步骤输出数据。5.根据权利要求2所述的一种无损的从图片生成类富文本方法,其特征在于:所述步骤3中,可以使用任意检测与分离算法中的一种实现方式是,对于每一个行,首先使用提议器提出可能的切分点横坐标,然后使用判别器判...

【专利技术属性】
技术研发人员:陈靖一
申请(专利权)人:加等于一科技福州高新区有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1