当前位置: 首页 > 专利查询>五邑大学专利>正文

一种印刷体与手写体混合文本行提取系统技术方案

技术编号:18941726 阅读:31 留言:0更新日期:2018-09-15 11:19
本发明专利技术公开了一种印刷体与手写体混合文本行提取系统,包括文本块区域预处理以及文本行提取;本发明专利技术先通过文本块区域预处理过程,对包含有印刷体或手写体或混合文本的文档图像进行扭斜校正,通过版面分析获取文本块区域;然后对文本块区域进行连通域聚类并分配所属文本行标签,并对粘连字符像素进行聚类分割并重新分配所属文本行标签;最后通过文本行标签实现文档图像文本行的提取。本发明专利技术克服了现有技术中的手写文本或印刷体与手写体混合文本中的文本行因倾斜粘连而造成的提取笔画信息丢失或冗余笔画信息引入的缺陷,提高了文本行提取过程中的像素可控性,从而达到快速高效地提取文本行的目的。

A printed and handwritten text line extraction system

The invention discloses a mixed text line extraction system for printed and handwritten text, which includes text block region pretreatment and text line extraction; first, the document image containing printed or handwritten or mixed text is corrected by a text block region pretreatment process, and the text block is obtained by layout analysis. Secondly, the text block area is clustered by connected components and the label of the text line is assigned, and the pixels of the glued character are clustered and segmented, and the label of the text line is reallocated. Finally, the text line of the document image is extracted by the label of the text line. The invention overcomes the drawbacks of losing stroke information or introducing redundant stroke information caused by inclined adhesion of text lines in handwritten text or mixed text of printed and handwritten text in the prior art, improves the pixel controllability in the process of text line extraction, and thus achieves the goal of extracting text lines quickly and efficiently.

【技术实现步骤摘要】
一种印刷体与手写体混合文本行提取系统
本专利技术涉及文本行提取
,更具体地说,涉及一种印刷体与手写体混合文本行提取系统。
技术介绍
文档数字化加工是图像处理与模式识别研究的重要领域,其任务是将纸质文档通过拍照或扫描的方式转化成数字图像,并进一步对数字文档图像版面分析、版面理解、版面重构,使之成为完全可编辑、可检索的数字文档,在拍照文档、笔记、档案、票据、手稿文书等的数字化方面具有重要的应用前景。将文本块区域分割为独立的文本行是文档图像数字化的一个重要基础步骤,在很大程度上影响着后续的字符识别、文字定位、关键词检索等任务。相对于印刷体文本行分割与提取技术已经相对成熟,手写文本图像由于其自由随意的书写风格、参差不齐的笔画结构,文本行都会呈现出不同程度的倾斜、弯曲、交叉、粘连等问题,以至于手写文本图像的文本行分割提取依然没有理想的解决方案。目前对于手写文本图像的文本行分割或提取方法可以分为自顶向下(Top-down)、自底向上(Bottom-up)、混合型方法(Hybrid)三类。Top-down的分析方法其局限性主要在于文本块的行结构必须要规范、整齐而且还要保证一定的行间距,因此该方法仅适用于印刷体文本行的提取,在无约束的书写条件下倾斜、弯曲、交叉、粘连的文本行提取根本无法胜任。Bottom-up的分析方法对文本行结构的规范性要求不高,一般能够较好的处理倾斜、弯曲、交叉、粘连的文本行,此类方法的效果也受限于聚类所采用的各种启发式规则。Hybrid的分析方法为Top-down与Bottom-up方法的结合,这些方法很明显的缺点就是算法较为复杂,并且最终效果也受限于算法融合的策略。另外这些方法对于倾斜、弯曲、交叉、粘连较严重的文本行提取问题,由于相邻文本行的干扰使得文本行的提取容易引入冗余笔画信息或造成笔画信息丢失,而这会严重影响到后续的字符识别及其他步骤。
技术实现思路
有鉴于此,本专利技术提供了一种印刷体与手写体混合文本行提取系统,克服了现有技术中的手写文本或印刷体与手写体混合文本中的文本行因倾斜粘连而造成的提取笔画信息丢失或冗余笔画信息引入的缺陷,提高了文本行提取过程中的像素可控性,从而达到快速高效地提取文档图像文本行的目的。一种印刷体与手写体混合文本行提取系统,包括文本块区域预处理以及文本行提取;其中,所述文本块区域预处理的具体步骤为:步骤S11、获取文档图像;步骤S12、对文档图像进行扭斜校正;步骤S13、对文档图像进行版面分析并屏蔽非文本区域;步骤S14、获取经版面分析后的文本块区域并进行二值化处理;所述文本行提取的具体步骤为:步骤S21、获取经二值化处理后的文本块区域;步骤S22、由全卷神经网络模型对文本块区域进行密度估计,提取文本行主体区域;步骤S23、对文本行主体区域进行回归分析,得到文本行回归模型;步骤S24、由文本行回归模型引导字符连通域聚类;步骤S25、检测文本行间粘连字符块;步骤S26、粘连字符像素聚类;步骤S27、对粘连字符块中的像素进行分割,并重新分配文本行标签。作为本专利技术的优选方案,该步骤S11的具体过程为:通过对纸质文档资料进行摄像机拍照或扫描仪扫描的方式获取数字的文档图像。作为本专利技术的优选方案,该步骤S12的具体过程为:运用LSD算法,对文档图像版面进行线段检测,提取文档图像中的文本行基准线、表格线以及插图边框线,通过单应变换关系,利用文本行基准线、表格线以及插图边框线构建校正复原模型,从而实现文档图像的扭斜校正。作为本专利技术的优选方案,该步骤S13的具体过程为:先通过人工采用界限框的方式标注出文档图像版面上的目标对象并保存目标对象的类别、坐标作为监督学习数据;然后采用基于区域建议的卷积神经网络FasterR-CNN为基础网络模型,通过监督学习的方式将带有目标类别与坐标标记的文档图像数据作为训练样本对网络参数进行迭代更新,从而得到文档图像目标检测模型;最终利用文档图像目标检测模型对文档图像进行版面分析,得到文档版面中的文本块、插图、表格、公式所在的区块,进而屏蔽非文本区域,得到纯文本图像部分。作为本专利技术的优选方案,该步骤S14的具体过程为:先根据步骤S13提取出来的纯文本图像得到文本块区域;然后将文本块区域的笔画像素作为前景,其余像素作为背景;最后利用二值化算法移除背景像素,并增强前景字符笔画像素,从而得到二值化的文本块区域。作为本专利技术的优选方案,该步骤S22的具体过程为:先建立膨胀卷积运算公式,其中,x表示输入像素,i表示像素编号;m表示卷积核的大小,r表示膨胀率,y(i)表示卷积滤波的输出,本专利技术使用膨胀卷积的目的是减少运算量,使用较小的卷积核即可实现较大的感受野,同时还可以取代池化层;将卷积运算与膨胀卷积运算应用到卷积神经网络中,得到全卷积神经网络模型,其中,所述全卷积神经网络从低层到高层依次设立有第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;然后由全卷神经网络模型对经二值化处理后的文本块区域进行密度估计;最后根据全卷神经网络模型对经二值化处理后的文本块区域的密度估计结果,提取文本行主体区域。作为本专利技术的优选方案,该步骤S23的具体过程为:先对文本行主体区域进行骨架信息提取并结合形态学处理得到初始的文本行回归线;然后对初始的文本行回归线进行行分析:假设现在有文本行回归线片段si,该片段的端点坐标分别为pi(xi1,yi1)、qi(xi2,yi2),与其相邻的文本行片段为sj,与之相对应的端点坐标分别为pj(xj1,yj1)、qj(xj2,yj2),建立条件式:其中,k(i)表示回归线片段两端点所构成线段的斜率,w为文本图像宽度,hline为文本行平均高度;若满足条件式,则认为文本行回归线片段si与sj同属一行,需要将文本行回归线片段si和sj整合为同一行;初始的文本行回归线片段经行分析合并后得到最终的文本行回归线,从而得到最终的文本行回归模型。作为本专利技术的优选方案,该步骤S24的具体过程为:利用连通域分组标注的策略,由文本行回归模型引导字符连通域聚类;其中,根据能量函数优化的方式实现连通域分组标注,建立高阶能量函数E(f):f表示将连通域赋以相应文本行标签的函数,E(f)表示所有连通域的所属文本行标签赋值代价函数;ψi(xi)为一阶数据项,表示连通域i所属文本行标签取值为xi的代价,ψi(xi)=exp(-α·mind(xi,L)),min{d(xi,L)}为此连通域到文本行回归线的最小欧氏距离,其中L={l1,l2,...,lt},t为文本行的总数,α为平衡权重的参数;ψi,j(xi,xj)为二阶平滑项,用来表示相邻的连通域的坐标关系,即两两相邻的连通域i、j分别取文本行标签xi、xj的代价,ψi,j(xi,xj)=exp(-β·d(xi,xj)),d(xi,xj)为相邻连通域质心之间的欧氏距离,β为平衡权重的系数;ψc(xc)为高阶标签项,表示定义在连通域集合上的能量项,即文本行的密度,其中,{m1,m2,,...,mt}为距离各个文本行回归线最近的连通域的数量统计,mc为当前文本行的连通域数量,s为文本块字符连通域的总数量,γ为平衡权重的系数;最后,根据高阶能量函数E(f),通过能量函数优化的方式得到所有连通域的所属本文档来自技高网
...

【技术保护点】
1.一种印刷体与手写体混合文本行提取系统,其特征在于,包括文本块区域预处理以及文本行提取;其中,所述文本块区域预处理的具体步骤为:步骤S11、获取文档图像;步骤S12、对文档图像进行扭斜校正;步骤S13、对文档图像进行版面分析并屏蔽非文本区域;步骤S14、获取文本块区域并进行二值化处理;所述文本行提取的具体步骤为:步骤S21、获取文本块区域;步骤S22、由全卷神经网络模型对文本块区域进行密度估计,提取文本行主体区域;步骤S23、对文本行主体区域进行回归分析,得到文本行回归模型;步骤S24、由文本行回归模型引导字符连通域聚类;步骤S25、检测文本行间粘连字符块;步骤S26、粘连字符像素聚类;步骤S27、对粘连字符块中的像素进行分割,并重新分配文本行标签。

【技术特征摘要】
1.一种印刷体与手写体混合文本行提取系统,其特征在于,包括文本块区域预处理以及文本行提取;其中,所述文本块区域预处理的具体步骤为:步骤S11、获取文档图像;步骤S12、对文档图像进行扭斜校正;步骤S13、对文档图像进行版面分析并屏蔽非文本区域;步骤S14、获取文本块区域并进行二值化处理;所述文本行提取的具体步骤为:步骤S21、获取文本块区域;步骤S22、由全卷神经网络模型对文本块区域进行密度估计,提取文本行主体区域;步骤S23、对文本行主体区域进行回归分析,得到文本行回归模型;步骤S24、由文本行回归模型引导字符连通域聚类;步骤S25、检测文本行间粘连字符块;步骤S26、粘连字符像素聚类;步骤S27、对粘连字符块中的像素进行分割,并重新分配文本行标签。2.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S11的具体过程为:通过对纸质文档资料进行摄像机拍照或扫描仪扫描的方式获取数字的文档图像。3.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S12的具体过程为:运用LSD算法,对文档图像进行线段检测,提取文档图像中的文本行基准线、表格线以及插图边框线,通过单应变换关系,利用文本行基准线、表格线以及插图边框线构建校正复原模型,从而实现文档图像的扭斜校正。4.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S13的具体过程为:先通过人工采用界限框的方式标注出文档图像版面上的目标对象并保存目标对象的类别和坐标作为监督学习数据;然后采用基于区域建议的卷积神经网络FasterR-CNN为基础网络模型,通过监督学习的方式将带有目标类别与坐标标记的文档图像数据作为训练样本对网络参数进行迭代更新,从而得到文档图像目标检测模型;最终利用文档图像目标检测模型对文档图像进行版面分析,得到文档版面中的文本块、插图、表格以及公式所在的区块,屏蔽非文本区域,得到纯文本图像部分。5.如权利要求4所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S14的具体过程为:先根据步骤S13提取出来的纯文本图像得到文本块区域;然后将文本块区域的笔画像素作为前景,其余像素作为背景;最后利用二值化算法移除背景像素,并增强前景字符笔画像素,从而得到二值化的文本块区域。6.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S22的具体过程为:先建立膨胀卷积运算公式,其中,x表示输入像素,i表示像素编号;m表示卷积核的大小,r表示膨胀率,y(i)表示卷积滤波的输出;然后将卷积运算与膨胀卷积运算应用到卷积神经网络中,得到全卷积神经网络模型,其中,所述全卷积神经网络从低层到高层依次设立有第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;然后由全卷神经网络模...

【专利技术属性】
技术研发人员:应自炉朱健菲陈鹏飞陈俊娟甘俊英翟懿奎
申请(专利权)人:五邑大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1