The invention discloses a mixed text line extraction system for printed and handwritten text, which includes text block region pretreatment and text line extraction; first, the document image containing printed or handwritten or mixed text is corrected by a text block region pretreatment process, and the text block is obtained by layout analysis. Secondly, the text block area is clustered by connected components and the label of the text line is assigned, and the pixels of the glued character are clustered and segmented, and the label of the text line is reallocated. Finally, the text line of the document image is extracted by the label of the text line. The invention overcomes the drawbacks of losing stroke information or introducing redundant stroke information caused by inclined adhesion of text lines in handwritten text or mixed text of printed and handwritten text in the prior art, improves the pixel controllability in the process of text line extraction, and thus achieves the goal of extracting text lines quickly and efficiently.
【技术实现步骤摘要】
一种印刷体与手写体混合文本行提取系统
本专利技术涉及文本行提取
,更具体地说,涉及一种印刷体与手写体混合文本行提取系统。
技术介绍
文档数字化加工是图像处理与模式识别研究的重要领域,其任务是将纸质文档通过拍照或扫描的方式转化成数字图像,并进一步对数字文档图像版面分析、版面理解、版面重构,使之成为完全可编辑、可检索的数字文档,在拍照文档、笔记、档案、票据、手稿文书等的数字化方面具有重要的应用前景。将文本块区域分割为独立的文本行是文档图像数字化的一个重要基础步骤,在很大程度上影响着后续的字符识别、文字定位、关键词检索等任务。相对于印刷体文本行分割与提取技术已经相对成熟,手写文本图像由于其自由随意的书写风格、参差不齐的笔画结构,文本行都会呈现出不同程度的倾斜、弯曲、交叉、粘连等问题,以至于手写文本图像的文本行分割提取依然没有理想的解决方案。目前对于手写文本图像的文本行分割或提取方法可以分为自顶向下(Top-down)、自底向上(Bottom-up)、混合型方法(Hybrid)三类。Top-down的分析方法其局限性主要在于文本块的行结构必须要规范、整齐而且还要保证一定的行间距,因此该方法仅适用于印刷体文本行的提取,在无约束的书写条件下倾斜、弯曲、交叉、粘连的文本行提取根本无法胜任。Bottom-up的分析方法对文本行结构的规范性要求不高,一般能够较好的处理倾斜、弯曲、交叉、粘连的文本行,此类方法的效果也受限于聚类所采用的各种启发式规则。Hybrid的分析方法为Top-down与Bottom-up方法的结合,这些方法很明显的缺点就是算法较为复杂,并且最终效果 ...
【技术保护点】
1.一种印刷体与手写体混合文本行提取系统,其特征在于,包括文本块区域预处理以及文本行提取;其中,所述文本块区域预处理的具体步骤为:步骤S11、获取文档图像;步骤S12、对文档图像进行扭斜校正;步骤S13、对文档图像进行版面分析并屏蔽非文本区域;步骤S14、获取文本块区域并进行二值化处理;所述文本行提取的具体步骤为:步骤S21、获取文本块区域;步骤S22、由全卷神经网络模型对文本块区域进行密度估计,提取文本行主体区域;步骤S23、对文本行主体区域进行回归分析,得到文本行回归模型;步骤S24、由文本行回归模型引导字符连通域聚类;步骤S25、检测文本行间粘连字符块;步骤S26、粘连字符像素聚类;步骤S27、对粘连字符块中的像素进行分割,并重新分配文本行标签。
【技术特征摘要】
1.一种印刷体与手写体混合文本行提取系统,其特征在于,包括文本块区域预处理以及文本行提取;其中,所述文本块区域预处理的具体步骤为:步骤S11、获取文档图像;步骤S12、对文档图像进行扭斜校正;步骤S13、对文档图像进行版面分析并屏蔽非文本区域;步骤S14、获取文本块区域并进行二值化处理;所述文本行提取的具体步骤为:步骤S21、获取文本块区域;步骤S22、由全卷神经网络模型对文本块区域进行密度估计,提取文本行主体区域;步骤S23、对文本行主体区域进行回归分析,得到文本行回归模型;步骤S24、由文本行回归模型引导字符连通域聚类;步骤S25、检测文本行间粘连字符块;步骤S26、粘连字符像素聚类;步骤S27、对粘连字符块中的像素进行分割,并重新分配文本行标签。2.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S11的具体过程为:通过对纸质文档资料进行摄像机拍照或扫描仪扫描的方式获取数字的文档图像。3.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S12的具体过程为:运用LSD算法,对文档图像进行线段检测,提取文档图像中的文本行基准线、表格线以及插图边框线,通过单应变换关系,利用文本行基准线、表格线以及插图边框线构建校正复原模型,从而实现文档图像的扭斜校正。4.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S13的具体过程为:先通过人工采用界限框的方式标注出文档图像版面上的目标对象并保存目标对象的类别和坐标作为监督学习数据;然后采用基于区域建议的卷积神经网络FasterR-CNN为基础网络模型,通过监督学习的方式将带有目标类别与坐标标记的文档图像数据作为训练样本对网络参数进行迭代更新,从而得到文档图像目标检测模型;最终利用文档图像目标检测模型对文档图像进行版面分析,得到文档版面中的文本块、插图、表格以及公式所在的区块,屏蔽非文本区域,得到纯文本图像部分。5.如权利要求4所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S14的具体过程为:先根据步骤S13提取出来的纯文本图像得到文本块区域;然后将文本块区域的笔画像素作为前景,其余像素作为背景;最后利用二值化算法移除背景像素,并增强前景字符笔画像素,从而得到二值化的文本块区域。6.如权利要求1所述的一种印刷体与手写体混合文本行提取系统,其特征在于,所述步骤S22的具体过程为:先建立膨胀卷积运算公式,其中,x表示输入像素,i表示像素编号;m表示卷积核的大小,r表示膨胀率,y(i)表示卷积滤波的输出;然后将卷积运算与膨胀卷积运算应用到卷积神经网络中,得到全卷积神经网络模型,其中,所述全卷积神经网络从低层到高层依次设立有第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;然后由全卷神经网络模...
【专利技术属性】
技术研发人员:应自炉,朱健菲,陈鹏飞,陈俊娟,甘俊英,翟懿奎,
申请(专利权)人:五邑大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。