一种涂抹字符的检测方法及系统技术方案

技术编号:16547373 阅读:84 留言:0更新日期:2017-11-11 12:02
本发明专利技术公开了一种涂抹字符的检测方法及系统,该方法包括:获取待检测文档图像;获取所述文档图像的二值图;获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;提取联通体成分单元特征;基于所述联通体成分单元特征检测涂抹字符。本发明专利技术可以针对各种联通体进行检测,此外,对多个联通体组成的组合联通体成分单元与独立联通体成分单元进行区别检测,能提高检测效率。

Detection method and system for smearing characters

The invention discloses a method and a system for detecting smear character, the method includes: acquiring the detected document image; obtaining two value image of the document image; obtaining the document image two value image of China Unicom body composition unit, the body composition unit includes: a Unicom Unicom independent body composition unit and / Unicom or a combination of body composition unit; extraction unit Unicom body composition characteristics; the body composition unit Unicom feature detection based on character painting. According to the invention can detect various bodies, in addition to a plurality of Unicom, Unicom Unicom combination of body composition of body composition and body composition unit independent unit Unicom distinction detection can improve the detection efficiency.

【技术实现步骤摘要】
一种涂抹字符的检测方法及系统
本专利技术涉及图像处理、电子教育等领域,具体涉及一种涂抹字符的检测方法及系统。
技术介绍
随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。手写文档的电子化成为热潮,提高字符识别的准确率也随之变为必然趋势。而涂抹作为字符识别的关键影响因素之一,其检测的准确性直接影响字符识别的准确率,因此该项技术的研究近年来也逐渐被相关领域研究人员重视。字符涂抹在手写文档中也属常见现象,通常因个人喜好而展现出不同的形式,涂抹根据涂抹单位可以分为文本行涂抹、单词涂抹和字母涂抹,分别参考图1,图2至图7,以及图8至图11所示,根据涂抹形式可以分为线条涂抹和严实涂抹;线条涂抹根据单词的长短可以分长单词涂抹和短单词涂抹,根据涂抹线条的数目可以分为单线条涂抹和多线条涂抹。如图1所示为文本行涂抹,如图2所示为长单词单线条涂抹,如图3所示为短单词单线条涂抹,如图4所示为长单词多线条涂抹,如图5所示为短单词多线条涂抹,如图6所示为长单词严实涂抹,如图7所示为短单词严实涂抹,如图8所示为孤立字母线条涂抹,如图9所示为单词字母线条涂抹,如图10所示为单词字母严实涂抹,如图11所示为孤立字母严实涂抹。现有技术提供了一种通过联通体的穿透笔画进行涂抹字符检测的方法,如图12所示,包括步骤:1.文档图像获取,2.文档图像预处理,3.联通体分析,4.构建联通体的表示图,5.联通体的穿透笔画文本检测。通过以上步骤获取每个联通体从左到右的最短路径,若得到的路径满足直线穿透单词,且最短路径位于联通体高度的中间位置,则认为该联通体被涂抹。现有技术通过构建联通体构建表示图,检测表示图中最短的穿透路径来判断联通体是否涂抹,且对穿透笔画有一定的约束。然而不同人的书写习惯展现形式不同,在现实数据中存在多种多样的涂抹类型,通过检测穿透笔画判断涂抹字符可以检测出贯穿联通体的线条涂抹,而对于字母涂抹、严实涂抹等涂抹类型,却无法进行有效检测。
技术实现思路
本专利技术实施例提供一种涂抹字符的检测方法及系统,以解决现有技术仅能针对贯穿联通体的线条涂抹类型进行检测,而无法对其它涂抹类型进行检测的问题。为此,本专利技术实施例提供如下技术方案:一种涂抹字符的检测方法,包括:获取待检测文档图像;获取所述文档图像的二值图;获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;提取联通体成分单元特征;基于所述联通体成分单元特征检测涂抹字符。优选地,所述获取所述文档图像的二值图的联通体成分单元包括:对二值图进行行切分,得到每行二值图;根据每行二值图中相邻联通体之间距离对每行二值图进行切分,获取联通体成分单元。优选地,所述方法还包括:对二值图进行行切分之前,获取文档图像中单词平均高度;根据所述文档图像中单词平均高度获取超高联通体;对所述超高联通体进行粘连分割;所述对二值图进行行切分,得到每行二值图包括:对粘连分割后的二值图进行行切分,得到每行二值图。优选地,独立联通体成分单元特征包括以下任意一种或多种:线条特征、交叉点特征、孔洞特征和密度特征。优选地,提取所述线条特征包括:对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;从细化独立联通体成分单元的边界上选取起始点;利用方向一致性获取各起始点的最长路径;滤除小于长度阈值的最长路径,得到备选线条;根据预先设定的线条角度对备选线条进行过滤;将剩余的备选线条的数目作为线条特征。优选地,提取所述交叉点特征包括:对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;获取细化独立联通体成分单元中交叉点的数目,所述交叉点为邻域内联通点个数≥3的点;将所述细化独立联通体成分单元中交叉点的数目作为交叉点特征。优选地,提取所述孔洞特征包括:提取所述独立联通体成分单元的轮廓;对所述独立联通体成分单元的轮廓外部进行填充,获取所述独立联通体成分单元的填充图;将所述填充图减去所述独立联通体成分单元的二值图,获取孔洞图;将孔洞图中孔洞的数目作为孔洞特征。优选地,提取所述密度特征包括:获取所述独立联通体成分单元的前景上下边界或前景左右边界;计算所述独立联通体成分单元的前景上下边界或前景左右边界内部所有前景面积,与所述独立联通体成分单元的前景上下边界或前景左右边界内部包含的面积的比值;将所述比值作为密度特征。优选地,基于独立联通体成分单元特征检测涂抹字符包括:对提取的各独立联通体成分单元特征分别设定判断阈值,如果各独立联通体成分单元特征中至少一种≥判断阈值,则确定当前独立联通体成分单元包含涂抹字符;或者对提取的各独立联通体成分单元特征分别设定初判阈值,如果各独立联通体成分单元特征中至少一种≥初判阈值,则确定当前独立联通体成分单元包含涂抹字符;如果各独立联通体成分单元特征全部<初判阈值,则识别当前独立联通体成分单元的字符,并根据设定的精细阈值判断当前独立联通体成分单元的各字符是否为涂抹字符;或者根据预先构建的判断模型检测当前独立联通体成分单元是否包含涂抹字符。优选地,基于组合联通体成分单元特征检测涂抹字符包括:利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。一种涂抹字符的检测系统,包括:文档图像获取模块,用于获取待检测文档图像;二值图获取模块,用于获取所述文档图像的二值图;联通体获取模块,用于获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;特征提取模块,用于提取联通体成分单元特征;涂抹字符检测模块,用于基于所述联通体成分单元特征检测涂抹字符。优选地,所述联通体获取模块包括:行切分单元,用于对二值图进行行切分,得到每行二值图;联通体获取单元,用于根据每行二值图中相邻联通体之间距离对每行二值图进行切分,获取联通体成分单元。优选地,所述联通体获取模块还包括:高度获取单元,用于在行切分单元对二值图进行行切分之前获取文档图像中单词平均高度;超高体获取单元,用于根据所述文档图像中单词平均高度获取超高联通体;粘连分割单元,用于对所述超高联通体进行粘连分割;所述行切分单元具体用于对粘连分割后的二值图进行行切分,得到每行二值图。优选地,所述特征提取模块包括组合联通体特征提取单元以及以下任意一个或多个单元:线条特征提取单元、交叉点特征提取单元、孔洞特征提取单元和密度特征提取单元。优选地,所述线条特征提取单元包括:第一细化子单元,用于对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;起始点选取单元,用于从细化独立联通体成分单元的边界上选取起始点;路径获取单元,用于利用方向一致性获取各起始点的最长路径;长度滤除单元,用于滤除小于长度阈值的最长路径,得到备选线条;角度滤除单元,用于根据预先设定的线条角度对备选线条进行过滤;线条特征获取单元,用于将剩余的备选线条的数目作为线条特征。优选地,所述交叉点特征提取单元包括:第二细化子单元,用于对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;点数获取子单元,用于获取细化独立联通体成分单元中交叉点的数目,所述交叉点为邻域内联通点个数≥3的点;交叉点特征获取子单元,用于将所述细化独立联通体成分单元中交叉点的数目本文档来自技高网
...
一种涂抹字符的检测方法及系统

【技术保护点】
一种涂抹字符的检测方法,其特征在于,包括:获取待检测文档图像;获取所述文档图像的二值图;获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;提取联通体成分单元特征;基于所述联通体成分单元特征检测涂抹字符。

【技术特征摘要】
1.一种涂抹字符的检测方法,其特征在于,包括:获取待检测文档图像;获取所述文档图像的二值图;获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;提取联通体成分单元特征;基于所述联通体成分单元特征检测涂抹字符。2.根据权利要求1所述的方法,其特征在于,所述获取所述文档图像的二值图的联通体成分单元包括:对二值图进行行切分,得到每行二值图;根据每行二值图中相邻联通体之间距离对每行二值图进行切分,获取联通体成分单元。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对二值图进行行切分之前,获取文档图像中单词平均高度;根据所述文档图像中单词平均高度获取超高联通体;对所述超高联通体进行粘连分割;所述对二值图进行行切分,得到每行二值图包括:对粘连分割后的二值图进行行切分,得到每行二值图。4.根据权利要求1所述的方法,其特征在于,独立联通体成分单元特征包括以下任意一种或多种:线条特征、交叉点特征、孔洞特征和密度特征。5.根据权利要求4所述的方法,其特征在于,提取所述线条特征包括:对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;从细化独立联通体成分单元的边界上选取起始点;利用方向一致性获取各起始点的最长路径;滤除小于长度阈值的最长路径,得到备选线条;根据预先设定的线条角度对备选线条进行过滤;将剩余的备选线条的数目作为线条特征。6.根据权利要求4所述的方法,其特征在于,提取所述交叉点特征包括:对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;获取细化独立联通体成分单元中交叉点的数目,所述交叉点为邻域内联通点个数≥3的点;将所述细化独立联通体成分单元中交叉点的数目作为交叉点特征。7.根据权利要求4所述的方法,其特征在于,提取所述孔洞特征包括:提取所述独立联通体成分单元的轮廓;对所述独立联通体成分单元的轮廓外部进行填充,获取所述独立联通体成分单元的填充图;将所述填充图减去所述独立联通体成分单元的二值图,获取孔洞图;将孔洞图中孔洞的数目作为孔洞特征。8.根据权利要求4所述的方法,其特征在于,提取所述密度特征包括:获取所述独立联通体成分单元的前景上下边界或前景左右边界;计算所述独立联通体成分单元的前景上下边界或前景左右边界内部所有前景面积,与所述独立联通体成分单元的前景上下边界或前景左右边界内部包含的面积的比值;将所述比值作为密度特征。9.根据权利要求1至8任一项所述的方法,其特征在于,基于独立联通体成分单元特征检测涂抹字符包括:对提取的各独立联通体成分单元特征分别设定判断阈值,如果各独立联通体成分单元特征中至少一种≥判断阈值,则确定当前独立联通体成分单元包含涂抹字符;或者对提取的各独立联通体成分单元特征分别设定初判阈值,如果各独立联通体成分单元特征中至少一种≥初判阈值,则确定当前独立联通体成分单元包含涂抹字符;如果各独立联通体成分单元特征全部<初判阈值,则识别当前独立联通体成分单元的字符,并根据设定的精细阈值判断当前独立联通体成分单元的各字符是否为涂抹字符;或者根据预先构建的判断模型检测当前独立联通体成分单元是否包含涂抹字符。10.根据权利要求1至8任一项所述的方法,其特征在于,基于组合联通体成分单元特征检测涂抹字符包括:利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。11.一种涂抹字符的检测系统,其特征在于,包括:文档图像获取模块,用于获取待检测文档图像;二值图获取模块,用于获取所述文档图像的二值图;联通体获取模块,用于获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;特征提取模块,用于提取联通体成分单元特征;涂抹字符检测模块,用于基于所述联通体成分单元特征检测涂...

【专利技术属性】
技术研发人员:吴爱红戴文娟竺博魏思胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1