The invention discloses a method and a system for detecting smear character, the method includes: acquiring the detected document image; obtaining two value image of the document image; obtaining the document image two value image of China Unicom body composition unit, the body composition unit includes: a Unicom Unicom independent body composition unit and / Unicom or a combination of body composition unit; extraction unit Unicom body composition characteristics; the body composition unit Unicom feature detection based on character painting. According to the invention can detect various bodies, in addition to a plurality of Unicom, Unicom Unicom combination of body composition of body composition and body composition unit independent unit Unicom distinction detection can improve the detection efficiency.
【技术实现步骤摘要】
一种涂抹字符的检测方法及系统
本专利技术涉及图像处理、电子教育等领域,具体涉及一种涂抹字符的检测方法及系统。
技术介绍
随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。手写文档的电子化成为热潮,提高字符识别的准确率也随之变为必然趋势。而涂抹作为字符识别的关键影响因素之一,其检测的准确性直接影响字符识别的准确率,因此该项技术的研究近年来也逐渐被相关领域研究人员重视。字符涂抹在手写文档中也属常见现象,通常因个人喜好而展现出不同的形式,涂抹根据涂抹单位可以分为文本行涂抹、单词涂抹和字母涂抹,分别参考图1,图2至图7,以及图8至图11所示,根据涂抹形式可以分为线条涂抹和严实涂抹;线条涂抹根据单词的长短可以分长单词涂抹和短单词涂抹,根据涂抹线条的数目可以分为单线条涂抹和多线条涂抹。如图1所示为文本行涂抹,如图2所示为长单词单线条涂抹,如图3所示为短单词单线条涂抹,如图4所示为长单词多线条涂抹,如图5所示为短单词多线条涂抹,如图6所示为长单词严实涂抹,如图7所示为短单词严实涂抹,如图8所示为孤立字母线条涂抹,如图9所示为单词字母线条涂抹,如图10所示为单词字母严实涂抹,如图11所示为孤立字母严实涂抹。现有技术提供了一种通过联通体的穿透笔画进行涂抹字符检测的方法,如图12所示,包括步骤:1.文档图像获取,2.文档图像预处理,3.联通体分析,4.构建联通体的表示图,5.联通体的穿透笔画文本检测。通过以上步骤获取每个联通体从左到右的最短路径,若得到的路径满足直线穿透单词,且最短路径位于联通体高度的中间位置,则认为该联通体被涂抹。现有技术通过构建联通体 ...
【技术保护点】
一种涂抹字符的检测方法,其特征在于,包括:获取待检测文档图像;获取所述文档图像的二值图;获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;提取联通体成分单元特征;基于所述联通体成分单元特征检测涂抹字符。
【技术特征摘要】
1.一种涂抹字符的检测方法,其特征在于,包括:获取待检测文档图像;获取所述文档图像的二值图;获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;提取联通体成分单元特征;基于所述联通体成分单元特征检测涂抹字符。2.根据权利要求1所述的方法,其特征在于,所述获取所述文档图像的二值图的联通体成分单元包括:对二值图进行行切分,得到每行二值图;根据每行二值图中相邻联通体之间距离对每行二值图进行切分,获取联通体成分单元。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对二值图进行行切分之前,获取文档图像中单词平均高度;根据所述文档图像中单词平均高度获取超高联通体;对所述超高联通体进行粘连分割;所述对二值图进行行切分,得到每行二值图包括:对粘连分割后的二值图进行行切分,得到每行二值图。4.根据权利要求1所述的方法,其特征在于,独立联通体成分单元特征包括以下任意一种或多种:线条特征、交叉点特征、孔洞特征和密度特征。5.根据权利要求4所述的方法,其特征在于,提取所述线条特征包括:对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;从细化独立联通体成分单元的边界上选取起始点;利用方向一致性获取各起始点的最长路径;滤除小于长度阈值的最长路径,得到备选线条;根据预先设定的线条角度对备选线条进行过滤;将剩余的备选线条的数目作为线条特征。6.根据权利要求4所述的方法,其特征在于,提取所述交叉点特征包括:对所述独立联通体成分单元进行细化,获取细化独立联通体成分单元;获取细化独立联通体成分单元中交叉点的数目,所述交叉点为邻域内联通点个数≥3的点;将所述细化独立联通体成分单元中交叉点的数目作为交叉点特征。7.根据权利要求4所述的方法,其特征在于,提取所述孔洞特征包括:提取所述独立联通体成分单元的轮廓;对所述独立联通体成分单元的轮廓外部进行填充,获取所述独立联通体成分单元的填充图;将所述填充图减去所述独立联通体成分单元的二值图,获取孔洞图;将孔洞图中孔洞的数目作为孔洞特征。8.根据权利要求4所述的方法,其特征在于,提取所述密度特征包括:获取所述独立联通体成分单元的前景上下边界或前景左右边界;计算所述独立联通体成分单元的前景上下边界或前景左右边界内部所有前景面积,与所述独立联通体成分单元的前景上下边界或前景左右边界内部包含的面积的比值;将所述比值作为密度特征。9.根据权利要求1至8任一项所述的方法,其特征在于,基于独立联通体成分单元特征检测涂抹字符包括:对提取的各独立联通体成分单元特征分别设定判断阈值,如果各独立联通体成分单元特征中至少一种≥判断阈值,则确定当前独立联通体成分单元包含涂抹字符;或者对提取的各独立联通体成分单元特征分别设定初判阈值,如果各独立联通体成分单元特征中至少一种≥初判阈值,则确定当前独立联通体成分单元包含涂抹字符;如果各独立联通体成分单元特征全部<初判阈值,则识别当前独立联通体成分单元的字符,并根据设定的精细阈值判断当前独立联通体成分单元的各字符是否为涂抹字符;或者根据预先构建的判断模型检测当前独立联通体成分单元是否包含涂抹字符。10.根据权利要求1至8任一项所述的方法,其特征在于,基于组合联通体成分单元特征检测涂抹字符包括:利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。11.一种涂抹字符的检测系统,其特征在于,包括:文档图像获取模块,用于获取待检测文档图像;二值图获取模块,用于获取所述文档图像的二值图;联通体获取模块,用于获取所述文档图像的二值图的联通体成分单元,所述联通体成分单元包括:独立联通体成分单元和/或组合联通体成分单元;特征提取模块,用于提取联通体成分单元特征;涂抹字符检测模块,用于基于所述联通体成分单元特征检测涂...
【专利技术属性】
技术研发人员:吴爱红,戴文娟,竺博,魏思,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。