当前位置: 首页 > 专利查询>吴昌议专利>正文

一种基于图像列对齐特征预测所有目标区域的方法技术

技术编号:20329505 阅读:25 留言:0更新日期:2019-02-13 05:58
本发明专利技术公开了一种基于图像列对齐特征预测所有目标区域的方法。其特征在于,通过色谱仪检测报告打印件图像所包含的目标数据列对齐特征,建立包含所有目标区域的坐标系,基于坐标系预测所有目标区域。即,先从色谱仪检测报告的图像提取所有可识别的字符区域子图像,再依据子图像列对齐特征,将所有能列对齐的子图像归类到同一个坐标系,再从所有坐标系中挑选目标坐标系,最后基于目标坐标系确定所有目标区域。该方法基于图像提供的高可识别信息,完整预测所有目标区域,有效解决了某些目标区域由于图片质量不高而漏识别或识别不完整的问题、并且有效解决了神经网络概率性漏识别目标区域或识别不完整的问题。

【技术实现步骤摘要】
一种基于图像列对齐特征预测所有目标区域的方法
本专利技术属于图像文字识别技术的文本区域识别领域,尤其涉及包含列表结构图像的文本区域识别算法,该算法为自创算法。
技术介绍
色谱仪广泛应用与食品、药品、化工品等领域的成分检验,检验结果通常打印为纸件,打印件样例参见附图1。该打印件多个数据均为目标数据,目标数据样例参见附图2。该打印件从图像识别领域看具备3个特征导致难以准确、完整识别所有目标数据所在区域:特征1、版面复杂,包含图、表、文字等结构,且各结构在图像的位置、大小不固定,导致应用深度学习方法做识别时,训练难度大,识别效果不理想;特征2、字符间隔小、单个字符面积小,相邻字符图像区域容易粘结,导致误识别;特征3、由于打印机缺墨、溅墨等原因,以及纸张本身可能包含噪点,导致某些字符难以识别,从而导致某些目标区域漏识别。目前常见的开源图像文本区域识别算法,比如开源的深度学习神经网络CTPN、开源的图像文字识别软件tesseract,均属于通用图片文字识别算法,在识别色谱仪检验结果打印件时,存在较大的目标区域漏识别概率。通过开源软件CTPN识别目标数据效果参见附图3,其中蓝色边框包围区域为确认目标区域,绿色框包围区域为可能误判的目标区域,可以看出较多目标区域没有识别出来。
技术实现思路
本专利技术结合色谱仪检验结果打印件的图像特征,提出一种创新算法,确保准确、完整识别所有目标区域。本专利技术的目的通过以下技术方案来实现:一种基于图像列对齐特征,自动建立坐标系,预测所有目标区域的算法,包括如下步骤:(1)图像倾斜矫正,将图像所有文字旋转到水平位置,以便后续文字区域切分时,不会由于区域粘结而无法分离。(2)基于倾斜矫正的图片,做二值化,然后基于二值化图像,得到所有可能包含目标文字的区域,也称为得到感兴趣区域。(3)根据感兴趣区域列对齐特征,建立所有可能的坐标系。(4)依据目标区域图像特征,挑选目标坐标系。(5)从目标坐标系提取所有目标区域。本专利技术具有的有益效果是:(1)针对色谱仪检验结果打印件的图像特征设定算法,相比基于深度学习的图像区域识别算法而言,无需大量样本做训练。(2)基于多行数据建立坐标系之后,只要能识别出某一行在水平方向某个位置[X1,X2]存在属于目标区域,则可推理其余行在水平方向相同的位置[X1,X2]也属于目标区域,因此,本方法基于图像提供的高可识别信息,完整预测所有目标区域,有效解决了某些目标区域由于图片质量不高而漏识别或识别不完整的问题、并且有效解决了神经网络概率性漏识别目标区域或识别不完整的问题。比如附图8为根据本专利技术的识别结果,明显比附图3基于常见开源CTPN识别更完整。附图说明图1是色谱仪检验结果打印件样例;图2是色谱仪检验结果打印件目标数据样例;图3是通过开源软件CTPN识别色谱仪打印件目标数据区效果样例,其中蓝色边框包围区域为确认目标区域,绿色框包围区域为可能误判的目标区域;图4是长行分离效果,其中白色区域为分离出的可能包含文字的长行;图5是针对长行做块分离效果,其中(a)为原始图片,(b)为针对(a)做块分离效果图,(b)中白色区域为可能包含目标数据的区域;图6是针对块做感兴趣区域分离效果;图7是归属同一坐标系的感兴趣区域样例。其中(a)和(b)为基于同一张图片,提取的2个坐标系的感兴趣区域样例,灰色边框包围区域为归属同一坐标系的感兴趣区域,可以看出归属同一坐标系的感兴趣区域具备列对齐特征;图8是1个坐标系预测目标区域的样例。其中灰色粗边框包围区域为感兴趣区域,纵向分离的蓝色细框为根据所有感兴趣区域Y坐标建立的Y轴方向目标区域,横向分离的蓝色细框为根据所有感兴趣区域X坐标建立的X轴方向目标区域。蓝色底色图像为纵向分离的蓝色细框和横向分离的蓝色细框重叠区域,蓝色底色区域为本坐标系预测的目标区域。具体实施方式本专利技术基于图像列对齐特征,自动建立坐标系,预测所有目标区域。下面结合实例详细描述本专利技术,包括如下步骤:(1)图像倾斜矫正,将图像所有文字旋转到水平位置,以便后续文字区域切分时,不会出现由于区域粘结而无法分离。实施步骤:1)通过霍夫变换从图像提取其包含的所有长直线,并计算每条直线相对于水平方向的倾斜角度,所有直线的倾斜角度构成集合。2)对该集合实施K聚类算法,建议分离为2~4个集合,推荐为3个集合。选择成员数量最多的集合为目标集合。3)将目标集合所有成员的倾斜角度取平均值,该平均值C即是图像的倾斜角度。4)将图像往反方向旋转C度,即可完成图像倾斜矫正。(2)感兴趣区域提取:基于倾斜矫正的图片,做二值化,然后基于二值化图像作如下处理,得到所有可能包含目标文字的区域坐标:1)第一次区域分离,也称为长行分离,目的是把图像分割为若干个包含一行文字的图像区域:A、通过水平方向较大幅度膨胀,比如腐蚀率为图像宽度的1/7~1/12,让归属同一行、且距离较近的文字区域连在一起,得到连接成一片的图像的区域,即长行。B、可选。将该长行沿着垂直方向做较小幅度腐蚀,比如腐蚀率为3~5个像素,使行间间隔加大,从而更有效的分离出长行。C、可选。丢弃宽度小于高度10~15倍的长行,不但可以过滤部分噪音,也可过滤无效区域,从而可以减小后续的计算量。附图4为长行分离效果,其中白色区域为分离出的可能包含目标数据的长行。2)第二次区域分离,也称为块分离,目的是得到长行内的词组区域:A、在原图上,截取长行所在区域的图像并作二值化,然后水平方向和垂直方向均较大幅度膨胀,以便让长行内相邻字符区域连接在一起,得到块区域坐标。膨胀率可以略微大一点,比如0.6~0.8个字符宽度,须确保小数点前后的字符能连接在一起。该膨胀率可能导致2个词组粘结在一起,下面的第三次分离可以完成粘结修正。B、可选丢弃面积过小、宽度过窄的块,从而过滤离散噪音。附图5为针对长行做块分离效果,其中图(a)为原始图片,图(b)为图(a)做块分离效果图,图(b)中白色区域为可能包含目标的区域。3)第三次区域分离,也称为感兴趣区域分离,目的是消除目标区域间的粘结,得到分离的词组:A、在原图上,截取块所在区域的图像并作二值化,然后水平方向和垂直方向均小幅度膨胀,比如水平方向膨胀率为0.5倍行高,纵向方向膨胀率为3个像素,以便消除单个字符因为打印、纸张噪音导致的线条断裂,从而让单个字符的区域连接在一起。B、依次计算块区域内所有相邻字符的间距,当2个相邻字符间距小于0.8~0.9倍行高时,属于1个感兴趣区域,否则属于2个感兴趣区域。C、同属一个感兴趣区域的字符区域合并,得到1个感兴趣区域D、可选丢弃宽度小于字符平均宽度0.9~1.2的感兴趣区域,从而进一步过滤噪音。附图6为针对块做感兴趣区域分离效果。(3)根据感兴趣区域列对齐特征,建立所有可能的坐标系:1)感兴趣区域归属同一坐标系的定义:水平方向为X轴,垂直方向为Y轴,如果两个长行的行间距小于1.5~2倍行距、且2个长行内所有感兴趣在X轴方向的坐标不交叉,则属于同一个坐标系。所谓感兴趣区域坐标不交叉,是指感兴趣区域符合表结构列对齐特征,即任何1行的某个感兴趣区域在X轴的投影,不会和其它任何1行内超过1个感兴趣区域在X轴的投影存在重叠部分。附图7为归属同一坐标系的感兴趣区域样例。其中(a)和(b)为基于同一张图片,提取的2个本文档来自技高网...

【技术保护点】
1.一种基于图像列对齐特征预测所有目标区域的方法,其特征在于,结合色谱仪检验结果打印件的图像特征,提出一种创新算法,确保准确、完整识别色谱仪检验结果打印件包含的所有目标区域,包括如下步骤:(1)图像倾斜矫正,将图像所有文字旋转到水平位置,以便后续文字区域切分时,不会由于区域粘结而无法分离;(2)基于倾斜矫正的图片,做二值化,然后基于二值化图像,得到所有可能包含目标文字的区域,也称为得到感兴趣区域;(3)根据感兴趣区域列对齐特征,建立所有可能的坐标系;(4)依据目标区域图像特征,挑选目标坐标系;(5)从目标坐标系提取所有目标区域。

【技术特征摘要】
1.一种基于图像列对齐特征预测所有目标区域的方法,其特征在于,结合色谱仪检验结果打印件的图像特征,提出一种创新算法,确保准确、完整识别色谱仪检验结果打印件包含的所有目标区域,包括如下步骤:(1)图像倾斜矫正,将图像所有文字旋转到水平位置,以便后续文字区域切分时,不会由于区域粘结而无法分离;(2)基于倾斜矫正的图片,做二值化,然后基于二值化图像,得到所有可能包含目标文字的区域,也称为得到感兴趣区域;(3)根据感兴趣区域列对齐特征,建立所有可能的坐标系;(4)依据目标区域图像特征,挑选目标坐标系;(5)从目标坐标系提取所有目标区域。2.根据权利要求1所述基于图像列对齐特征预测所有目标区域的方法,其特征在于,感兴趣区域归属同一坐标系的定义:水平方向为X轴,垂直方向为Y轴,如果两个长行的行间距小于1.5~2倍行距、且2个长行内所有感兴趣在X轴方向的坐标不交叉,则属于同一个坐标系,所谓感兴趣区域坐标不交叉,是指感兴趣区域符合表结构列对齐特征,即任何1行的某个感兴趣区域在X轴的投影,不会和其它任何1行内超过1个感兴趣区域在X轴的投影存在重叠部分。3.根据权利要求1所述基于图像列对齐特征预测所有目标区域的方法,其特征在于,通过分析坐标系如下特征,挑选目标坐标系:(1)特征1:X轴方向感兴趣区域数量和目标区域数量相等坐标系,更可能是目标坐标系;(2)特征2:包含感兴趣区域数量更多坐标系,更可能是目标坐标系,假设感兴趣区域最多坐标系为A,包含Na个感兴趣区域,权重为1;坐标系B包含感兴趣区域个数Nb,B的权重Wn=Nb÷Na;(3)特征3:X轴方向所有感兴趣区域覆盖广度...

【专利技术属性】
技术研发人员:吴昌议
申请(专利权)人:吴昌议
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1