System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术一般地涉及图像数据处理领域。更具体地,本专利技术涉及一种基于数据分析的票据图文识别方法及系统。
技术介绍
1、数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析在商业、科学、医疗保健、金融等各个领域都发挥着重要作用。
2、在日常生活中,票据已经成为了一种离不开的工具。因此许多企业和组织需要处理大量的票据和发票,例如购物小票、发票、收据等等。根据票据将信息进行提取。
3、目前在对票据图文预处理时,基于图像处理、计算机视觉、光学字符识别(opticalcharacter recognition,简称ocr)等技术进行自动化识别处理,现有处理方式都是直接把灰度图通过大津阈值法或者设定固定阈值进行二值化分割,进而存在分割效果不好和识别不准确的情况。进而为了提高自动化识别的准确度,因此需要一种基于数据分析的票据图文识别方法及系统。
技术实现思路
1、为解决上述一个或多个技术问题,本专利技术提出对相邻两个像素点的变化,计算在原图中所占的颜色通道的分量占比,得到像素增强的概率,尽量保留在二值化图像中的内容,减少背景对内容的影响,以提高内容识别的效率和准确率,为此,本专利技术在如下的多个方面中提供方案。
2、在第一方面中,一种基于数据分析的票据图文识别方法,包括:采集票据图像并进行预处理,得
3、在一个实施例中,所述变化量满足下述关系式:
4、
5、其中,表示第个像素点8邻域中第个邻域的像素点的灰度值变化量,表示第个像素点8邻域中第个邻域的像素点的灰度值,表示第个像素点的灰度值。
6、通过采用上述技术方案,在灰度图像中,内容边缘与背景有过渡过程,根据二值化图像中像素点的位置对应灰度图像中的位置,进行分析该像素点的8邻域像素点的灰度值,从而更好地提取更多图文信息。
7、在一个实施例中,所述目标像素点的邻域像素点的增强概率满足下述关系式:
8、
9、其中,表示第个像素点8邻域中第个邻域的像素点灰度值的增强概率,表示第个像素点8邻域中第个邻域的像素点的灰度值变化量,表示第个像素点的灰度值,表示第个像素点8邻域中第个邻域的像素点的灰度值,表示原图中第个像素点在颜色通道的分量值,表示第个像素点8邻域中第个邻域的像素点在颜色通道的分量值。
10、通过采用上述技术方案,在二值化图像中,同一个连通域内的内容形态特征相差不大,进而根据原图像中,内容的像素点在灰度值和色彩通道分量,便于给目标像素点进行计算增强概率,有利于对目标像素点进行判断。
11、在一个实施例中,对所述目标像素点的邻域像素点进行增强,包括:
12、计算所述二值化图像中任意两个像素点的增强概率的第一差值,遍历计算所有所述第一差值的第一平均值;
13、计算所述二值化图像中所述目标像素点与周围邻域像素点的增强概率的第二差值,遍历计算所有所述第二差值的第二平均值,根据所述第二平均值利用均值聚类算法进行二分类,得到两个聚类簇,其中,所述聚类簇分为:概率差值大的聚类簇和概率差值小的聚类簇;
14、计算所述两个聚类簇的增强概率的差值序列,使用最小二乘法对差值序列进行拟合,得到拟合直线,根据所述差值序列中的点,计算所述差值序列到拟合直线最短距离的平均值,判断差值序列的连续性;
15、计算所述第一平均值和第二平均值的第三差值,其中,所述第三差值为差值序列的连续性的加权,以得到判断的增强结果参数。
16、在一个实施例中,所述增强结果参数满足下述关系式:
17、
18、其中,表示判断的增强结果参数,表示差值序列中的点到拟合直线最短距离的平均值,表示第一平均值与第二平均值的差值。
19、在一实施例中,根据所述增强结果参数的预设阈值,判断增强效果,包括:
20、设置增强结果参数的预设阈值为;
21、响应于增强结果参数小于预设阈值,需要对所述目标像素点的邻域像素点进行增强。
22、通过采用上述技术方案,灰度图像和二值化图像通过对像素点增强得到增强后的二值化图像,有利于在二值化图像中的识别内容更加清晰,增加文字识别的准确性。
23、在一实施例中,对所述增强后的二值化图像,进行票据内容识别,包括:
24、使用计算机视觉和模式识别技术对所述增强后的二值化图像进行图文检测,完成对票据图文的识别。
25、第二方面,一种基于数据分析的票据图文识别系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现任一项所述的基于数据分析的票据图文识别方法。
26、本申请具有以下效果:
27、1、本申请通过相邻两像素点在灰度图像中灰度值和在原图中的颜色通道分量的相互关系,得到各个像素点的增强概率,根据增强概率实现准确识别像素点是否需要保留,能够尽可能的在二值化图像中保留字符、章印、边框等,同时尽可能消除背景对于内容的影响,在内容识别时,提高识别的效率和准确率。
28、2、本申请通过灰度图像和二值化图像通过对像素点增强得到增强后的二值化图像,会在识别内容和背景在色彩亮度以及色彩范围相差不大的区域,使用设置不同加权值的增强概率阈值,能够进行良好的增强,以达到最佳效果,有利于提高在二值化图像中,识别的内容更加清晰,提高文字识别的准确性。
本文档来自技高网...【技术保护点】
1.一种基于数据分析的票据图文识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,所述灰度值变化量满足下述关系式:
3.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,所述目标像素点的邻域像素点的增强概率满足下述关系式:
4.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,对所述目标像素点的邻域像素点进行增强,包括:
5.根据权利要求4所述的一种基于数据分析的票据图文识别方法,其特征在于,所述增强结果参数满足下述关系式:
6.根据权利要求5所述的一种基于数据分析的票据图文识别方法,其特征在于,根据所述增强结果参数的预设阈值,判断增强效果,包括:
7.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,对所述增强后的二值化图像,进行票据内容识别,包括:
8.一种基于数据分析的票据图文识别系统,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时
...【技术特征摘要】
1.一种基于数据分析的票据图文识别方法,其特征在于,包括:
2.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,所述灰度值变化量满足下述关系式:
3.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,所述目标像素点的邻域像素点的增强概率满足下述关系式:
4.根据权利要求1所述的一种基于数据分析的票据图文识别方法,其特征在于,对所述目标像素点的邻域像素点进行增强,包括:
5.根据权利要求4所述的一种基于数据分析的票据图文识别方法,其特征在于,...
【专利技术属性】
技术研发人员:林立磐,刘智国,曾俊毅,李伟,陈瑞翔,王镇彬,
申请(专利权)人:广州市省信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。