一种金融票据小写金额手写字符的分割方法技术

技术编号：25186745 阅读：16 留言：0更新日期：2020-08-07 21:14

本发明专利技术公开了一种金融票据小写金额手写字符的分割方法，其特征在于，包括如下步骤：步骤01，利用K‑means算法，对输入的灰度图像寻找最优的分割阈值；步骤02，利用直方图法对待识别字符样本进行横、纵投影分割，获得初步字符分割序列；步骤03，将上个步骤切割后的字符序列，经过CRAFT算法计算两个字符之间的中心概率即关联系数，数字金额字符之间关联系数较大，而栅格竖线与它手写字符的关联系数较小，据此可将栅格线排除，利用CRAFT算法筛选出最优字符分割序列，输出结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种金融票据小写金额手写字符的分割方法
本专利技术涉及薄片类纸质介质处理领域，特别是涉及一种金融票据处的小写金额处手写字符的分割方法。
技术介绍
目前市面上各个人工智能公司的字符处理软件产品种类繁多，尤其在字符分割、识别技术已经相当成熟。但在金融票据上小写金额处、大写金额处等特定识别场景下的应用效果并不理想。字符的种类分为印刷体数字(0～9)、手写体数字、印刷体大小写英文字母(a～w)、手写体大小写英文字符、印刷体特殊符号及手写体特殊符号(如￥、$)等。印刷体字符识别一般采用较为简单的三层全连接神经网络算法，即可获得较好的识别结果。而手写体字符识别则需要更深层的卷积神经网络算法。无论采用哪种算法，在识别之前，都需要对每块字符依次分割出单个字符，而字符切割的字体规范性是识别正确的前提，因此字符的分割对算法识别结果产生较大影响。一般印刷体字符的字体、形状、大小较为规范，字符之间的间距也非常均匀，使用传统的横向投影、纵向投影分割方法，结合动态阈值等处理技术，即可获得较好的分割效果。而手写体字符形状、大小等特征往往因个人笔法而异，字符的连笔、粘连等情况非常普遍，尤其是在票据上小写金额处的手写体数字，每个数字分割的难度不仅在于手写字符的不规范，还在于外侧的货币数字栅格，以及字迹经长时间保存变得模糊、墨迹暗淡也会带来一定的困难。针对此类字符的分割，传统的横、纵向投影算法，以及深度学习神经网络分割方法均难以达到良好效果，金额处的栅格极易误识别为其它字符(例如数字1)，而一些手写体票据的数字会超出栅格范围，这...

【技术保护点】
1.一种金融票据小写金额手写字符的分割方法，其特征在于，包括如下步骤：/n步骤01，利用K-means算法，对输入的灰度图像寻找最优的分割阈值；/n步骤02，利用直方图法对待识别字符样本进行横、纵投影分割，获得初步字符分割序列；/n步骤03，将上个步骤切割后的字符序列，经过CRAFT算法计算两个字符之间的中心概率即关联系数，数字金额字符之间关联系数较大，而栅格竖线与它手写字符的关联系数较小，据此可将栅格线排除，利用CRAFT算法筛选出最优字符分割序列，输出结果。/n

【技术特征摘要】
1.一种金融票据小写金额手写字符的分割方法，其特征在于，包括如下步骤：
步骤01，利用K-means算法，对输入的灰度图像寻找最优的分割阈值；
步骤02，利用直方图法对待识别字符样本进行横、纵投影分割，获得初步字符分割序列；
步骤03，将上个步骤切割后的字符序列，经过CRAFT算法计算两个字符之间的中心概率即关联系数，数字金额字符之间关联系数较大，而栅格竖线与它手写字符的关联系数较小，据此可将栅格线排除，利用CRAFT算法筛选出最优字符分割序列，输出结果。

2.根据权利要求1所述的一种金融票据小写金额手写字符的分割方法，其特征在于，所述步骤01包括如下步骤：
步骤011，采用距离作为相似性指标，从C个数据对象任意选择k个对象作为初始聚类中心；
步骤012，对于剩下的其它对象，则根据它们与初始聚类中心的相似度(距离)，分别将它们分配给与其相似的聚类；
步骤013，计算每个所获新聚类的聚类中心，不断重复这一过程直到聚类中心k个对象不再更换为止，此时获得的为最优分割阈值。

3.根据权利要求2所述的一种金融票据小写金融手写字符的分割方法，其特征在于，所述步骤013中最优分割阈值是当E取最小值时，x的值，计算公式为：

其中μi是数据对象Ci的...

【专利技术属性】
技术研发人员：刘贯伟，张振彬，江浩然，张云峰，
申请(专利权)人：恒银金融科技股份有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人