一种基于CNN和RNN模型的手写试验数据自动识别方法技术

技术编号:20222228 阅读:35 留言:0更新日期:2019-01-28 20:35
一种基于CNN和RNN模型的手写试验数据自动识别方法,包括以下步骤:S1,提取与手写试验数字识别相关的历史数据:通过建立与试验数据上报系统的数据接口,获取到各类试验表单数据图片;S2,对数据进行扩展:对步骤一的数据图片进行扩展;S3,训练手写试验数字识别CNN+RNN模型;S4,识别手写试验数字:根据步骤三得出的手写试验数字识别CNN+RNN模型,识别出新的手写试验数字图片中的数字;S5,现场核验:现场人员检查后,反馈识别的试验数字是否与输入的数字一致。本发明专利技术通过对图片的处理和模型的训练,识别试验表单上的手写数字,可直接识别出数据串,包括数据串中的小数点,可实现对现场作业终端台账、表单的自动记录。

【技术实现步骤摘要】
一种基于CNN和RNN模型的手写试验数据自动识别方法
本专利技术涉及手写试验数据自动识别领域,具体涉及一种基于CNN和RNN模型的手写试验数据自动识别方法。
技术介绍
基于计算机视觉技术的手写数字自动识别,由来已久,最早应用于邮政行业,自动识别信封上的邮政编码手写数字,对邮件进行自动分拣。这种方法,首先切分到单个数字,识别单个数字的类别,然后将识别结果串联起来。这种化整为零的方法是光学字符识别在深度学习出现之前的几十年里通用的方法,这种方式存在以下问题:1.切分错误会影响识别性能;2.单字识别未能考虑上下文信息。为了弥补这两点缺陷,传统方法往往需要对图像进行“过切分”,即找到所有可能是切点的位置,然后再将所有切片和可能的切片组合统统送给单字识别模块,通过在各个识别结果中间进行“动态规划”,寻找一条最优路径,从而确定切分和识别的结果。可见,这里切分、识别和后处理存在深度耦合,导致实际系统中的串识别模块往往堆砌了非常复杂和可读性差的算法。而且,即便如此,传统方法依然有不可突破的性能瓶颈,比如一些手写体数字严重粘连的情况等等。总而言之,传统方法的问题在于:处理流程繁琐冗长导致错误不断传递,本文档来自技高网...

【技术保护点】
1.一种基于CNN和RNN模型的手写试验数据自动识别方法,其特征在于,包括以下步骤:S1,提取与手写试验数字识别相关的历史数据:通过建立与试验数据上报系统的数据接口,获取到各类试验表单数据图片;S2,对数据进行扩展:对步骤一的数据图片进行扩展;S3,训练手写试验数字识别模型,把步骤二中扩展后的数字图片,输入到若干个卷积层和若干个池化层组成的卷积神经网络中,将得到的结果继续输入到由若干个双向长短期记忆层组成的循环神经网络中,然后将得到的结果继续输入到softmax函数,得到手写试验数字识别CNN+RNN模型;S4,识别手写试验数字:根据步骤三得出的手写试验数字识别CNN+RNN模型,识别出新的手...

【技术特征摘要】
1.一种基于CNN和RNN模型的手写试验数据自动识别方法,其特征在于,包括以下步骤:S1,提取与手写试验数字识别相关的历史数据:通过建立与试验数据上报系统的数据接口,获取到各类试验表单数据图片;S2,对数据进行扩展:对步骤一的数据图片进行扩展;S3,训练手写试验数字识别模型,把步骤二中扩展后的数字图片,输入到若干个卷积层和若干个池化层组成的卷积神经网络中,将得到的结果继续输入到由若干个双向长短期记忆层组成的循环神经网络中,然后将得到的结果继续输入到softmax函数,得到手写试验数字识别CNN+RNN模型;S4,识别手写试验数字:根据步骤三得出的手写试验数字识别CNN+RNN模型,识别出新的手写试验数字图片中的数字;S5,现场核验:现场人员检查后,反馈识别的试验数字是否与输入的数字一致,如果不一致,填报正确的试验数字,并把识别错误的试验数字图片和正确数字加入到历史数据集,至此,基于CNN和RNN模型对手写试验数据识别完成。2.如权利要求1所述的一种基于CNN和RNN模型的手写试验数据自动识别方法,其特征在于:所述步骤S1中试验表单数据包括上报的试验表单的扫描件PDF版本和从试验表单中提取出待识别的手写数字。3.如权利要求1所述的一种基于CNN和RNN模型的手写试验数据自动识别方法,其特征在于:所述S2具体包括以下步骤:S21、对步骤S1获取的图片数据进行多角度旋转保存;S22、对经S21步骤处理的数据图片添加噪音点,保存起来;S23、对经步骤S22步骤处理的数据图片进行弹性扭曲处理,保存起来。4.如权利要求3所述的一种基于CNN和RNN模型的手写试验数据自动识别方法,其特征在于:所述步骤S21具体为,将步骤S1获取的图片数据进行15°、30°和45°旋转保存。5.如权利要求3所述的一种基于CNN和RNN模型的手写试验数据自动识别方法,其特征在于:所述步骤S22中的噪音点为雪花样黑点。6.如权利要求3所述的一种基于CNN和RN...

【专利技术属性】
技术研发人员:廖肇毅薛峰张伟平李汉钊刘丽荣张熙李通张雅洁张广伟孔蓓蓓邓琨温启良赵国杰许德成张渊渊
申请(专利权)人:广东电网有限责任公司东莞供电局深圳市康拓普信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1