【技术实现步骤摘要】
一种基于神经网络热点图的自然场景票据矫正方法
[0001]本专利技术涉及场景文字识别领域,特别涉及一种基于神经网络热点图的自然场景票据矫正方法。
技术介绍
[0002]人工智能发展到现在,深度神经网络已经得到广泛的使用,在学术界中,计算机三大视觉(图片分类,目标检测,图像分割)任务得到了飞速的发展,随着学术界的突飞猛进,工业界开始寻找对应产品的落地,自然场景文本识别(STR),就是近几年快速发展的项目。
[0003]相对于传统光学字符识别(OCR),自然场景文本识别(STR)最大的区别在于自然场景文本识别对背景的约束更小,场景更加复杂。传统的光学字符识别一般使用高拍仪、扫描仪之类的设备,得到没有褶皱、光照统一、背景统一的文本图片,以保证较高的识别准确率,这使得传统光学字符识别使用受限,而自然场景文本识别摆脱了这些设备的限制,使用普通的相机采集自然场景下的文本图片,但数据的复杂度(例如出现倾斜、光照、褶皱以及遮挡等情况)却大大增加。
[0004]现有的自然场景文本识别(STR)解决方法为先检测后识别为主,只要样 ...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络热点图的自然场景票据矫正方法,其特征在于,包括以下步骤:步骤S1,对票据图片多个关键点的坐标进行标注,从而获得每张票据图片的关键点坐标标签;步骤S2,对票据图片进行预处理,具体将票据图片固定成统一高宽为h*w大小、并带填充操作的预处理票据图,填充操作需传入表示填充边界长度的填充操作信息参数;步骤S3,对每张票据图片的关键点坐标标签进行标签预处理,具体将每张票据图片的关键点坐标标签、以及填充操作信息进行缩放,得到相应固定成h*w大小的预处理票据图的关键点坐标;然后对每张票据图片标签使用函数将每一个坐标用一个概率图来表示,对步骤S2中预处理获得的预处理票据图中的每个像素位置都给予一个表示该像素点属于对应类别关键点的概率,最终得到h*w大小的热点图监督标签;步骤S4,构建基于热点图的神经网络,此神经网络主要由下采样、上采样、特征融合三部分组成;通过卷积神经网络完成下采样,对下采样的特征经过多个过度网络,再通过双线性插值法进行上采样,利用特征金字塔完成下采样和上采样的特征融合,最后输出h*w*1大小的热点图;步骤S5,使用损失函数度量模型输出h*w大小热点图和h*w大小的热点图监督标签的误差,并利用神经网络训练的优化器进行反向传播,不断地进行迭代以更新神经网络参数权重,从而找到损失最低点实现优化模型;步骤S6,模型训练好之后,通过输入票据图片,得到预测的Heatmap热点图;步骤S7,得到预测的h*w大小的Heatmap热点图后,首先将Heatmap热点图恢复到原始票据图片大小的新热点图,其次进行高斯模糊处理,再次将热点图每个像素值基于预先设定阈值的设置为1或0,最后利用索引操作得到关键点坐标;步骤S8,得到关键点坐标后将关键点向外扩大得到新的关键点,接着通过高...
【专利技术属性】
技术研发人员:金天,
申请(专利权)人:杭州学谷智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。