一种基于神经网络热点图的自然场景票据矫正方法技术

技术编号：28215794 阅读：28 留言：0更新日期：2021-04-24 14:59

本发明专利技术公开了一种基于神经网络热点图的自然场景票据矫正方法，包括以下步骤：对票据多个关键点的坐标进行标注获得关键点坐标标签；对票据图片进行预处理获得固定成统一高宽大小为h*w的票据图；对每张票据图片的关键点坐标标签进行标签预处理，得到h*w大小的热点图监督标签；构建基于热点图的神经网络，输出h*w*1大小的热点图；模型训练好之后，通过输入票据图片得到预测的Heatmap热点图，将热点图恢复到原始大小的新热点图，将热点图每个大于一定阈值的像素值都设为1，否则设为0；利用索引操作得到关键点坐标，将关键点向外扩大得到新的关键点，通过高阶多项式的非线性几何变换将原始图像矫正到统一尺度上。将原始图像矫正到统一尺度上。将原始图像矫正到统一尺度上。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络热点图的自然场景票据矫正方法

[0001]本专利技术涉及场景文字识别领域，特别涉及一种基于神经网络热点图的自然场景票据矫正方法。

技术介绍

[0002]人工智能发展到现在，深度神经网络已经得到广泛的使用，在学术界中，计算机三大视觉（图片分类，目标检测，图像分割）任务得到了飞速的发展，随着学术界的突飞猛进，工业界开始寻找对应产品的落地，自然场景文本识别（STR），就是近几年快速发展的项目。
[0003]相对于传统光学字符识别（OCR），自然场景文本识别（STR）最大的区别在于自然场景文本识别对背景的约束更小，场景更加复杂。传统的光学字符识别一般使用高拍仪、扫描仪之类的设备，得到没有褶皱、光照统一、背景统一的文本图片，以保证较高的识别准确率，这使得传统光学字符识别使用受限，而自然场景文本识别摆脱了这些设备的限制，使用普通的相机采集自然场景下的文本图片，但数据的复杂度（例如出现倾斜、光照、褶皱以及遮挡等情况）却大大增加。
[0004]现有的自然场景文本识别（STR）解决方法为先检测后识别为主，只要样...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，包括以下步骤：步骤S1，对票据图片多个关键点的坐标进行标注，从而获得每张票据图片的关键点坐标标签；步骤S2，对票据图片进行预处理，具体将票据图片固定成统一高宽为h*w大小、并带填充操作的预处理票据图，填充操作需传入表示填充边界长度的填充操作信息参数；步骤S3，对每张票据图片的关键点坐标标签进行标签预处理，具体将每张票据图片的关键点坐标标签、以及填充操作信息进行缩放，得到相应固定成h*w大小的预处理票据图的关键点坐标；然后对每张票据图片标签使用函数将每一个坐标用一个概率图来表示，对步骤S2中预处理获得的预处理票据图中的每个像素位置都给予一个表示该像素点属于对应类别关键点的概率，最终得到h*w大小的热点图监督标签；步骤S4，构建基于热点图的神经网络，此神经网络主要由下采样、上采样、特征融合三部分组成；通过卷积神经网络完成下采样，对下采样的特征经过多个过度网络，再通过双线性插值法进行上采样，利用特征金字塔完成下采样和上采样的特征融合，最后输出h*w*1大小的热点图；步骤S5，使用损失函数度量模型输出h*w大小热点图和h*w大小的热点图监督标签的误差，并利用神经网络训练的优化器进行反向传播，不断地进行迭代以更新神经网络参数权重，从而找到损失最低点实现优化模型；步骤S6，模型训练好之后，通过输入票据图片，得到预测的Heatmap热点图；步骤S7，得到预测的h*w大小的Heatmap热点图后，首先将Heatmap热点图恢复到原始票据图片大小的新热点图，其次进行高斯模糊处理，再次将热点图每个像素值基于预先设定阈值的设置为1或0，最后利用索引操作得到关键点坐标；步骤S8，得到关键点坐标后将关键点向外扩大得到新的关键点，接着通过高...

【专利技术属性】
技术研发人员：金天，
申请(专利权)人：杭州学谷智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人