一种基于深度学习的金融行业图像中的文字区域检测定位的方法技术

技术编号:20623576 阅读:44 留言:0更新日期:2019-03-20 14:53
本发明专利技术公开了一种基于深度学习的金融行业图像中的文字区域检测定位的方法,包括如下步骤:选取金融行业常用的汉字、词组和组合词,加上一些处理,形成变换后的数据集;生成文本区域候选框,计算每一个候选文本区域的得分;并入文本类别监督信息,融入多层次的区域下采样信息并将文本特征输入到LSTM网络模型中形成一种端到端的候选文本区域生成网络;最后再对所述的候选文本区域位置进行修正,使用候选框过滤多余的候选区域。这种发明专利技术可以实现对任意角度文本快速的检测。

A Method of Text Region Detection and Location in Financial Industry Image Based on Deep Learning

The invention discloses a method for detecting and locating text regions in financial industry images based on in-depth learning, which includes the following steps: selecting commonly used Chinese characters, phrases and combinations in financial industry, adding some processing, forming transformed data sets; generating text region candidate boxes, calculating the scores of each candidate text region; incorporating text category monitoring information into the data set; The multi-level region down-sampling information and text features are input into LSTM network model to form an end-to-end candidate text region generation network. Finally, the location of the candidate text region is corrected, and the candidate box is used to filter the redundant candidate regions. The invention can realize fast detection of text from any angle.

【技术实现步骤摘要】
一种基于深度学习的金融行业图像中的文字区域检测定位的方法
本专利技术涉及图像处理
,尤其涉及一种基于深度学习的金融行业图像中的文字区域检测定位的方法。
技术介绍
基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来,并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。相关技术中,OCR文字识别方法分为文字行分割、单字分割、单字识别、语言模型解码等流程,对一张图像进行行分割之后,进行单个字的分割,然后对分割得到的单个字同时进行单字识别,最后进行语言模型解码。然而相关技术中,现有的OCR文字识别方法中对单个字的切割,然后分别对每一个字同时进行识别,一旦单字切割出现切割错误,则单字识别就错了,并且也影响到了其他的单个字的识别。从而,现有技术OCR单字分割定位然后再对文字进行识别的方法,并不准确,容易出现错误,识别率较低。
技术实现思路
本专利技术针对现有技术的不足,提供一种基于深度学习的金融行业图像中的文字区域检测定位的方法,可以准确识别金融领域文字区域的文本行,提高文本行识别的鲁棒性。本文档来自技高网...

【技术保护点】
1.一种基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于,该方法包括如下步骤:S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;S3:生成文本区域候选框,以缩放处理后的图像作为inception‑RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在...

【技术特征摘要】
1.一种基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于,该方法包括如下步骤:S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;S3:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,InceptionModule中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域。S4:并入文本类别监督信息,融入多层次的区域下采样信息;S5:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;S6:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;S7:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余...

【专利技术属性】
技术研发人员:桂晓雷林路王慜骊安通鉴林康陈立强
申请(专利权)人:信雅达系统工程股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1