【技术实现步骤摘要】
一种专利文本场景下的光学字符识别方法
本专利技术属于计算机视觉、图像处理、卷积神经网络
,特别涉及一种专利文本场景下的光学字符识别方法。
技术介绍
随着计算机硬件,软件的不断更新,以及人工智能(ArtificialIntelligence,AI)的逐步成熟化,将深度学习应用在光学字符识别领域具有十分现实的意义。光学字符识别是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使计算机识别的信息。因为其中影响因素太多,包括书写者的习惯,文件印刷品质、扫描仪的扫描品质、识别方法、学习及测试的样本等,都会影响其正确率。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将识别错误的文字更正,最终将结果输出。OCR技术具有广阔的应用前景,目前文本识别的算法在工业界已经开始应用,市场上有不少针对光学字符识别的软件,充分说明光学字符领域具有较大的应用价值。目前的OCR技术按照特征提取方法可以分为两类:(1) ...
【技术保护点】
1.一种专利文本场景下的光学字符识别方法,其特征在于,包括以下步骤:/nS1、获取tif格式的专利文本图片,经过预处理后作为样本集;/nS2、建立深度神经网络模型,包括文本检测网络模型和文本识别网络模型;/n所述文本检测网络模型由3个卷积层、3个压缩激励模块和1个Bi-LSTM构成,一个卷积层连接一个压缩激励模块;每个压缩激励模块包括两个输出分支,一个分支不做任何处理,另一个分支依次经过池化层、全连接层、Relu激励层、全连接层和sigmoid激励层,最后将两个分支结果相加再进行输出;最后一个压缩激励模块经过3×3的卷积核之后,连接Bi-LSTM,最后经过全连接层进行输出; ...
【技术特征摘要】
1.一种专利文本场景下的光学字符识别方法,其特征在于,包括以下步骤:
S1、获取tif格式的专利文本图片,经过预处理后作为样本集;
S2、建立深度神经网络模型,包括文本检测网络模型和文本识别网络模型;
所述文本检测网络模型由3个卷积层、3个压缩激励模块和1个Bi-LSTM构成,一个卷积层连接一个压缩激励模块;每个压缩激励模块包括两个输出分支,一个分支不做任何处理,另一个分支依次经过池化层、全连接层、Relu激励层、全连接层和sigmoid激励层,最后将两个分支结果相加再进行输出;最后一个压缩激励模块经过3×3的卷积核之后,连接Bi-LSTM,最后经过全连接层进行输出;
所述文本识别网络模型由Bi-LSTM和CNN构成,该网络模型首先经过一个由CNN构成的深度可分离模块,该模块包括和输入通道数相同的3×3卷积层,叠加之后进行批量归一化,然后经过一个1×1卷积层,最后经过批量归一化、激活函数后和最大池化层后,输出给深度可分离模块;最后一个深度可分离模块连接Bi-LSTM模块,最后连接序列翻译模块;
S3、使用步骤S1获得的样本集对步骤S2的深度神经网络模型进行训练,获得训练好的神经网络模型,具体包括:
文本检测网络模型的训练:通过前向传播,利用卷积模块提取文本图片特征信息,经过基础网络模块提出的特征图大小为W,H,C;W为特征图宽度,H为特征图高度,C为输出的通道数;
经过C个3×3的卷积核和预先设定的预选框尺寸提取目标候选区域特征,然后输入Bi-LSTM网络得到W×256维的输出,然后经过一个512维的全连接层进行输出,输出层分为2个部分,第一部分用512×(4+10)进行坐标回归,512表示每个点有512种特征数,10表示每个点有10组预选框尺寸,4表示预选框尺寸的组成是(xmin,xmax,ymin,ymax),代表两点的坐标;第二部分使用512×(2+10)进行类别预测,512和10的含义与第一部分相同,2表示是背景或不是背景两种情况;
每张图片一共会生...
【专利技术属性】
技术研发人员:饶云波,郭毅,程亦茗,张孟涵,王艺霖,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。