一种用于中文历史文献密集文本的文字检测识别方法技术

技术编号:21200893 阅读:30 留言:0更新日期:2019-05-25 01:32
本发明专利技术公开了一种用于中文历史文献密集文本的文字检测识别方法,包括步骤:(1)数据获取:采集历史文献图像,进行人工标注;(2)数据预处理:对历史文献图像进行竖直投影做列切分,将历史文献中竖直的文本按列切开;(3)构建并预训练一个单行文本识别的卷积神经网络;(4)构建一个对单行文本进行文字检测的卷积神经网络,与进行单行文本识别的卷积神经网络共享浅层参数,同时进行训练;文字检测卷积神经网络利用文本识别卷积神经网络所提供的文本信息,对检测的位置进行微调,实现精确检测历史文献中密集文本的单个文字位置。本发明专利技术采用了卷积神经网络实现文本识别,并且充分利用文本识别分类器的指导信息,检测的效果可以更加精确。

A Text Detection and Recognition Method for Chinese History Document-intensive Texts

The invention discloses a text detection and recognition method for Chinese historical document intensive text, which includes steps: (1) data acquisition: collecting historical document images for manual labeling; (2) data preprocessing: vertical projection of historical document images for column segmentation, vertical text in historical documents for column segmentation; (3) constructing and pre-training a convolution of single line text recognition. (4) Constructing a convolution neural network for text detection of single line text, sharing shallow parameters with convolution neural network for single line text recognition, and training at the same time; using the text information provided by convolution neural network for text recognition, the convolution neural network for text detection fine-tunes the location of detection to achieve accurate detection of dense text in historical documents. Single text location. The invention adopts convolutional neural network to realize text recognition, and makes full use of the guidance information of the text recognition classifier, so that the detection effect can be more accurate.

【技术实现步骤摘要】
一种用于中文历史文献密集文本的文字检测识别方法
本专利技术涉及模式识别和人工智能
,尤其涉及一种用于中文历史文献密集文本的文字检测识别方法。
技术介绍
大量的历史文献是过去的文明留下来的珍贵遗产,解读和保护这些历史文献最有效的方法就是将它们电子化,包括将其中的文字和符号识别并保存下来。近年来,深度学习算法在计算机视觉领域取得了一系列突破性的进展,通用的物体检测算法和场景文本检测算法都有很大的提升,然而,对于中文历史文献中密集的文本,通用的物体检测算法和场景文本检测框架效果并不太理想,而检测的效果又影响了进一步对历史文献进行文字识别,因此,对历史文献中的密集文本进行精确的检测,对将历史文献进行电子化具有重大的意义。
技术实现思路
本专利技术的目的在于克服现有技术中的缺点与不足,提供一种用于中文历史文献密集文本的文字检测识别方法,减少网络的参数量,同时使检测的效果更加有效。为实现以上目的,本专利技术采取如下技术方案:一种用于中文历史文献密集文本的文字检测识别方法,包括下述步骤:S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。作为有选优的技术方案,步骤S1具体包括下述步骤:S11、通过文档扫描或相机拍照的方式获取原始的历史文献图片;S12、通过人工标注的方式,将步骤S11中收集得到的原始历史文献图片中的文本位置与文本信息标注出来,具体的方式是:在原始的历史文献图片中用文本框将单个文字框出来,并将对应的文本文字输入记录,形成标签数据集。作为有选优的技术方案,步骤S2具体包括下述步骤:S21、根据需要处理的文本特点对步骤S1采集的历史文献图片使用投影法进行列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;具体如下:由于输入的历史文献图片中竖直文本为列格式,故利用垂直投影,即计算每一个像素列上的像素总和,通过寻找所述历史文献图片中列的分界点,来进行列切分,形成图片数据集;将图片按像素投影到x轴,定义分割临界值c,c由公式(1)计算可得,其中,cavg是平均像素值,dmin是当前历史文献图片的最小像素值,a和b是经验参数;w为垂直投影与分割临界值c的水平线相交的宽度,为垂直投影与平均像素值cavg的水平线相交的宽度,当w满足式(2)时,将当前历史文献图片按分割临界值c分割为列图片;式中,γ、δ为自适应参数;表示对求平均值。作为有选优的技术方案,步骤S3具体包括下述步骤:S31、构建用于识别单行文本的识别卷积神经网络,该网络包括十七层结构,第一层为输入层,首先将输入该层的历史文献图片预处理为1000*100大小的列图片;第二层、第四层、第六层为对历史文献图片进行浅层特征提取的卷积层,通道数分别为16、32、64,卷积核大小均为3*3,步长均为1*1;第三层、第五层、第七层为池化层,核大小均为2*2,步长均为2*2;第八层、第十层、第十二层为深层特征提取的卷积层,通道数分别为128、256、512,卷积核大小分别为3*3、3*3、3*1,步长分别为1*1、1*1、3*1;第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;第十三层为批归一化处理层;第十四层为转置层,对矩阵进行转置操作;第十五层、第十六层为全连接层,表示对前一层得到的特征按照不同的权重进行学习;第十七层为解码处理层;所述解码处理层的输入维度为N*1,其中N表示要进行识别的字的类别数加一个额外的“空白”类别;所述解码处理层的输出中每个“时间点”对应一个字符,通过计算可找到这个字符在输入图片中对应的位置,即对应的感受野;假设ri表示当前“时间点”在第i个卷积层所对应的区域大小,(xi,yi)表示在第i个卷积层对应区域的中心位置,具体通过以下公式计算:ri=(ri+1-1)×Si+Ki(3)其中,ri+1为当前“时间点”在第i+1个卷积层所对应的区域大小,(xi+1,yi+1)表示在第i+1个卷积层所述对应区域的中心位置,Ki为第i个卷积层的卷积核大小,Si为第i个卷积层的步长,Pi为第i个卷积层的填充尺寸;S32、将所述标签数据集的标签和所述图片数据集的图片进行分组,以对步骤S31构建的识别卷积神经网络进行多批次训练,具体如下:设定每一批进行训练的图片数量为BS1张,将步骤S21预处理切分产生的T1张图片随机分为T1/BS1组,根据预处理切分的列图片,将对应的人工标注的文本行信息作为切分图片对应的真实标签,对步骤S31所构建的识别卷积神经网络进行训练时,采用多批次训练,每批次使用一组数据进行批量训练;S33、利用所述标签数据集和所述图片数据集对步骤S32批次训练后的识别卷积神经网络进行训练,具体如下:采用随机梯度下降方法对步骤S32中多批次训练后的识别卷积神经网络进行训练,初始学习率为lr0,学习率惩罚系数为λ,最大训练迭代次数为itermax,学习率按照公式(6)更新:其中,iter为当前迭代次数;lriter为当前学习率;γ表示学习率调整的速率;stepsize表示学习率调整的步长。作为有选优的技术方案,步骤S4具体包括下述步骤:S41、构建一个对检测密集文本文字的检测卷积神经网络,将输入该网络的图片预处理成1000*100大小的列图片;所述检测卷积神经网络与识别卷积神经网络共享浅层参数,即共享前七层参数;所述检测卷积神经网络的第八层、第十层为深层特征提取的卷积层,通道数分别为128、256,卷积核大小分别为3*3、3*3,步长均为1*1;所述检测卷积神经网络的第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;所述检测卷积神经网络的第十二层为卷积层,通道数为4,卷积核大小为3*1,步长为3*1;所述检测卷积神经网络的第十三层为批归一化处理层,第十四层为损失函数层;S42、利用所述图像数据集对所述检测卷积神经网络进行训练,具体如下:所述检测卷积神经网络与识别卷积神经网络采用随机梯度下降方法同时进行训练,用于训练所述检测卷积神经网络的图片为预切分的T2张列图片和对应的人工标注的文字位置信息,每BS2张图片为一组,分为T2/BS2组进行训练,其中T2=T1,BS2=BS1;S43、所述检测卷积神经网络对所述识别卷积神经网络计算出来的感受野进行微调,具体如下:通过步骤S31中式(3)、式(4)、式(5)的计算,所述识别卷积神经网络最后一层的每一个输出对应在输入图片中的位置即可作为检测卷积神经网络的有效候选框,所述检测卷积神经网络输出有效候选框四个顶点的偏移值,对有效候选框的位置进行微调,来达到更加紧密的检测定位效果;S44、合并整理最终的候选框与识别结构,具体如下:在所述检测卷积神经网络的输出中,存在多个本文档来自技高网...

【技术保护点】
1.一种用于中文历史文献密集文本的文字检测识别方法,其特征在于,包括下述步骤:S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。

【技术特征摘要】
1.一种用于中文历史文献密集文本的文字检测识别方法,其特征在于,包括下述步骤:S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。2.如权利要求1所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S1具体包括下述步骤:S11、通过文档扫描或相机拍照的方式获取原始的历史文献图片;S12、通过人工标注的方式,将步骤S11中收集得到的原始历史文献图片中的文本位置与文本信息标注出来,具体的方式是:在原始的历史文献图片中用文本框将单个文字框出来,并将对应的文本文字输入记录,形成标签数据集。3.如权利要求2所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S2具体包括下述步骤:S21、根据需要处理的文本特点对步骤S1采集的历史文献图片使用投影法进行列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;具体如下:由于输入的历史文献图片中竖直文本为列格式,故利用垂直投影,即计算每一个像素列上的像素总和,通过寻找所述历史文献图片中列的分界点,来进行列切分,形成图片数据集;将图片按像素投影到x轴,定义分割临界值c,c由公式(1)计算可得,其中,cavg是平均像素值,dmin是当前历史文献图片的最小像素值,a和b是经验参数;w为垂直投影与分割临界值c的水平线相交的宽度,为垂直投影与平均像素值cavg的水平线相交的宽度,当w满足式(2)时,将当前历史文献图片按分割临界值c分割为列图片;式中,γ、δ为自适应参数;表示对求平均值。4.如权利要求3所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S3具体包括下述步骤:S31、构建用于识别单行文本的识别卷积神经网络,该网络包括十七层结构,第一层为输入层,首先将输入该层的历史文献图片预处理为1000*100大小的列图片;第二层、第四层、第六层为对历史文献图片进行浅层特征提取的卷积层,通道数分别为16、32、64,卷积核大小均为3*3,步长均为1*1;第三层、第五层、第七层为池化层,核大小均为2*2,步长均为2*2;第八层、第十层、第十二层为深层特征提取的卷积层,通道数分别为128、256、512,卷积核大小分别为3*3、3*3、3*1,步长分别为1*1、1*1、3*1;第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;第十三层为批归一化处理层;第十四层为转置层,对矩阵进行转置操作;第十五层、第十六层为全连接层,表示对前一层得到的特征按照不同的权重进行学习;第十七层为解码处理层;所述解码处理层的输入维度为N*1,其中N表示要进行识别的字的类别数加一个额外的“空白”类别;所述解码处理层的输出中每个“时间点”对应一个字符,通过计算可找到这个字符在输入图片中对应的位置,即对应的感受野;假设ri表示当前“时间点”在第i个卷积层所对应的区域大小,(xi,yi)表示在第i个卷积层对应区域的中心位置,具体通过以下公式计算:ri=(ri+1-1)×Si+Ki(3)其中,ri+1为当前“时间点”在第i+1个卷积层所对应的区域大小,(xi+1,yi+1)表示在第i+1个卷积层所述对应区域的中心位置,K...

【专利技术属性】
技术研发人员:黄伟国金连文杨海林
申请(专利权)人:华南理工大学华南理工大学珠海现代产业创新研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1