The invention discloses a text detection and recognition method for Chinese historical document intensive text, which includes steps: (1) data acquisition: collecting historical document images for manual labeling; (2) data preprocessing: vertical projection of historical document images for column segmentation, vertical text in historical documents for column segmentation; (3) constructing and pre-training a convolution of single line text recognition. (4) Constructing a convolution neural network for text detection of single line text, sharing shallow parameters with convolution neural network for single line text recognition, and training at the same time; using the text information provided by convolution neural network for text recognition, the convolution neural network for text detection fine-tunes the location of detection to achieve accurate detection of dense text in historical documents. Single text location. The invention adopts convolutional neural network to realize text recognition, and makes full use of the guidance information of the text recognition classifier, so that the detection effect can be more accurate.
【技术实现步骤摘要】
一种用于中文历史文献密集文本的文字检测识别方法
本专利技术涉及模式识别和人工智能
,尤其涉及一种用于中文历史文献密集文本的文字检测识别方法。
技术介绍
大量的历史文献是过去的文明留下来的珍贵遗产,解读和保护这些历史文献最有效的方法就是将它们电子化,包括将其中的文字和符号识别并保存下来。近年来,深度学习算法在计算机视觉领域取得了一系列突破性的进展,通用的物体检测算法和场景文本检测算法都有很大的提升,然而,对于中文历史文献中密集的文本,通用的物体检测算法和场景文本检测框架效果并不太理想,而检测的效果又影响了进一步对历史文献进行文字识别,因此,对历史文献中的密集文本进行精确的检测,对将历史文献进行电子化具有重大的意义。
技术实现思路
本专利技术的目的在于克服现有技术中的缺点与不足,提供一种用于中文历史文献密集文本的文字检测识别方法,减少网络的参数量,同时使检测的效果更加有效。为实现以上目的,本专利技术采取如下技术方案:一种用于中文历史文献密集文本的文字检测识别方法,包括下述步骤:S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网 ...
【技术保护点】
1.一种用于中文历史文献密集文本的文字检测识别方法,其特征在于,包括下述步骤:S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。
【技术特征摘要】
1.一种用于中文历史文献密集文本的文字检测识别方法,其特征在于,包括下述步骤:S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。2.如权利要求1所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S1具体包括下述步骤:S11、通过文档扫描或相机拍照的方式获取原始的历史文献图片;S12、通过人工标注的方式,将步骤S11中收集得到的原始历史文献图片中的文本位置与文本信息标注出来,具体的方式是:在原始的历史文献图片中用文本框将单个文字框出来,并将对应的文本文字输入记录,形成标签数据集。3.如权利要求2所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S2具体包括下述步骤:S21、根据需要处理的文本特点对步骤S1采集的历史文献图片使用投影法进行列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;具体如下:由于输入的历史文献图片中竖直文本为列格式,故利用垂直投影,即计算每一个像素列上的像素总和,通过寻找所述历史文献图片中列的分界点,来进行列切分,形成图片数据集;将图片按像素投影到x轴,定义分割临界值c,c由公式(1)计算可得,其中,cavg是平均像素值,dmin是当前历史文献图片的最小像素值,a和b是经验参数;w为垂直投影与分割临界值c的水平线相交的宽度,为垂直投影与平均像素值cavg的水平线相交的宽度,当w满足式(2)时,将当前历史文献图片按分割临界值c分割为列图片;式中,γ、δ为自适应参数;表示对求平均值。4.如权利要求3所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S3具体包括下述步骤:S31、构建用于识别单行文本的识别卷积神经网络,该网络包括十七层结构,第一层为输入层,首先将输入该层的历史文献图片预处理为1000*100大小的列图片;第二层、第四层、第六层为对历史文献图片进行浅层特征提取的卷积层,通道数分别为16、32、64,卷积核大小均为3*3,步长均为1*1;第三层、第五层、第七层为池化层,核大小均为2*2,步长均为2*2;第八层、第十层、第十二层为深层特征提取的卷积层,通道数分别为128、256、512,卷积核大小分别为3*3、3*3、3*1,步长分别为1*1、1*1、3*1;第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;第十三层为批归一化处理层;第十四层为转置层,对矩阵进行转置操作;第十五层、第十六层为全连接层,表示对前一层得到的特征按照不同的权重进行学习;第十七层为解码处理层;所述解码处理层的输入维度为N*1,其中N表示要进行识别的字的类别数加一个额外的“空白”类别;所述解码处理层的输出中每个“时间点”对应一个字符,通过计算可找到这个字符在输入图片中对应的位置,即对应的感受野;假设ri表示当前“时间点”在第i个卷积层所对应的区域大小,(xi,yi)表示在第i个卷积层对应区域的中心位置,具体通过以下公式计算:ri=(ri+1-1)×Si+Ki(3)其中,ri+1为当前“时间点”在第i+1个卷积层所对应的区域大小,(xi+1,yi+1)表示在第i+1个卷积层所述对应区域的中心位置,K...
【专利技术属性】
技术研发人员:黄伟国,金连文,杨海林,
申请(专利权)人:华南理工大学,华南理工大学珠海现代产业创新研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。