一种基于卷积神经网络的竖排版繁体中文识别方法技术

技术编号:22076684 阅读:60 留言:0更新日期:2019-09-12 14:28
本发明专利技术公开了一种基于卷积神经网络的竖排版繁体中文识别方法,属于深度学习技术领域。本发明专利技术先将一页竖排版繁体字图片灰度化处理,接着将灰度图图片二值化化处理,经过多次膨胀处理,将图像白色部分文字膨胀,寻找单个文字位置信息,再对定位的单个文字位置信息进行过滤处理,将过滤后的单个文字位置信息按照相对位置进行排序,最后按顺序将单个文字位置信息转化成单个文字图片,通过卷积神经网络将输入的单个文字图片逐个进行识别,最终输出一页竖排版繁体字图片文本信息。本发明专利技术将古书籍扫描成电子图像,将竖排版的繁体中文图像输入即可得到对应文本信息,再通过人工勘误即可完成对古书籍的录入工作,大大节省了人力成本,提高了录入效率。

A Vertical Typography Traditional Chinese Language Recognition Method Based on Convolutional Neural Network

【技术实现步骤摘要】
一种基于卷积神经网络的竖排版繁体中文识别方法
本专利技术属于深度学习
,具体涉及一种基于卷积神经网络的竖排版繁体中文识别方法。
技术介绍
随着深度学习近些年来开始流行,深度学习中的神经网络技术也大量应用于生活生产中。文字图像识别技术很早就有人开始研究,李敬兆,张智俊在专利(CN107766899A--安徽理工大学--一种识别繁体字并学习的方法及装置)中提出了一种通过字库比对的方法识别繁体字的方法,胡东方在专利(CN106372634A--无锡天脉聚源传媒科技有限公司--一种繁体字的识别方法及装置)中提出了一种通过笔画像素匹配识别繁体字的方法。上述两种识别方法分别通过对比数据库和图像像素值实现对繁体字的识别。如今文字图像识别主要用于应用范围较广的简体中文,但在繁体中文领域研究较少。尤其在中国古典书籍录入中,将竖排版的繁体中文录入成电子版文字信息往往需要消耗大量的人力资源,且录入人员还需要很高的繁体字知识功底。
技术实现思路
本专利技术针对现有技术的不足,提供了一种基于卷积神经网络的竖排版繁体中文识别的方法。本专利技术通过卷积神经网络实现对繁体字的识别,无需复杂的识别过程和前期准备。本本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的竖排版繁体中文识别方法,其特征在于,该方法具体包括以下步骤:S1:对含有竖排版繁体字的图片进行灰度化处理,将图片由3通道RGB彩色图转换为1通道灰度图;图片单个像素用0至255的数值表示;S2:将S1中得到的灰度图图片二值化处理,图片单个像素由0或255表示,呈现出非黑即白色彩;S3:对S2中得到的二值化图片进行多次膨胀处理,每次膨胀处理需遍历图片的每一个像素,并以当前像素为中心选取周围一定区域内所有像素的最大值,用这个最大值替换当前像素值;多次膨胀处理后,使图片中的单个繁体字的笔画像素连通成为整体;S4:从S3中多次膨胀处理后的二值化图片中得到单个文字的位置信息列表...

【技术特征摘要】
1.一种基于卷积神经网络的竖排版繁体中文识别方法,其特征在于,该方法具体包括以下步骤:S1:对含有竖排版繁体字的图片进行灰度化处理,将图片由3通道RGB彩色图转换为1通道灰度图;图片单个像素用0至255的数值表示;S2:将S1中得到的灰度图图片二值化处理,图片单个像素由0或255表示,呈现出非黑即白色彩;S3:对S2中得到的二值化图片进行多次膨胀处理,每次膨胀处理需遍历图片的每一个像素,并以当前像素为中心选取周围一定区域内所有像素的最大值,用这个最大值替换当前像素值;多次膨胀处理后,使图片中的单个繁体字的笔画像素连通成为整体;S4:从S3中多次膨胀处理后的二值化图片中得到单个文字的位置信息列表,每个列表元素包含(x,y,w,h),(x,y)为单个文字的位置坐标,(w,h)为单个文字的宽和高;S5:针对S4中得到的单个文字的位置信息列表,根据繁体字基本形状、图片大小、图片中的文字数目,确定图片中的文字形状大小以及长宽比例范围,删除偏离该范围的列表元素,从而实现对单个文字位置信息列表的过滤处理;S6:将过滤后的单个文字位置信息按照相对位置进行排序,将图片中的文字按照行文顺序排序;排序过程中,首先按照单个文字位置的横坐标x值进行聚类;然后每个类中按照文字的纵坐标y值与竖排版行文顺序的对应关系重新排序;最后将每一类排序后的文字作为一个整体,按照文字的横坐标x值与竖排版行文顺序的对应关系重新排序;S7:基于S6中排序后的文字,顺次根据单个文字的位置信息从图片中获取单个文字图片,然后利用训练好的卷积神经网络对输入的单个文字图片逐个进行识别,最终输出竖排版繁体字图片的文本信息。2.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法,其特征在于:所述的步骤S1中,按下列公式对图片中的RGB三分量进行加权平均,得到1通道灰度图:Gray(i,j)=0.299R(i,j)+0.578G(i,j)+0.114B(i,j)其中,Gray(i,j)表示在坐标(i,j)处的灰度像素值,R(i,j),G(i,j),B(i,j)分别表示原始RGB彩色图像在坐标(i,j)处的红色通道,绿色通道,蓝色通道的像素值。3.根据权利要求1所述的基于卷积神经网络的竖排版繁体中文识别方法,其特征在于:所述的步骤S3中,每一次膨胀处理时,对于任一当前像素(i,j),按照下列公式进行像素值更新:T(i,j)=max(g(a,b)),a∈(i-t,i+t),b∈(j-t,...

【专利技术属性】
技术研发人员:李万清魏志浩刘俊唐莹袁友伟鄢腊梅
申请(专利权)人:绍兴数鸿科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1