一种复杂图像文字识别系统技术方案

技术编号:13113102 阅读:64 留言:0更新日期:2016-04-01 09:03
本发明专利技术涉及图像识别领域,特别涉及一种复杂图像文字识别系统;本系统针对图像表格这种复杂的文本图片的结构特征,从先检测和切分单元格到单元格内容的切分和识别,将复杂的结构逐层分解,达到了化繁为简的识别效果;并且为了提高识别的准确率,本发明专利技术系统采用贝叶斯分类器对投影法找出的文字块切分位置进行优化,避免左右结构的汉字因为中间的间隙而被切分成两部分,使得文字块的切分完整准确,而且本发明专利技术系统还采用神经网络分类器对切分出来的文字块进行自动识别,识别效率高,识别结果准确;总之本发明专利技术使得复杂的图像文字的识别得以快速的实现,系统结构完整,识别效率高,在图像文字识别,信息挖掘,信息分析领域具有巨大的应用前景。

【技术实现步骤摘要】

本专利技术设及图像识别领域,特别设及一种复杂图像文字识别系统
技术介绍
图像识别技术是目前智能识别
中非常重要的发展方向,图像识别的发展 经历了Ξ个阶段:文字识别、数字图像处理与识别、物体识别;其中在众多的图像识别技术 中,对图像文字的识别技术显得尤为重要,运是因为图像文字往往比单纯图像包含更加重 要的可利用信息,文字识别一般是识别字母、数字和符号,从印刷文字识别到手写文字识 另IJ,应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前, 在图像识别的发展中,主要有Ξ种识别方法:统计模式识别、结构模式识别、模糊模式识别。 随着图像文字的深入发展,越来越多的种类的图像文字资料,被纳入图像文字识 别的范畴中,其中表格作为文字数据记录汇总最精简表达方式,或者数据统计、结果分析中 最常用的表达格式,是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言 而喻。不难看出对于表格式图像文字识别的重要性,比如对一个企业年度业绩报表,可能包 含企业年度业绩中最重要的统计数据和分析结果,运些信息的重要性和概括性是其他任何 材料所比拟不了的,目前的网络信息中充斥着各种表格资料,但是很多表格都是W图片的 形式提供,比如各种扫描档案文件、PDF文件,自动识别运些图像表格资料,将图片类型的表 格内容还原成数字资料是将运些资料进行快速处理和分析的基础。 表格的结构复杂内容丰富,而且相比于文档图片,对表格图片的识别的准率要求 很高,但是由于表格资料本身复杂的结构特征,使得表格图像文字的识别比一般的普通图 像文字资料更加困难,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符 串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而 进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到 两个文字之间的分界线,根据分界线将文字切分开来。由于表格的框线的存在,直接使用传 统的投影发所实现的文字切分和识别就不太现实。同时由于表格本身结构的复杂多变,复 杂多变的轮廓框线使得投影法难W实现将表格文字信息的切分和识别。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种复杂图像文字识 别系统,能够快速准确的检测出复杂结构的图像表格中的单元格;并在此基础上快速完整 的将复杂的图像表格中的文字信息切分识别出来。本专利技术系统首先检测出待识别图像表格 中的单元格轮廓;根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分 出来;在此基础上文字切分模块利用投影法找出单元格内容中文字块的切分位置,并利用 贝叶斯分类器对切分位置进行优化,进而将文字块依次切分出来;切分出来的文字块输入 到文字识别模块中,识别出对应的文字内容。本系统针对图像表格运种复杂的文本图片的 结构特征点,从先检测和切分单元格到单元格内容的切分和识别,将复杂的结构逐层分解, 达到了化繁为简识别效果,使得复杂的图像文字的识别得w快速的实现,系统结构完整,识 别效率高。 为了实现上述专利技术目的,本专利技术提供W下技术方案: -种复杂图像文字识别系统,包含图像输入模块,单元格检测模块,单元格切分模 块,文字切分模块W及文字识别模块; 其中,图像输入模块将待识别的图像表格输入到所述单元格检测模块中,所述单 元格检测模块将待识别图像表格中的单元格轮廓检测出来,并输入到所述单元格切分模块 中; 所述单元格切分模块将待识别图像表格中的各个单元格内容切分出来,形成对应 的子图片; 所述文字切分块模块将输入其中的所述子图片切分成待识别的文字块; 所述文字块输入到所述文字识别模块中完成对应内容的识别。 具体的,本复杂图像文字识别系统中,所述单元格检测模块使用openCV图像处理 工具中的f indcontours函数来检测出图像表格单元格轮廓。所述单元格切分模块通过调用minAreaRect函数,构建出包含单元格轮廓点集的 面积最小的旋转矩形区域,并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶 点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片。 进一步的,所述文字切分模块,包括备用切分点检测模块和贝叶斯分类器模块;所 述备用切分点检测模块与所述贝叶斯分类器模块相连,所述贝叶斯分类器的分类类别包 括:文字部件,数字、字母,标点符号。 所述备用切分点检测模块通过投影法检测出子图片中文字块的左右两侧备用切 分位置,并将检测结果输入到所述贝叶斯分类器模块中,所述贝叶斯分类器模块对文字块 左右备用切分点之间内容的类别进行判断,将属于文字部件的相邻左右两个文字块作为一 个文字块切分出来。 所述备用切分点检测模块对子图片进行侧向投影,通过公式:计算 出一行的非0像素的个数,并将该值放到pr〇jection_y类中,其中i是行数,j是列数,pix(i, j)是对应像素值,η是最后一列的坐标值;对pro^'6(:1:;1_7类中的元素进行遍历;如果 pro jection_y =0,p;ro jection_y >0 ipro jection_y >0,则判断k为某一行 的起始切分点,并将其放到类vectoKintHop中;如果p;rojection_y =0,p;rojection_y 比-1]>0,91'〇^'6(:1:;1_7比-2]>0,则判断1^为某一行的终点切分点,并将其放到类¥6(31:〇1'< int〉bottom中;基于类top和bottom中的元素值将单元格中的文字行向切分出来。 所述备用切分点检测模块对于切分出来的每一行的文字图像进行垂直投影,采用 公式计算出一列的非0像素的个数,并将该值放到projection_x类中,其 中j是列数,i是行数,pix(i,j)是对应像素值,m是最后一行的坐标值;对p;rojection_x类中 的元素进行遍历;女曰果 pro jection_x = 0,pro jection_x >0,pro jection_x >0,则判断k为某一文字块的起始切分点,并将其放到类vecto;r<int〉left中;如果 pro jection_x = 0,p;ro jection_x >0 ipro jection_x >0,则判断k为某一文 字块的终点切分点,并将其放到类vectoKinOright中;类left和ri曲t中的元素值为单文 字的备用切分位置。 所述贝叶斯分类器在给定的第一备用左侧切分点坐标后,判断所述第一备用左侧 切分点与第一备用右侧切分点之间的内容是否是文字部件,如果不是文字部件,则认为该 内容是数字、字母或标点,直接将其切分出来; 如果是文字部件,则继续判断第二备用左侧切分点与第二备用右侧切分点之间的 内容是否是文字部件,如果是文字部件,则将第一备用左侧切分点和第二备用右侧切分点 之间的内容切分出来。 进一步的,所述贝叶斯分类器实现分类的过程包括:对待识别内容提取特征值; 将特征值输入所述贝叶斯分类器中,计算该特征值属于各类别的概率; 将待识别内容各特征值属于该类的概率相乘,得到该内容属于该类的概率; 选择概最大的概率值对应的类别,作为该本文档来自技高网
...

【技术保护点】
一种复杂图像文字识别系统,其特征在于:包含图像输入模块,单元格检测模块,单元格切分模块,文字切分模块以及文字识别模块;其中,图像输入模块将待识别的图像表格输入到所述单元格检测模块中,所述单元格检测模块将待识别图像表格中的单元格轮廓检测出来,并输入到所述单元格切分模块中;所述单元格切分模块将待识别图像表格中的各个单元格内容切分出来,形成对应的子图片;所述文字切分块模块将输入其中的所述子图片切分成待识别的文字块;所述文字块输入到所述文字识别模块中完成对应内容的识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈炳章何宏靖刘世林吴雨浓
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1