一种复杂图像文字识别系统技术方案

技术编号：13113102 阅读：64 留言：0更新日期：2016-04-01 09:03

本发明专利技术涉及图像识别领域，特别涉及一种复杂图像文字识别系统；本系统针对图像表格这种复杂的文本图片的结构特征，从先检测和切分单元格到单元格内容的切分和识别，将复杂的结构逐层分解，达到了化繁为简的识别效果；并且为了提高识别的准确率，本发明专利技术系统采用贝叶斯分类器对投影法找出的文字块切分位置进行优化，避免左右结构的汉字因为中间的间隙而被切分成两部分，使得文字块的切分完整准确，而且本发明专利技术系统还采用神经网络分类器对切分出来的文字块进行自动识别，识别效率高，识别结果准确；总之本发明专利技术使得复杂的图像文字的识别得以快速的实现，系统结构完整，识别效率高，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及图像识别领域，特别设及一种复杂图像文字识别系统。
技术介绍
图像识别技术是目前智能识别
中非常重要的发展方向，图像识别的发展经历了Ξ个阶段:文字识别、数字图像处理与识别、物体识别；其中在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，运是因为图像文字往往比单纯图像包含更加重要的可利用信息，文字识别一般是识别字母、数字和符号，从印刷文字识别到手写文字识另IJ，应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有Ξ种识别方法:统计模式识别、结构模式识别、模糊模式识别。随着图像文字的深入发展，越来越多的种类的图像文字资料，被纳入图像文字识别的范畴中，其中表格作为文字数据记录汇总最精简表达方式，或者数据统计、结果分析中最常用的表达格式，是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性，比如对一个企业年度业绩报表，可能包含企业年度业绩中最重要的统计数据和分析结果，运些信息的重要性和概括性是其他任何材料所比拟不了的，目前的网络信息中充斥着各种表格资料，但是很多表格都是W图片的形式提供，比如各种扫描档案文件、PDF文件，自动识别运些图像表格资料，将图片类型的表格内容还原成数字资料是将运些资料进行快速处理和分析的基础。表格的结构复杂内容丰富，而且相比于文档图片，对表格图片的识别的准率要求很高，但是由于表格资料本身复杂的结构特征，使得表格图像文字的识别比一般的普通图像文字资料更加困难，现有技术中在...

【技术保护点】
一种复杂图像文字识别系统，其特征在于：包含图像输入模块，单元格检测模块，单元格切分模块，文字切分模块以及文字识别模块；其中，图像输入模块将待识别的图像表格输入到所述单元格检测模块中，所述单元格检测模块将待识别图像表格中的单元格轮廓检测出来，并输入到所述单元格切分模块中；所述单元格切分模块将待识别图像表格中的各个单元格内容切分出来，形成对应的子图片；所述文字切分块模块将输入其中的所述子图片切分成待识别的文字块；所述文字块输入到所述文字识别模块中完成对应内容的识别。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈炳章，何宏靖，刘世林，吴雨浓，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人