一种基于图像处理的化验单识别方法技术

技术编号：16838082 阅读：80 留言：0更新日期：2017-12-19 20:21

本发明专利技术公开了一种基于图像处理的化验单识别方法，其通过对化验单结构的调查分析，设计了一套能准确分割化验单各区域并进行有效清理的算法，规范并细分了从手机拍摄的化验单照片如何一步步进行处理最后得到清晰的图像，并使用成熟的开源OCR引擎进行识别；在化验单图像处理流程的各个阶段本发明专利技术都做了周全的考虑，优化了性能，提高了图像处理的效率；进行识别后，本发明专利技术利用化验项目信息数据库建立的化验单项目词库实现了对识别引擎模式自动选择和对识别结果智能纠错，提高化验单识别结果的准确性。

A method of identification based on image processing

The invention discloses a single recognition image processing method based on the analysis, through the investigation and Analysis on the test structure, a set of accurate segmentation tests each region and effective cleaning algorithm design, specification and segmentation from a mobile phone to shoot a single laboratory photo processing step by step how to finally get a clear image, and is used to identify mature open source OCR engine; in each stage of single laboratory image processing process of the invention is to do comprehensive consideration, the performance optimization, improve the efficiency of image processing; identification, the invention uses the laboratory project information database test project to realize the automatic selection and Thesaurus of intelligence the identification results of error correcting recognition engine model, improve the accuracy of laboratory identification results.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图像处理的化验单识别方法
本专利技术属于医疗OCR
，具体涉及一种基于图像处理的化验单识别方法。
技术介绍
OCR(OpticalCharacterRecognition，光学字符识别)是指对文本资料的图像文件进行分析识别处理，获取文字及版面特征信息的过程；它是利用光学技术和计算机技术把图像中的文字读取出来，并转换成一种计算机能够理解的格式；OCR技术是实现文字高速录入的一项关键技术。中国在OCR技术方面的研究工作相对起步较晚，在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究，20世纪70年代末开始进行汉字识别的研究。从20世纪70年代开始，光学字符识别技术就已经广泛地应用于应用在新闻、印刷、出版、图书馆、办公自动化等各个行业，大大提高了表格文档的处理效率和准确度，节省了人力物力和财力。目前印刷体OCR的识别技术已经达到较高水平，对印刷体汉字的识别率达到98％以上，即使对印刷质量较差的文字其识别率也达到95％以上。随着智能手机的普及，和手机应用的生态环境不断发展，OCR技术也被应用到手机应用中，例如文档识别、银行卡识别、票据识别、名片...
一种基于图像处理的化验单识别方法

【技术保护点】
一种基于图像处理的化验单识别方法，包括如下步骤：(1)对手机拍摄的化验单照片进行边缘识别，得到化验单的四边形轮廓；(2)基于四边形轮廓通过透视变换对化验单照片进行裁剪矫正，得到化验单图像；(3)基于概率霍夫变换对化验单图像进行倾斜矫正；(4)提取矫正后化验单图像中的分割线，并根据分割线将化验单图像分割成上中下三块区域，分别对应病人信息、化验项目信息、医生及校验审核信息；(5)根据行列信息对矫正后化验单图像中的化验项目信息区域进一步分割，并对分割后的化验单图像进行二值化处理；(6)开源OCR引擎Tesseract中的LSTM模型对分割后的的二值化图像进行分类识别以及智能纠错。

【技术特征摘要】
1.一种基于图像处理的化验单识别方法，包括如下步骤：(1)对手机拍摄的化验单照片进行边缘识别，得到化验单的四边形轮廓；(2)基于四边形轮廓通过透视变换对化验单照片进行裁剪矫正，得到化验单图像；(3)基于概率霍夫变换对化验单图像进行倾斜矫正；(4)提取矫正后化验单图像中的分割线，并根据分割线将化验单图像分割成上中下三块区域，分别对应病人信息、化验项目信息、医生及校验审核信息；(5)根据行列信息对矫正后化验单图像中的化验项目信息区域进一步分割，并对分割后的化验单图像进行二值化处理；(6)开源OCR引擎Tesseract中的LSTM模型对分割后的的二值化图像进行分类识别以及智能纠错。2.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(1)中对化验单图像进行边缘识别的具体过程如下：1.1对化验单照片进行重采样得到其缩略图；1.2对缩略图进行预处理，依次包括膨胀处理、基于结构化森林的快速边缘检测、腐蚀处理以及二值化处理，从而得到边缘信息图像；1.3采用霍夫变换对边缘信息图像进行直线检测，同时引入基于局部最大值和自适应阈值进行直线筛选并合并相近的直线；1.4采用向量法计算出直线间的交点，通过遍历交点四元组找到所有由直线围成的四边形，取四条边权重和最大的四边形作为化验单的四边形轮廓；所述权重为边所在直线上点的数量。3.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(3)中基于概率霍夫变换对化验单图像进行倾斜矫正的具体过程如下：3.1将化验单图像缩放至宽度为1200大小；3.2将缩放后的化验单图像转换为灰度图并进行光照修正和二值化处理，即通过均值滤波前后图像相减并增加均值偏移的方法实现光照分布的修正，再使用对比度受限的自适应直方图均衡化方法增强图像的对比度，最后对图像进行二值化处理；3.3对二值化图像进行腐蚀操作，并采用Canny算子提取腐蚀后二值化图像的边缘像素，得到对应的边缘信息图像；3.4基于概率霍夫变换对边缘信息图像进行直线检测，根据所有直线倾斜角的平均值对化验单图像进行倾斜矫正。4.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(4)中采用LSD线段检测算法提取矫正后化验单图像中的分割线。5.根据权利要求1所述的化验单识别方法，其特征在于：所述步骤(5)的具体实现过程如下：5.1对矫正后的化验单图像进行缩放，得到对应的缩小图像并做二值化处理；5.2统计二值化图像中化验项目信息区域每一行黑色像素的个数，统计结果会呈现高峰和...

【专利技术属性】
技术研发人员：尹建伟，岑超，赵景晨，邓水光，李莹，吴健，吴朝晖，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人