从医疗化验单图像中提取化验结果信息的方法技术

技术编号：14705788 阅读：86 留言：0更新日期：2017-02-25 11:32

本发明专利技术提供了一种从医疗化验单图像中提取化验结果信息的方法。该方法主要包括：基于医疗化验单的表格特点，从医疗化验单的原始图像中提取出所述医疗化验单的表格区域；采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离，提取出需要的信息栏；从所述信息栏中分割出文本行；采用垂直投影方法对所述文本行进行分割，得到字符块，从所述字符块中提取出化验字符信息。本发明专利技术通过从医疗化验单数字图像中分割出表格区域，继而在表格区域中提取出有用的化验字符信息，可以有效地对医疗化验单图像进行化验信息识别。本发明专利技术的方法简单有效，可操作性强，特别适用于在PAD和手机等移动终端实施。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及字符识别
，尤其涉及一种从医疗化验单图像中提取化验结果信息的方法。
技术介绍
医疗化验单是医生对患者病情做出诊断，观察患者健康状况的重要依据。然而在现有医疗体系下，患者的健康信息并没有建立起有效的共享流通机制，每当患者转院往往需要进行一些重复的化验检查，甚至在一些常规性的检查中，患者也要不断经历排队、挂号、等待的阵痛。如何节省患者就诊的时间开销，如何为患者建立可以有效流通的健康信息，从医疗化验单——这一患者最容易接触到的纸质健康数据入手，是一种值得尝试的探索。从纸质医疗化验单中提取信息主要用到了OCR(OpticalCharacterRecognition，光学字符识别)的相关技术。最初的OCR应用要追溯到1914年，EmanuelGoldberg(俄国)专利技术了一种可以读取字符，并将其转化为标准电报编码的机器。从19世纪初到现在，OCR随着相关技术的发展，已经形成了一些通用的操作流程，如预处理操作、字符识别及后处理过程，其中如何准确获取到单个字符的图像块(以下简称字符块)是一个难点。针对不同的具体任务，我们需要将整个过程具体化，方法明确化。国外对OCR的研究工作起步较早，且英文字符有着总量少、单个字母笔画连通、结构简单等特点，这些特点都有助与对文本的定位进而提取字符块，所以英文字符的识别有着较为成熟的技术。与之相比，中文汉字由象形文字发展而来，结构繁杂，字体变化多样，笔画间并不连通，且汉字中有大量的形近字，这都为字符块的提取以及之后的识别工作带来了相当大困难。国内对汉字识别的研究始于70年代末，虽然起步较晚，但是在国内外众多学者的...
从医疗化验单图像中提取化验结果信息的方法

【技术保护点】
一种从医疗化验单图像中提取化验结果信息的方法，其特征在于，包括：基于医疗化验单的表格特点，从医疗化验单的原始图像中提取出所述医疗化验单的表格区域；采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离，提取出需要的信息栏；从所述信息栏中分割出文本行；采用垂直投影方法对所述文本行进行分割，得到字符块，从所述字符块中提取出化验字符信息。

【技术特征摘要】
1.一种从医疗化验单图像中提取化验结果信息的方法，其特征在于，包括：基于医疗化验单的表格特点，从医疗化验单的原始图像中提取出所述医疗化验单的表格区域；采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离，提取出需要的信息栏；从所述信息栏中分割出文本行；采用垂直投影方法对所述文本行进行分割，得到字符块，从所述字符块中提取出化验字符信息。2.根据权利要求1所述的从医疗化验单图像中提取化验结果信息的方法，其特征在于，所述的基于医疗化验单的表格特点，从医疗化验单的原始图像中提取出所述医疗化验单的表格区域，包括：对医疗化验单的原始图像Image进行归一化处理，归一化处理后的图像为ImageNorm；对所述图像ImageNorm依据以下公式(2)筛选直线：其中，L表示直线的长度，以像素为单位，k表示直线的斜率，K表示当前所筛选出来的直线的斜率均值，初始值为0，对所有直线进行筛选之后，K的值即为所有符合条件直线的斜率均值，根据所述K值计算出所述医疗化验单主方向的倾斜角度，并根据所述倾斜角度对所述图像ImageNorm做旋转矫正；对进行过旋转矫正的图像ImageNorm再依据以下公式(3)筛选直线：其中，L表示直线的长度，以像素为单位，θ为直线的倾斜角度，单位为度，当筛选出的两条直线之间的距离小于设定数值，则将所述两条直线合并，计算出每条直线两个端点纵坐标的均值，将该均值作为直线的高度信息，选取高度相差最大的两条直线，该两条直线即为表格的底线与表头的第二条直线，分别记为L_bottom，L_middle，选取位于L_middle上方且与之相距最近的直线为表头的顶部直线，记为L_top，在图像Image上分割出L_top于L_bottom之间的区域，即得到化验单的表格区域Image_body。3.根据权利要求1所述的从医疗化验单图像中提取化验结果信息的方法，其特征在于，所述的方法还包括：将所述化验单的表格区域Image_body分为6×4共24个区域，对每个区域进行灰度直方图统计，并归一化，使用Yen算法选择阈值，最后将灰度值大于阈值的像素点的灰度值全部设置为255，得到对比度增强处理后的所述化验单的表格区域Image_body。4.根据权利要求2或3所述的从医疗化验单图像中提取化验结果信息的方法，其特征在于，所述的采用垂直投影方法对所述化验单的表格区域中的各个栏进行分离，提取出需要的信息栏，包括：对所述化验单...

【专利技术属性】
技术研发人员：李清勇，薛文元，张振，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人