从医疗化验单图像中提取化验结果信息的方法技术

技术编号:14705788 阅读:86 留言:0更新日期:2017-02-25 11:32
本发明专利技术提供了一种从医疗化验单图像中提取化验结果信息的方法。该方法主要包括:基于医疗化验单的表格特点,从医疗化验单的原始图像中提取出所述医疗化验单的表格区域;采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离,提取出需要的信息栏;从所述信息栏中分割出文本行;采用垂直投影方法对所述文本行进行分割,得到字符块,从所述字符块中提取出化验字符信息。本发明专利技术通过从医疗化验单数字图像中分割出表格区域,继而在表格区域中提取出有用的化验字符信息,可以有效地对医疗化验单图像进行化验信息识别。本发明专利技术的方法简单有效,可操作性强,特别适用于在PAD和手机等移动终端实施。

【技术实现步骤摘要】

本专利技术涉及字符识别
,尤其涉及一种从医疗化验单图像中提取化验结果信息的方法
技术介绍
医疗化验单是医生对患者病情做出诊断,观察患者健康状况的重要依据。然而在现有医疗体系下,患者的健康信息并没有建立起有效的共享流通机制,每当患者转院往往需要进行一些重复的化验检查,甚至在一些常规性的检查中,患者也要不断经历排队、挂号、等待的阵痛。如何节省患者就诊的时间开销,如何为患者建立可以有效流通的健康信息,从医疗化验单——这一患者最容易接触到的纸质健康数据入手,是一种值得尝试的探索。从纸质医疗化验单中提取信息主要用到了OCR(OpticalCharacterRecognition,光学字符识别)的相关技术。最初的OCR应用要追溯到1914年,EmanuelGoldberg(俄国)专利技术了一种可以读取字符,并将其转化为标准电报编码的机器。从19世纪初到现在,OCR随着相关技术的发展,已经形成了一些通用的操作流程,如预处理操作、字符识别及后处理过程,其中如何准确获取到单个字符的图像块(以下简称字符块)是一个难点。针对不同的具体任务,我们需要将整个过程具体化,方法明确化。国外对OCR的研究工作起步较早,且英文字符有着总量少、单个字母笔画连通、结构简单等特点,这些特点都有助与对文本的定位进而提取字符块,所以英文字符的识别有着较为成熟的技术。与之相比,中文汉字由象形文字发展而来,结构繁杂,字体变化多样,笔画间并不连通,且汉字中有大量的形近字,这都为字符块的提取以及之后的识别工作带来了相当大困难。国内对汉字识别的研究始于70年代末,虽然起步较晚,但是在国内外众多学者的努力下,汉字识别的准确率已达到95%以上。但是仅仅有识别的准确率还不够,想要在实际中应用汉字识别技术,必须得从复杂的文本图片中提取出字符块,这就需要我们进行版面分析。版面分析是OCR中很重要的一环,几乎所有的OCR技术都需要我们将图片中的文本转变成文本行或者字符块之后再进行识别,但是现实中的文本图片常常排版复杂、文本与图像交错。对于版面分析的研究,国内外的学者都做了大量的研究工作,提出了一些用于版面分析的模型,如清华大学丁晓青教授团队提出的基于多层次基元的版面分析模型,然而这些模型或过于复杂,或通用性不强。
技术实现思路
本专利技术的实施例提供了一种从医疗化验单图像中提取化验结果信息的方法,以实现有效地对医疗化验单图像进行化验信息识别。为了实现上述目的,本专利技术采取了如下技术方案。一种从医疗化验单图像中提取化验结果信息的方法,包括:基于医疗化验单的表格特点,从医疗化验单的原始图像中提取出所述医疗化验单的表格区域;采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离,提取出需要的信息栏;从所述信息栏中分割出文本行;采用垂直投影方法对所述文本行进行分割,得到字符块,从所述字符块中提取出化验字符信息。进一步地,根据权利要求1所述的从医疗化验单图像中提取化验结果信息的方法,其特征在于,所述的基于医疗化验单的表格特点,从医疗化验单的原始图像中提取出所述医疗化验单的表格区域,包括:对医疗化验单的原始图像Image进行归一化处理,归一化处理后的图像为ImageNorm;对所述图像ImageNorm依据以下公式(2)筛选直线:其中,L表示直线的长度,以像素为单位,k表示直线的斜率,K表示当前所筛选出来的直线的斜率均值,初始值为0,对所有直线进行筛选之后,K的值即为所有符合条件直线的斜率均值,根据所述K值计算出所述医疗化验单主方向的倾斜角度,并根据所述倾斜角度对所述图像ImageNorm做旋转矫正;对进行过旋转矫正的图像ImageNorm再依据以下公式(3)筛选直线:其中,L表示直线的长度,以像素为单位,θ为直线的倾斜角度,单位为度,当筛选出的两条直线之间的距离小于设定数值,则将所述两条直线合并,计算出每条直线两个端点纵坐标的均值,将该均值作为直线的高度信息,选取高度相差最大的两条直线,该两条直线即为表格的底线与表头的第二条直线,分别记为L_bottom,L_middle,选取位于L_middle上方且与之相距最近的直线为表头的顶部直线,记为L_top,在图像Image上分割出L_top于L_bottom之间的区域,即得到化验单的表格区域Image_body。进一步地,所述的方法还包括:将所述化验单的表格区域Image_body分为6×4共24个区域,对每个区域进行灰度直方图统计,并归一化,使用Yen算法选择阈值,最后将灰度值大于阈值的像素点的灰度值全部设置为255,得到对比度增强处理后的所述化验单的表格区域Image_body。进一步地,所述的采用垂直投影方法对所述化验单的表格区域中的各个栏进行分离,提取出需要的信息栏,包括:对所述化验单的表格区域Image_body进行归一化处理,得到归一化处理后的图像ImageNorm_body,对图像ImageNorm_body所有像素的灰度值进行直方图统计,并根据Yen算法选出的阈值对图像ImageNorm_body进行二值化处理,对二值化之后的ImageNorm_body使用Size(8,2)的结构元素进行腐蚀处理;取腐蚀处理后的图像ImageNorm_body位于垂直方向的上半部ImageNorm_body_half用作接下来的投影分析,按如下式子(5)计算ImageNorm_body_half特征值featureColi:其中,featureColi表示第i列的特征值,meanColi和stdDevColi分别表示第i列均值与标准差,求出所有特征值的均值meanCols与标准差stdDevCols,并按下式(6)计算阈值:threshold=meanCols+0.5×stdDevCols(6)将特征值小于阈值的列作为表格中的信息栏,利用字符识别程序识别各个信息栏的表头文字,抽取出需要的信息栏。进一步地,所述的从所述信息栏中分割出文本行,包括:采用MSER方法对所述信息栏进行文字检测,再将检测到的文字区域合并成块,并合并成行,使用矩形框从合并后的文字区域中截取出文本行。进一步地,所述的采用垂直投影方法对所述文本行进行分割,得到字符块,从所述字符块中提取出化验字符信息,包括:采用垂直投影的方法对所述文本行进行字符分割,设当前的文本行为MatLine,先按下式求得MatLine的特征值:其中featureLineColi表示第i列的特征值,meanLineColi和stdDevLineColi分别表示第i列均值与标准差,按照如下公式(8)、(9)求得特征值的阈值:从特征值的第6个值开始,逐个遍历特征值,并计算maxDiff=max(maxDiff,|featureLineColi-featureLineColi-5|)(8)其中maxDiff的初始值为0,若maxDiff的值发生更新,则按照下式更新阈值:将特征值小于阈值thresholdLine的列作为文本行中字符所在的位置,根据所述字符所在的位置将字符块从文本行中分割出来,从所述字符块中提取出化验字符信息。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例通过从医疗化验单数字图像中分割出表格区域,继而在表格区域中提取出有用的化验字符信息,可以有效地对医疗化验单图本文档来自技高网
...
从医疗化验单图像中提取化验结果信息的方法

【技术保护点】
一种从医疗化验单图像中提取化验结果信息的方法,其特征在于,包括:基于医疗化验单的表格特点,从医疗化验单的原始图像中提取出所述医疗化验单的表格区域;采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离,提取出需要的信息栏;从所述信息栏中分割出文本行;采用垂直投影方法对所述文本行进行分割,得到字符块,从所述字符块中提取出化验字符信息。

【技术特征摘要】
1.一种从医疗化验单图像中提取化验结果信息的方法,其特征在于,包括:基于医疗化验单的表格特点,从医疗化验单的原始图像中提取出所述医疗化验单的表格区域;采用垂直投影方法对所述医疗化验单的表格区域中的各个栏进行分离,提取出需要的信息栏;从所述信息栏中分割出文本行;采用垂直投影方法对所述文本行进行分割,得到字符块,从所述字符块中提取出化验字符信息。2.根据权利要求1所述的从医疗化验单图像中提取化验结果信息的方法,其特征在于,所述的基于医疗化验单的表格特点,从医疗化验单的原始图像中提取出所述医疗化验单的表格区域,包括:对医疗化验单的原始图像Image进行归一化处理,归一化处理后的图像为ImageNorm;对所述图像ImageNorm依据以下公式(2)筛选直线:其中,L表示直线的长度,以像素为单位,k表示直线的斜率,K表示当前所筛选出来的直线的斜率均值,初始值为0,对所有直线进行筛选之后,K的值即为所有符合条件直线的斜率均值,根据所述K值计算出所述医疗化验单主方向的倾斜角度,并根据所述倾斜角度对所述图像ImageNorm做旋转矫正;对进行过旋转矫正的图像ImageNorm再依据以下公式(3)筛选直线:其中,L表示直线的长度,以像素为单位,θ为直线的倾斜角度,单位为度,当筛选出的两条直线之间的距离小于设定数值,则将所述两条直线合并,计算出每条直线两个端点纵坐标的均值,将该均值作为直线的高度信息,选取高度相差最大的两条直线,该两条直线即为表格的底线与表头的第二条直线,分别记为L_bottom,L_middle,选取位于L_middle上方且与之相距最近的直线为表头的顶部直线,记为L_top,在图像Image上分割出L_top于L_bottom之间的区域,即得到化验单的表格区域Image_body。3.根据权利要求1所述的从医疗化验单图像中提取化验结果信息的方法,其特征在于,所述的方法还包括:将所述化验单的表格区域Image_body分为6×4共24个区域,对每个区域进行灰度直方图统计,并归一化,使用Yen算法选择阈值,最后将灰度值大于阈值的像素点的灰度值全部设置为255,得到对比度增强处理后的所述化验单的表格区域Image_body。4.根据权利要求2或3所述的从医疗化验单图像中提取化验结果信息的方法,其特征在于,所述的采用垂直投影方法对所述化验单的表格区域中的各个栏进行分离,提取出需要的信息栏,包括:对所述化验单...

【专利技术属性】
技术研发人员:李清勇薛文元张振
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1