用于医学报告单的符号识别方法及系统技术方案

技术编号:12228045 阅读:100 留言:0更新日期:2015-10-22 04:10
本发明专利技术涉及一种用于医学报告单的符号识别方法及系统,其中该符号识别方法包括:根据不同符号的特征构造训练样本训练分类器;从医学报告单图片中前景图像上采集不同符号,获得不同符号的特征以构造符号模板;利用训练好的分类器识别与检测符号模板,用于得到医学报告单中的异常指标,并确定其所在区域。本发明专利技术可以解析医学报告单中的特殊符号,提高识别和解析效率。

【技术实现步骤摘要】

本专利技术涉及图像识别
,尤其涉及一种用于医学报告单的符号识别方法及 系统。
技术介绍
随着文本排版格式的复杂化以及文本中出现的特殊字符多样化,使得处理图像中 的文本越来越困难。目前,〇CR(OpticalCharacterRecognition,光学字符识别)系统对 大多数文本都有较高的识别率,得到广泛的应用。 医学领域中的化验单是对患者进行治疗的重要依据,也可能是医疗保险理赔、伤 残事故鉴定以及医疗纠纷等情况的法律依据。因此,对化验单的自动高效地解析具有较高 的现实意义。但是医学报告单中常用特殊符号来标识异常指标,例如加号、减号、大于等于 号、小于等于号、箭头等。此时,OCR系统的识别准确率不尽如人意,在一定程度上影响了化 验单的正确解析。
技术实现思路
本专利技术的其中一个目的在于提供一种用于医学报告单的符号识别方法及系统,用 于提供OCR系统的识别准确率,提高医学报告单解析效率。 第一方面,本专利技术实施例提供了一种用于医学报告单的符号识别方法,包括: 根据不同符号的特征构造训练样本训练分类器; 从医学报告单图片中前景图像上采集不同符号,获得不同符号的特征以构造符号 模板; 利用所述分类器识别与检测符号模板,用于得到医学报告单中的异常指标及位 置。 可选地,所述构造训练样本训练分类器采用逻辑回归方法,包括以下步骤: 构造训练样本; 将所述训练样本进行尺寸归一化,得到相同维数的图像特征; 计算训练样本的图像特征值; 根据所述图像特征值训练所述分类器,获得所述分类器参数。 可选地,从医学报告单图片中前景图像上采集不同符号之前,该方法还包括预处 理步骤,具体包括: 利用霍夫变换方法获得前景图像的顶点坐标,确定所述前景图像的尺度信息; 利用透视变换方法对所述前景图像进行倾斜校正,以获取正投影的所述前景图 像; 利用局部阈值法将所述前景图像分成若干区域,对每个所述区域进行二值化。 可选地,所述从医学报告单图片中前景图像上采集不同符号,还包括确定每行文 本的高度的步骤,包括: 读取所述前景图像中的文本区域,对所述文本进行膨胀和腐蚀得到连通域; 当所述连通域的水平投影能量大于能量预设值时,所述水平投影的位置的最大差 值为每行文本的高度。 可选地,当前景图像上采集的符号为箭头时,包括以下步骤: 根据竖线的特征构造竖线模板; 根据所述竖线模板定位所述前景图像中所有可分离的竖线; 根据所述竖线模板构造箭头模板; 分别构造训练样本,训练学习得到分类器参数; 在可分离的竖线的位置检测箭头位置。 可选地,所述根据竖线的特征构造竖线模板,包括: 当连续线段的上下左右位置的像素值为0,且与符号模板对应位置的匹配程度大 于预设阈值时,标记连续线段为可分离的竖线; 遍历所述前景图像,定位前景图像中所有的可分离的竖线。 可选地,根据所述竖线模板构造箭头模板,包括: 在每个可分离的竖线所在的位置,在与竖线模板大小相同的区域内进行水平投 影; 计算水平投影能量值大于能量预设值的位置的最大差值,得到竖线的线宽。 可选地,所述分类器的函数表达式为: 其中,P(t)为分类结果,t为特征向量的加权和;N为特征的维数,Wi为第i维特征的权重系数,xi为第i维特征的特征值。 第二方面,本专利技术实施例还提供了一种用于医学报告单的符号识别系统,包括: 分类器生成模块,用于根据不同符号的特征构造训练样本训练分类器; 符号模板构造模块,用于从医学报告单图片中前景图像上采集不同符号,获得不 同符号的特征以构造符号模板; 模板匹配模块,利用所述分类器识别与检测符号模板,用于得到医学报告单中的 异常指标及位置。 与现有技术相比,本专利技术不仅弥补了传统OCR对特殊符号识别率低的不足,也适 应了文本的排版格式复杂化和多样化;同时将此识别方法应用于医学领域的医学报告单的 解析中,利用向上或者向下的箭头来描述医学化验单中的某项指标存在偏高或者偏低的情 况,以此来表征异常指标,能够实现快速解析医学报告单,具有极高的应用价值和广阔的发 展前景。【附图说明】 通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理 解为对本专利技术进行任何限制,在附图中: 图1本专利技术实施例中用于医学报告单的符号识别方法流程示意图; 图2是本专利技术实施例中一种摄像机拍摄的医学报告单示意图; 图3是本专利技术实施例中利用霍夫变换和透射变换对图2所示医学报告单校正后得 到的正常图像;图4是本专利技术实施例中标定符号的医学报告单示意图; 图5是本专利技术实施例中所提取的箭头所在行的异常指标示意图; 图6是本专利技术实施例中一种用于医学报告单的符号识别系统框图。【具体实施方式】 为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实 施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施 例及实施例中的特征可以相互组合。 在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可 以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开 的具体实施例的限制。 -方面,本专利技术提出了一种用于医学报告单的符号识别方法,如图1所示,包括: S10、根据不同符号的特征构造训练样本训练分类器; S20、从医学报告单图片中前景图像上采集不同符号,获得不同符号的特征以构造 符号模板; S30、利用所述分类器识别与检测符号模板,用于得到医学报告单中的异常指标及 位置。 可理解的是,本专利技术中医学报告单图片是指将医学报告单放置在某处拍摄的图 片;而前景图像则指医学报告单在图片中的成像。 针对现有技术中OCR系统对文本中特殊符号识别率低的问题,本专利技术实施例所提 供的符号识别方法,根据不同符号训练不同的分类器,然后从医学报告单上采集符号建立 模板,对分类器进行模板匹配。不仅弥补了传统OCR对特殊符号识别率低的不足,同时可以 应用到医学报告单的解析中,从而进行快速解析医学报告单,有利于提高解析效率。 -般情况下,通过扫描仪得到的图像都是正投影,图像没有角度偏差,有利于图像 中的文字识别。而摄像机采集图像时受到各种条件的限制和干扰,所拍摄物体的图片会发 生变形(例如近大远小),需要经过一定的畸变校正处理才能使用,以保证对图像识别时不 出现误差。如图1所示,摄像机拍摄的医学报告单的图片,该图片发生明显的变形,因此需 要对图像进行预处理。 可选地,从医学报告单图片中前景图像上采集不同符号之前,该方法还包括预处 理步骤,具体包括: 利用霍夫变换方法获得前景图像的顶点坐标,确定所述前景图像的尺度信息; 利用局部阈值法将所述前景图像分成若干区域,对每个所述区域进行二值化。 首先,介绍利用霍夫变换方法获得前景图像的顶点坐标,确定所述前景图像的尺 度信息的步骤。 本专利技术利用霍夫变换方法检测医学报告单图片的前景图像边缘,确定前景图像的 大小。根据点与线的对偶性,将输入图片空间给定的曲线表达形式变为参数空间的点,从而 将输入图片中给定曲线的检测问题转化为寻找参数空间中的峰值问题。即将检测整体特征 转化为检测局部特性,这样通过获得前景图像的边缘直线方程,以及直线的交点,即可获得 前景图像的顶点坐标以及前景图像的尺度信息。然后,再分别以宽度和高度的最大值作为 前本文档来自技高网...

【技术保护点】
一种用于医学报告单的符号识别方法,其特征在于,包括:根据不同符号的特征构造训练样本训练分类器;从医学报告单图片中前景图像上采集不同符号,获得不同符号的特征以构造符号模板;利用所述分类器识别与检测符号模板,用于得到医学报告单中的异常指标及位置。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘立温成超吴诗展
申请(专利权)人:北京好运到信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1