一种化验单据的识别方法技术

技术编号:35565608 阅读:16 留言:0更新日期:2022-11-12 15:49
本发明专利技术涉及文字图像处理技术领域,具体涉及一种化验单据的识别方法,包括:步骤S1:针对一化验单据,采集并生成预处理图像;所有的预处理图像具有相同的文字方向;步骤S2:自预处理图像中识别得到多个文本信息;步骤S3:对文本信息进行校正,生成并录入格式化数据。本发明专利技术的有益效果在于:通过在识别得到文本信息后,对文本信息的内容进行校正,并生成格式化数据,实现了对化验单据的数据的统一格式录入,同时避免了现有技术中,针对不同格式的化验单据无法进行有效识别、录入的问题;并且,通过对采集到的化验单据进行识别,使得所有的预处理图像具有相同的文字方向,降低了采集过程中对化验单据的方向性要求,且提高了文字识别的准确度。的准确度。的准确度。

【技术实现步骤摘要】
一种化验单据的识别方法


[0001]本专利技术涉及文字图像处理
,具体涉及一种化验单据的识别方法。

技术介绍

[0002]随着互联网信息化的深入发展,医疗领域中对医疗档案的电子化的要求也越来越高。在医疗机构就诊过程中,会产生大量的纸质单据,其中化验单据又是最常见的重要代表。在保险理赔、转院、远程会诊等一些场景,需要将纸质化验单据转为电子化的医疗档案。首先,数据电子化可以使重要单据的入库存档更便捷,同时规避了纸制单据老化或者遗失等问题;其次,数据电子化有利用数据在各个系统之间做数据交互,便于数据的传输;最后,数据电子化可以更好的利用存档数据进行查询、分析等操作,从而帮助医疗行业的科研人员充分挖掘化验单背后的价值。在纸制化验单转化为电子档案的过程中,需要将化验单中的基本信息(姓名、性别、年龄、标本种类、科室等)提取出来,还需要准确的识别出化验单的项目名称、项目值、参考范围和单位等信息。在没有OCR技术之前,最传统的方式是手工录入方式,这种方式不但耗时耗力,而且录入人员在长时间录入工作情况下,录入的错误率也会升高。在互联网信息化不断发展的今天,这种方式远不能满足迅速增长的化验单据数据的转化工作需求。
[0003]现有技术中,已存在有基于图像处理和机器学习实现化验单据数据录入的技术方案。该类技术方案通常是基于已有的图像处理方法,比如二值化、连通域分析、投影分析等凸显出化验单据中的文本内容,并通过统计类的机器学习方法比如Adaboost、SVM等实现对文本内容的识别,其在实现过程中主要采用OpenCV、Halcon、VisionPro等计算机视觉算法库进行开发。
[0004]但是,在实际实施过程中,专利技术人发现,上述技术方案在实施过程中,通常仅关注采集到的文字本身的内容,其并不包含有文字所在的位置信息以及与相邻的文字之间的关系。这导致了传统OCR方案在对化验单据进行识别的时候,往往仅能够提取到整体上相对离散的文字数据,而不能直接完成结构化数据的录入过程,且对于不同来源形成的不同格式的化验单据,其也不能实现对数据进行结构统一,这给化验单据的数据录入带来了不便。

技术实现思路

[0005]针对现有技术中存在的上述问题,现提供一种化验单据的识别方法。
[0006]具体技术方案如下:
[0007]一种化验单据的识别方法,包括:
[0008]步骤S1:针对一化验单据,采集并生成预处理图像;
[0009]所有的所述预处理图像具有相同的文字方向;
[0010]步骤S2:自所述预处理图像中识别得到多个文本信息;
[0011]步骤S3:对所述文本信息进行校正,生成并录入格式化数据。
[0012]优选地,所述步骤S1包括:
[0013]步骤S11:对所述化验单据进行图像采集生成单据图像;
[0014]步骤S12:对所述单据图像进行图像参数调整生成校正图像;
[0015]步骤S13:对所述校正图像的方向进行修正生成所述预处理图像。
[0016]优选地,所述步骤S13包括:
[0017]步骤S131:将所述校正图像拆分为多幅图像块;
[0018]步骤S132:采用一方向判定模型分别判断所述图像块的局部文字方向,并记录判断结果;
[0019]步骤S133:根据所有的所述判断结果生成所述校正图像的整体文字方向,根据所述整体文字方向修正所述校正图像以生成所述预处理图像。
[0020]优选地,于执行所述步骤S131之后、执行所述步骤S132之前还包括:
[0021]步骤A132:识别并剔除不具有文字内容的所述图像块。
[0022]优选地,于所述步骤S133后还包括:
[0023]步骤S134:判断所述校正图像是否存在小角度倾斜;
[0024]若是,获取所述校正图像中的文字连线,并根据所述文字连线对所述校正图像进行小角度修正,随后转向所述步骤S2;
[0025]若否,转向所述步骤S2。
[0026]优选地,所述步骤S2包括:
[0027]步骤S21:自所述预处理图像中获取多个文本位置;
[0028]步骤S22:根据所述文本位置对所述预处理图像进行裁切,生成多个文字图像;
[0029]每个所述文字图像中分别包含一段文字内容;
[0030]步骤S23:对所述文字图像分别进行识别,形成所述文本信息。
[0031]优选地,所述步骤S21中,采用一文本检测模型获取所述文本位置;
[0032]所述文本检测模型包括依次设置的:
[0033]第一金字塔网络,所述第一金字塔网络包括五级依次连接的特征提取层,用于自所述预处理图像中提取得到高层特征;
[0034]第二金字塔网络,所述第二金字塔网络连接所述第一金字塔网络,所述第二金字塔网络包括五级依次连接的特征提取层,用于将所述第一金字塔的高层特征融合至底层特征;
[0035]预测层,所述预测层连接所述第二金字塔网络,所述预测层根据所述底层特征生成所述文本位置。
[0036]优选地,所述步骤S23中,采用一文本识别模型识别所述文本信息:
[0037]卷积层,所述卷积层接收所述文字图像,并对所述文字图像提取文字图像特征;
[0038]双向RNN网络,所述双向RNN网络连接所述卷积层,所述双向RNN网络根据所述文字图像特征生成文字序列;
[0039]翻译层,所述翻译层连接所述双向RNN网络,所述翻译层根据所述文字序列生成所述文本信息。
[0040]优选地,所述步骤S3包括:
[0041]步骤S31:对所述文本信息进行分词生成多个独立文字;
[0042]步骤S32:针对每一组相邻的所述独立文字,计算前一个所述独立文字的迁移概
率,根据所述迁移概率对后一个所述独立文字进行修正,生成校正文字;
[0043]步骤S33:对所述校正文字进行处理,生成并录入所述格式化数据。
[0044]优选地,所述步骤S33包括:
[0045]步骤S331:对所有的所述校正文字进行字段匹配,生成多个信息区域;
[0046]所述信息区域包括主信息区域、基本信息区域和尾部信息区域;
[0047]步骤S332:对所述主信息区域进行分列生成分列结果;
[0048]所述分列过程中还对所述主信息区域中的粘连元素进行拆分;
[0049]步骤S333:根据分列结果分别判断每一列的属性,并根据所述属性生成项目内容;
[0050]所述步骤S333还包括:根据判断结果合并具有相同的所述属性的列;
[0051]步骤S334:将所有的所述项目内容作为所述格式化数据录入。
[0052]上述技术方案具有如下优点或有益效果:通过在识别得到文本信息后,对文本信息的内容进行校正,并生成格式化数据,实现了对化验单据的数据的统一格式录入,同时避免了现有技术中,针对不同格式的化验单据无法进行有效识别、录入的问题;并且,通过对采集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化验单据的识别方法,其特征在于,包括:步骤S1:针对一化验单据,采集并生成预处理图像;所有的所述预处理图像具有相同的文字方向;步骤S2:自所述预处理图像中识别得到多个文本信息;步骤S3:对所述文本信息进行校正,生成并录入格式化数据。2.根据权利要求1所述的识别方法,其特征在于,所述步骤S1包括:步骤S11:对所述化验单据进行图像采集生成单据图像;步骤S12:对所述单据图像进行图像参数调整生成校正图像;步骤S13:对所述校正图像的方向进行修正生成所述预处理图像。3.根据权利要求2所述的识别方法,其特征在于,所述步骤S13包括:步骤S131:将所述校正图像拆分为多幅图像块;步骤S132:采用一方向判定模型分别判断所述图像块的局部文字方向,并记录判断结果;步骤S133:根据所有的所述判断结果生成所述校正图像的整体文字方向,根据所述整体文字方向修正所述校正图像以生成所述预处理图像。4.根据权利要求3所述的识别方法,其特征在于,于执行所述步骤S131之后、执行所述步骤S132之前还包括:步骤A132:识别并剔除不具有文字内容的所述图像块。5.根据权利要求3所述的识别方法,其特征在于,于所述步骤S133后还包括:步骤S134:判断所述校正图像是否存在小角度倾斜;若是,获取所述校正图像中的文字连线,并根据所述文字连线对所述校正图像进行小角度修正,随后转向所述步骤S2;若否,转向所述步骤S2。6.根据权利要求1所述的识别方法,其特征在于,所述步骤S2包括:步骤S21:自所述预处理图像中获取多个文本位置;步骤S22:根据所述文本位置对所述预处理图像进行裁切,生成多个文字图像;每个所述文字图像中分别包含一段文字内容;步骤S23:对所述文字图像分别进行识别,形成所述文本信息。7.根据权利要求6所述的识别方法,其特征在于,所述步骤S21中,采用一文本检测模型获取所述文本位置;所...

【专利技术属性】
技术研发人员:程栋谭锐桑伟毅王晔
申请(专利权)人:上海市大数据股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1