一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质制造方法及图纸

技术编号:22659319 阅读:26 留言:0更新日期:2019-11-28 03:37
本发明专利技术适用于互联网技术领域,提供了一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质,该方法包括:分别获取N张医疗单据图片的打印文本行;获得N张医疗单据背景填充图像;分别从N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像,得到L张长条形医疗单据背景填充图像,分别对L张长条形医疗单据背景填充图像打印至少一个医学词条,对处理后的L张长条形医疗单据图像进行处理,得到L张词条图像训练样本;将L张词条图像训练样本输入CRNN模型进行训练;通过参数优化后的CRNN模型识别待识别医疗单据图片,得到字符识别结果。本发明专利技术提供的医疗单据识别方法,可提高医疗单据识别的效果。

A medical document identification method, device, computer device and computer readable storage medium

The invention is applicable to the field of Internet technology, and provides a medical document identification method, device, computer device and computer readable storage medium. The method includes: obtaining printed text lines of n medical document pictures, obtaining background filling images of n medical documents, and filling images of each medical document background filling image from background filling images of n medical documents Select at least one long strip medical document background filling image, get l long strip medical document background filling image, print at least one medical term respectively for l long strip medical document background filling image, process l long strip medical document image after processing, get l term image training sample; input L term image training sample into crnn model Training: through the optimized crnn model to identify the medical document image to be identified, the character recognition results are obtained. The medical document recognition method provided by the invention can improve the effect of medical document recognition.

【技术实现步骤摘要】
一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
本专利技术属于互联网
,尤其涉及一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质。
技术介绍
日常生活中,人们若到医疗机构就诊,会产生很多的纸质单据,在保险理赔、转院、远程会诊的时候,需要将纸质单据转为电子医疗档案。由于医疗单据的信息量庞大,传统的手工录入方式,耗时、费力,现有的OCR(OpticalCharacterRecognition,光学字符识别)方式多为通用的字符识别,针对特定的医疗单据准确度不理想。由此可知,现有技术在对医疗单据进行识别的过程中,由于耗时长、准确度不理想等原因,导致医疗单据识别的效果比较差的问题。
技术实现思路
本专利技术实施例提供一种医疗单据识别方法,旨在解决现有医疗单据识别的效果比较差的问题。本专利技术是这样实现的,一种医疗单据识别方法,包括:分别获取N张医疗单据图片的打印文本行;使用医疗单据图片的背景颜色对所述打印文本行进行遮挡,获得N张医疗单据背景填充图像;从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像,得到L张长条形医疗单据背景填充图像,分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条,得到印有医学词条的L张长条形医疗单据图像,对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作,得到L张词条图像训练样本;将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型,对所述CRNN模型进行训练,得到优化参数后的CRNN模型;通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别,得到字符识别结果。可选的,所述分别获取N张医疗单据图片的打印文本行,包括以下过程:对预先获取的标准医疗单据图片中的打印字符进行遮挡处理,得到标准打印字符区域;分别对所述N张医疗单据图片进行边框检测,分别得到所述N张医疗单据图片的尺寸信息;根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息,分别确定所述N张医疗单据图片的缩放比例,按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理,得到所述N张目标医疗单据图片;分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息,根据所述第一目标字符的第一位置信息及所述标准打印字符区域,分别在所述N张目标医疗单据图片中确定打印文本行,其中,所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。可选的,所述对N张医疗单据图片分别进行边框检测,分别得到所述N张医疗单据图片的尺寸信息,包括以下过程:采用形态学操作分别对N张医疗单据图片进行预处理,凸显所述N张医疗单据图片中线条框像素点的对比度;采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离,并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合;采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合,分别确定所述N张医疗单据图片的边框直线;分别对所述N张医疗单据图片的边框直线进行延长,确定四条边框直线的交点,根据四条边框直线的交点,确定所述N张医疗单据图片的尺寸信息。可选的,所述根据所述第一目标字符的第一位置信息及所述标准打印字符区域,分别在所述N张目标医疗单据图片中确定打印文本行,包括以下过程:获取所述标准医疗单据图片的第二目标字符的第二位置信息;所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符;计算所述第一位置信息与第二位置信息之间的位置差异;根据所述位置差异及所述标准打印字符区域,采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域;分别在所述N张目标医疗单据图片的所述打印字符区域中确定打印文本行。本专利技术还提供一种医疗单据识别装置,包括:第一获取模块,用于分别获取N张医疗单据图片的打印文本行;第二获取模块,用于使用医疗单据图片的背景颜色对所述打印文本行进行遮挡,获得N张医疗单据背景填充图像;处理模块,用于从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像,得到L张长条形医疗单据背景填充图像,分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条,得到印有医学词条的L张长条形医疗单据图像,对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作,得到L张词条图像训练样本;训练模块,用于将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型,对所述CRNN模型进行训练,得到优化参数后的CRNN模型;识别模块,用于通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别,得到字符识别结果。可选的,所述第一获取模块包括:处理子模块,用于对预先获取的标准医疗单据图片中的打印字符进行遮挡处理,得到标准打印字符区域;检测子模块,用于分别对所述N张医疗单据图片进行边框检测,分别得到所述N张医疗单据图片的尺寸信息;缩放子模块,用于根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息,分别确定所述N张医疗单据图片的缩放比例,按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理,得到所述N张目标医疗单据图片;确定子模块,用于分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息,根据所述第一目标字符的第一位置信息及所述标准打印字符区域,分别在所述N张目标医疗单据图片中确定打印文本行,其中,所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。可选的,所述检测子模块包括:处理单元,用于采用形态学操作分别对N张医疗单据图片进行预处理,增强所述N张医疗单据图片中线条框像素点的对比度;分离单元,用于采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离,并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合;第一确定单元,用于采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合,分别确定所述N张医疗单据图片的边框直线;第二确定单元,用于分别对所述N张医疗单据图片的边框直线进行延长,确定四条边框直线的交点,根据四条边框直线的交点,确定所述N张医疗单据图片的尺寸信息。可选的,所述确定子模块包括:获取单元,获取所述标准医疗单据图片的第二目标字符的第二位置信息;所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符;计算单元,用于计算所述第一位置信息与第二位置信息之间的位置差异;构建单元,用于根据所述位置差异本文档来自技高网...

【技术保护点】
1.一种医疗单据识别方法,其特征在于,所述医疗单据识别方法包括:/n分别获取N张医疗单据图片的打印文本行;/n使用医疗单据图片的背景颜色对所述打印文本行进行遮挡,获得N张医疗单据背景填充图像;/n从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像,得到L张长条形医疗单据背景填充图像,分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条,得到印有医学词条的L张长条形医疗单据图像,对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作,得到L张词条图像训练样本;/n将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型,对所述CRNN模型进行训练,得到优化参数后的CRNN模型;/n通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别,得到字符识别结果。/n

【技术特征摘要】
1.一种医疗单据识别方法,其特征在于,所述医疗单据识别方法包括:
分别获取N张医疗单据图片的打印文本行;
使用医疗单据图片的背景颜色对所述打印文本行进行遮挡,获得N张医疗单据背景填充图像;
从所述N张医疗单据背景填充图像中的每一张医疗单据背景填充图像上截选至少一张长条形医疗单据背景填充图像,得到L张长条形医疗单据背景填充图像,分别对所述L张长条形医疗单据背景填充图像打印从M个医学词条中随机选择的至少一个医学词条,得到印有医学词条的L张长条形医疗单据图像,对所述印有医学词条的L张长条形医疗单据图像进行拟合真实医疗单据操作,得到L张词条图像训练样本;
将所述L张词条图像训练样本输入卷积循环神经网络CRNN模型,对所述CRNN模型进行训练,得到优化参数后的CRNN模型;
通过所述参数优化后的CRNN模型对待识别医疗单据图片进行字符识别,得到字符识别结果。


2.根据权利要求1所述的医疗单据识别方法,其特征在于,所述分别获取N张医疗单据图片的打印文本行,包括以下过程:
对预先获取的标准医疗单据图片中的打印字符进行遮挡处理,得到标准打印字符区域;
分别对所述N张医疗单据图片进行边框检测,分别得到所述N张医疗单据图片的尺寸信息;
根据所述N张医疗单据图片的尺寸信息与所述标准医疗单据图片的尺寸信息,分别确定所述N张医疗单据图片的缩放比例,按照所述缩放比例分别对所述N张医疗单据图片进行缩放处理,得到所述N张目标医疗单据图片;
分别获取所述N张目标医疗单据图片的第一目标字符的第一位置信息,根据所述第一目标字符的第一位置信息及所述标准打印字符区域,分别在所述N张目标医疗单据图片中确定打印文本行,其中,所述第一目标字符为所述N张目标医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符。


3.根据权利要求2所述的医疗单据识别方法,其特征在于,所述分别对所述N张医疗单据图片进行边框检测,分别得到所述N张医疗单据图片的尺寸信息,包括以下过程:
采用形态学操作分别对N张医疗单据图片进行预处理,凸显所述N张医疗单据图片中线条框像素点的对比度;
采用自适应色彩阈值分割算法分别将所述N张医疗单据图片的图像像素点进行分离,并结合像素点位置信息分别得到所述N张医疗单据图片的边框的四条线的像素点集合;
采用最小二乘法分别对所述N张医疗单据图片的边框的四条线的像素点集合进行直线拟合,分别确定所述N张医疗单据图片的边框直线;
分别对所述N张医疗单据图片的边框直线进行延长,确定四条边框直线的交点,根据四条边框直线的交点,确定所述N张医疗单据图片的尺寸信息。


4.根据权利要求2所述的医疗单据识别方法,其特征在于,所述根据所述第一目标字符的第一位置信息及所述标准打印字符区域,分别在所述N张目标医疗单据图片中确定打印文本行,包括以下过程:
获取所述标准医疗单据图片的第二目标字符的第二位置信息;所述第二目标字符为所述标准医疗单据图片的左上角、左下角、右上角、右下角中任一个角的第一个字符,所述第一目标字符与所述第二字符的区位相同;
计算所述第一位置信息与第二位置信息之间的位置差异;
根据所述位置差异及所述标准打印字符区域,采用图像仿射变换分别在所述N张目标医疗单据图片中构建打印字符区域;
分别在所述N张目标医疗单据图片的所述打印字符区域中确定打印文本行。


5.一种医疗单据识别装置,其特征在于,所述医疗单据识别装置包括:
第一获取模块,用于分别获取N张医疗单据图片的打印文本行;
第二获取模块,用于使用医疗单据图片的背景颜色对所述...

【专利技术属性】
技术研发人员:符颖郭建京周忠诚张圣栋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1