纸质病历的内容识别方法及装置制造方法及图纸

技术编号:38132444 阅读:14 留言:0更新日期:2023-07-08 09:41
本申请提供一种纸质病历的内容识别方法及装置,该纸质病历的内容识别方法包括:获取第一病历图像;预处理得到第二病历图像;分别计算各个病历版面分区对应的第一图像相似度;确定待识别分区图像;得到各个待识别分区图像的文本字体类别;将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果;将手写字体类别的待识别分区图像输入预设手写体文字识别模型进行识别,得到各个待识别手写分区图像的手写字体识别结果;将识别结果添加至预设空白病历模板图像上对应的病历版面分区中。本申请能够提高纸质病历的内容识别准确率。高纸质病历的内容识别准确率。高纸质病历的内容识别准确率。

【技术实现步骤摘要】
纸质病历的内容识别方法及装置


[0001]本申请主要涉及图像处理
,具体涉及一种纸质病历的内容识别方法及装置。

技术介绍

[0002]临床上医生会将患者的主诉、现病史、既往史、个人史、体格检查等重要信息记录于入院大病历或门诊手写病历中,其中很大一部分可以作为其诊断与治疗的依据。此外,在医疗系统中有很多文件是以纸质病历形式存在,医生无法快速准确的对其信息进行归纳总结,并且为了提取其中的信息,需要人工录入,或者使用机器识别,这需要消耗大量的人力物力。光学字符识别(OCR,Optical Character Recognition)的发展有几十年的时间,目前已经有很多可以实用的系统,但是传统光学字符识别会机械的对整个版面进行识别,不能根据各个区域的特点进行不同的检测,导致识别准确率较低。
[0003]也即,现有技术中纸质病历的内容识别准确率不高。

技术实现思路

[0004]本申请提供一种纸质病历的内容识别方法及装置,旨在解决现有技术中纸质病历的内容识别准确率不高的问题。
[0005]第一方面,本申请提供一种纸质病历的内容识别方法,所述纸质病历的内容识别方法包括:获取对纸质病历进行拍摄得到的第一病历图像和所述纸质病历的病历模板类型;对所述第一病历图像进行预处理,得到第二病历图像;获取所述病历模板类型的预设空白病历模板图像,其中,所述预设空白病历模板图像上预先标注有多个病历版面分区;将所述预设空白病历模板图像与所述第二病历图像对齐,获取所述第二病历图像上位于各个所述病历版面分区内的各个第一病历分区图像和所述预设空白病历模板图像上位于所述病历版面分区内的各个第二病历分区图像;分别计算各个所述第一病历分区图像和对应的所述第二病历分区图像的第一图像相似度,得到各个病历版面分区对应的第一图像相似度;将第一图像相似度低于第一相似度阈值的病历版面分区对应的第一病历分区图像确定为待识别分区图像;将各个待识别分区图像输入预设字体分类模型,得到各个待识别分区图像的文本字体类别,其中,各个待识别分区图像的文本字体类别包括印刷字体类别和手写字体类别;将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果;将文本字体类别属于手写字体类别的待识别分区图像输入预设手写体文字识别模型进行识别,得到各个待识别手写分区图像的手写字体识别结果;
将各个待识别印刷分区图像的印刷字体识别结果、各个待识别手写分区图像的手写字体识别结果添加至预设空白病历模板图像上对应的病历版面分区中。
[0006]进一步的,所述将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果,包括:获取多个历史病历图像位于所述待识别印刷分区图像所在病历版面分区的历史病历分区图像,其中,各个历史病历分区图像已经被识别且具有对应的历史分区图像识别结果;计算各个所述历史病历分区图像与对应的所述待识别印刷分区图像的第二图像相似度,得到多个第二图像相似度;若多个第二图像相似度均小于第二相似度阈值,则将所述待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到待识别印刷分区图像的印刷字体识别结果。
[0007]进一步的,所述纸质病历的内容识别方法,包括:若多个第二图像相似度存在大于第二相似度阈值的值,将高于第二相似度阈值的第二图像相似度中最大的第二图像相似度对应的所述历史病历分区图像确定为目标历史病历分区图像;将目标历史病历分区图像的历史分区图像识别结果确定为待识别印刷分区图像的印刷字体识别结果。
[0008]进一步的,所述预设印刷体文字识别模型为CRNN+CTC模型,所述预设手写体文字识别模型为TensorFlow模型。
[0009]进一步的,所述对所述第一病历图像进行预处理,得到第二病历图像,包括:对第一病历图像进行二值化、图像降噪、倾斜校正,得到第二病历图像。
[0010]进一步的,所述将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果,包括:获取待识别印刷分区图像对应的病历版面分区的分区类别,其中,所述分区类别包括主诉分区、病史分区、家族史分区、体格检查分区、辅助检查分区;根据待识别印刷分区图像对应的病历版面分区的分区类别确定待识别印刷分区图像对应的预设印刷体文字识别模型,其中,不同的分区类别对应的不同的预设印刷体文字识别模型,不同的预设印刷体文字识别模型通过对应分区类别的分区类别训练集得到;将各个待识别印刷分区图像输入对应的预设印刷体文字识别模型,得到各个待识别印刷分区图像的印刷字体识别结果。
[0011]进一步的,所述多个病历版面分区包括多个固定印刷文本分区,所述将第一图像相似度低于第一相似度阈值的病历版面分区对应的第一病历分区图像确定为待识别分区图像,包括:获取多个固定印刷文本分区对应的第一图像相似度和面积大小;基于多个固定印刷文本分区的面积大小对多个固定印刷文本分区对应的第一图像相似度加权平均,得到加权平均相似度;若加权平均相似度大于第三相似度阈值,则将第一图像相似度低于第一相似度阈
值的病历版面分区对应的第一病历分区图像确定为待识别分区图像。
[0012]第二方面,本申请提供一种纸质病历的内容识别装置,所述纸质病历的内容识别装置包括:第一获取单元,用于获取对纸质病历进行拍摄得到的第一病历图像和所述纸质病历的病历模板类型;预处理单元,用于对所述第一病历图像进行预处理,得到第二病历图像;第二获取单元,用于获取所述病历模板类型的预设空白病历模板图像,其中,所述预设空白病历模板图像上预先标注有多个病历版面分区;图像对齐单元,用于将所述预设空白病历模板图像与所述第二病历图像对齐,获取所述第二病历图像上位于各个所述病历版面分区内的各个第一病历分区图像和所述预设空白病历模板图像上位于所述病历版面分区内的各个第二病历分区图像;计算单元,用于分别计算各个所述第一病历分区图像和对应的所述第二病历分区图像的第一图像相似度,得到各个病历版面分区对应的第一图像相似度;确定单元,用于将第一图像相似度低于第一相似度阈值的病历版面分区对应的第一病历分区图像确定为待识别分区图像;字体分类单元,用于将各个待识别分区图像输入预设字体分类模型,得到各个待识别分区图像的文本字体类别,其中,各个待识别分区图像的文本字体类别包括印刷字体类别和手写字体类别;第一识别单元,用于将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果;第二识别单元,用于将文本字体类别属于手写字体类别的待识别分区图像输入预设手写体文字识别模型进行识别,得到各个待识别手写分区图像的手写字体识别结果;添加单元,用于将各个待识别印刷分区图像的印刷字体识别结果、各个待识别手写分区图像的手写字体识别结果添加至预设空白病历模板图像上对应的病历版面分区中。
[0013]第三方面,本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纸质病历的内容识别方法,其特征在于,所述纸质病历的内容识别方法包括:获取对纸质病历进行拍摄得到的第一病历图像和所述纸质病历的病历模板类型;对所述第一病历图像进行预处理,得到第二病历图像;获取所述病历模板类型的预设空白病历模板图像,其中,所述预设空白病历模板图像上预先标注有多个病历版面分区;将所述预设空白病历模板图像与所述第二病历图像对齐,获取所述第二病历图像上位于各个所述病历版面分区内的各个第一病历分区图像和所述预设空白病历模板图像上位于所述病历版面分区内的各个第二病历分区图像;分别计算各个所述第一病历分区图像和对应的所述第二病历分区图像的第一图像相似度,得到各个病历版面分区对应的第一图像相似度;将第一图像相似度低于第一相似度阈值的病历版面分区对应的第一病历分区图像确定为待识别分区图像;将各个待识别分区图像输入预设字体分类模型,得到各个待识别分区图像的文本字体类别,其中,各个待识别分区图像的文本字体类别包括印刷字体类别和手写字体类别;将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果;将文本字体类别属于手写字体类别的待识别分区图像输入预设手写体文字识别模型进行识别,得到各个待识别手写分区图像的手写字体识别结果;将各个待识别印刷分区图像的印刷字体识别结果、各个待识别手写分区图像的手写字体识别结果添加至预设空白病历模板图像上对应的病历版面分区中。2.根据权利要求1所述的纸质病历的内容识别方法,其特征在于,所述将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果,包括:获取多个历史病历图像位于所述待识别印刷分区图像所在病历版面分区的历史病历分区图像,其中,各个历史病历分区图像已经被识别且具有对应的历史分区图像识别结果;计算各个所述历史病历分区图像与对应的所述待识别印刷分区图像的第二图像相似度,得到多个第二图像相似度;若多个第二图像相似度均小于第二相似度阈值,则将所述待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到待识别印刷分区图像的印刷字体识别结果。3.根据权利要求2所述的纸质病历的内容识别方法,其特征在于,所述纸质病历的内容识别方法,包括:若多个第二图像相似度存在大于第二相似度阈值的值,将高于第二相似度阈值的第二图像相似度中最大的第二图像相似度对应的所述历史病历分区图像确定为目标历史病历分区图像;将目标历史病历分区图像的历史分区图像识别结果确定为待识别印刷分区图像的印刷字体识别结果。4.根据权利要求1所述的纸质病历的内容识别方法,其特征在于,所述预设印刷体文字识别模型为CRNN+CTC模型,所述预设手写体文字识别模型为TensorFlow模型。5.根据权利要求1所述的纸质病历的内容识别方法,其特征在于,所述对所述第一病历
图像进行预处理,得到第二病历图像,包括:对第一病历图像进行二值化、图像降噪、倾斜校正,得到第二病历图像。6.根据权利要求1所述的纸质病历的内容识别方法,其特征在于,所述将文本字体类别属于印刷字体类别的待识别印刷分区图像输入预设印刷体文字识别模型进行识别,得到各个待识别印刷分区图像的印刷字体识别结果,包括:获取待识别印刷分区图像...

【专利技术属性】
技术研发人员:于红刚姚理文吴志丰罗侪杰
申请(专利权)人:武汉大学人民医院湖北省人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1