【技术实现步骤摘要】
一种基于深度学习的病案文字识别方法及系统
[0001]本申请涉及图像识别
,具体涉及一种基于深度学习的病案文字识别方法及系统
。
技术介绍
[0002]病案文字的识别对医学研究以及医院的质控管理极其重要
。
当前,大部分医院在完成数字化病案的采集工作时,只会提供住院病案的扫描图片以及纸质版病案
。
对于纸质版病案,工作人员必须先对纸质版病案进行采集,采集方法为使用一个拍摄终端,分别对每一页病案拍摄,拍摄后生成图片或
PDF
文件,最后对图片或
PDF
文件进行文字识别提取关键信息
。
[0003]在现有的技术中,对病案文字识别存在以下三个问题:第一,纸质版病案的拍摄过程中作业人员不可能做到对病案完全水平放置,所以拍摄出的图片会有倾斜的现象;第二,病案文字图片大且文字密集,通用检测识别模型难以对文字准确定位;第三,由于病案文字本身的特殊性,会存在很多生僻字,这提高了识别的难度
。
如果病案文字的识别出现误识别
...
【技术保护点】
【技术特征摘要】
1.
一种基于深度学习的病案文字识别方法,其特征在于,包括:对原始病案图像进行预处理,分别使用
Canny
边缘检测算法和
Hough
直线检测算法对图像进行边缘检测和角度校正;对预处理后图像的文本区域进行标注,得到文本检测训练数据集;使用
DBNet
网络对图片进行检测,获取图片中文本区域的边界框位置坐标;构建改进的
SVTR
模型,对文本检测到的区域提取特征,训练文字识别模型;采用文字识别模型对图片进行识别,获得病案图片中的字符内容
。2.
根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,使用
Canny
边缘检测算法对图像进行边缘检测,包括:使用高斯可导函数的滤波器计算梯度的强度;使用5×5的高斯滤波器对图片中的噪声进行消除;使用
Sobel
滤波器操作获得一阶导数,通过一阶导数对像素边缘渐变值和方向进行计算,计算公式如下:算,计算公式如下:其中,和分别代表图像在
x
和
y
方向上的梯度,对每个像素,计算出这两个方向的梯度,然后把它们平方并加起来,最后取平方根,得到的结果就是该像素的梯度强度,即边缘强度
Edge gradient(G)
;
θ
表示一个向量与
x
轴之间的角度,取值范围是
‑
180
°
到
180
°
,
Angle(
θ
)
表示计算角度
θ
的反正切值,其中
G
x
和
G
y
分别表示向量的水平分量和垂直分量;接着对整张图片进行像素级查找
、
筛选,排除掉和边缘构造不相关的对象;定义两个相反的阈值为高阈值和低阈值;当梯度强度大于高阈值,判定像素对象为正,即为边缘区域;当梯度强度小于低阈值,判定像素对象为负,即为非边缘区域;当梯度强度在高阈值和低阈值之间,判断像素是否和有效边缘连同,如果连同,则此像素也标为有效边缘;重复上面的操作,直到遍历完所有图像区域
。3.
根据权利要求1或2所述的基于深度学习的病案文字识别方法,其特征在于,对原始病案图像进行边缘检测后,使用
Hough
直线检测算法对图像进行角度校正的过程包括:使用极坐标系坐标来描述直角坐标轴的直线,对属于该直线上的每个
x
,
y
点,满足以下方程式:
ρ
=
xcos(
θ
)+ysin(
θ
)
其中,
ρ
为从原点到直线的最短距离,
θ
为
x
轴和距离线之间的距离;将参数空间量化为
m
×
n
个单元,并设置累加器矩阵
Q
m
×
n
;给参数空间中的每个单元分配一个累加器
Q
i
,
j
,并把累加器的初始值置为零;在参数空间中,找到
θ
和
ρ
所对应的单元,并将该单元的累加器加1,即
Q
i,j
=
Q
i
,
j
+1
;当直角坐标系中的点都经过上述两步遍历后,检验参数空间中每个累加器的值,累加器值最大的单元所对应的
θ
为图像的倾斜角度;
用
imrotate
函数对图像进行旋转,获得角度校正后的图像
。4.
根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,所述对预处理后图像的文本区域进行标注,得到文本检测训练数据集,包括:首先对病案图片进行筛选,对图片成像模糊的以及拍摄曝光严重或是欠曝光的图片筛出;利用开源方法
PPOCRLabel
对病案照片进行标注,利用矩形框标注出照片文字并输出矩形框四角点的坐标以及中文字含义;将输出的结果通过脚本改成
ICDAR
格式的文件用于后续的训练,所述格式的构成主要包括四个点的坐标和文字内容
。5.
根据权利要求1所述的基于深度学习的病案文字识别方法,其特征在于,使用
DBNet
网络对图片进行检测,获取图片中文本区域的边界框位置坐标,包括:调整
DBNet
训练的数据集参数,
data_dir
设置为数据集路径,
label_fuile_list
指向数据集标注文件,训练集与测试集的比例为
9∶1
;将图像输入
ResNet50
骨干网络中,对图像进行3×3卷积操作,分别获取原图大小比例的
1/2
,
1/4
,
1/8
,
1/16
,
1/32
的特征图;自顶向下进行上采样
×2,然后与自底向上生成的相同大小的特征图融合;融合之后再采用3×3的卷积消除上采样的混叠效应;经过
FPN
后,得到了四个大小分别为原图的
1/4
,
1/8
,
1/16
,
1/32
的特征图;将四个特征图分别上采样,统一为
1/4
大小的特征图;最后将四个
1/4
大小的特征图
concat
,得到特征
F
;
F
经过卷积层,将通道压缩为输入的
1/4
,然后经过批量归一化和
ReLU
函数激活后,得到的特征图
shape
;将得到的特征图进行反卷积操作,卷积核为2×2,得到的特征图
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。