【技术实现步骤摘要】
医疗报告结构化识别模型训练方法、系统、设备及存储介质
[0001]本专利技术涉及深度学习领域,具体涉及光学字符识别
,提供医疗报告结构化识别模型训练方法、系统、设备及存储介质。
技术介绍
[0002]在医疗领域,对于纸质医疗报告的OCR(光学字符识别)信息提取是一个受到重点关注的问题。传统OCR技术通过图像预处理、版面划分(直线检测、倾斜检测)、字符定位切分、字符识别、版面恢复、后处理、校对等流程直接提取出图像中的文字,在理想环境下的印刷体识别上取得了比较准确的效果。然而,在面对复杂环境场景如光照、模糊、文字形状扭曲等情况时,传统方法往往识别精度不高。目前,随着深度学习算法特别是计算机视觉领域算法的发展,该问题得到了有效解决。相比传统OCR方法的手工提取特征,基于深度学习的OCR技术使用深度学习算法模型提取图像特征,从而自动检测出文本的内容和所处位置,在面对复杂场景和困难样本时具有更好的预测效果。
[0003]然而,对于医疗报告的信息提取来说,基于深度学习的常规OCR方法如CRNN等方法并不足以满足用户的需求。在医疗报告的信息提取任务中,最终的目标是得到一个结构化的对象,该对象包括报告中的各种字段,比如姓名、年龄、检查项目等。常规的OCR模型只能得到图像中存在的文本内容以及该文本所在的位置,这些结果还需要经过一些后处理方法包括文本合并、模式匹配等方法才可以提取出对象的信息。由于不同医院的医疗报告格式存在的差异,后处理过程十分繁琐,对于每家医院的每种报告都需要不同匹配规则,对于新类型的报告也不具备泛化性。 ...
【技术保护点】
【技术特征摘要】
1.一种医疗报告结构化识别模型训练方法,其特征在于,包括:获取医疗报告图像;获取医疗报告图像中的文本检测框及其坐标点;对文本检测框进行倾斜矫正;对同行文本检测框进行合并;标注出文本检测框所在位置和文本类别;标注出各个文本检测框之间的关系;利用标注后的医疗报告图像构建数据集,输入医疗报告结构化识别模型进行训练;所述医疗报告结构化识别模型接收图像、文本以及布局作为输入,基于transformer机制执行文本理解任务。2.根据权利要求1所述的医疗报告结构化识别模型训练方法,其特征在于,所述对文本检测框进行倾斜矫正包括:设文本检测框的左上角、右上角、右下角以及左下角坐标点依次为A=[x0,y0],B=[x1,y1],C=[x2,y2],D=[x3,y3],计算向量AB与单位向量[1,0]的夹角θ;计算所有文本检测框的夹角θ的平均值θavg;根据X=xcos(θ)+y sin(θ),Y=ycos(θ)
–
x sin(θ)纠正文本检测框坐标,纠正后的文本检测框坐标为[X
i
,Y
i
]=[x
i
cosθ
avg
+y
i
sinθ
avg
,y
i
cosθ
avg
‑
x
i
sinθ
avg
]。3.根据权利要求2所述的医疗报告结构化识别模型训练方法,其特征在于,所述对同行文本检测框进行合并包括:A
i
和D
i
表示第i个文本检测框的左上角点和左下角点,计算所有文本检测框的A
i
和D
i
的欧氏距离取最小值作为检测阈值;[x0,y0]表示点A的坐标,[x1,y1]表示点B的坐标,遍历比较x0,若x0
i
<x0
j
,且两框之间的高度差绝对值小于检测阈值,|y1
i
‑
y0
j
|<检测阈值,则在索引图中连接A
i
和A
j
对应的文本检测框;遍历索引图,将连接的文本检测框汇聚成一行;从左到右对每一行的索引进行排序;从上到下对所有行的索引进行排序;得到合并后的文本检测框以及相应的文本。4.根据权利要求1所述的医疗报告结构化识别模型训练方法,其特征在于,所述医疗报告结构化识别模型基于LayoutXLM模型,使用空间自注意力机制。5.根据权利要求1所述的医疗报告结构化识别模型训练方法,其特征在于,所述文本类别包括other和/或question和/或answer和/或name和/或result和/或unit和/或range和/或method。6.一种医疗报告结构化识别模型训练系统,其特征在于,包括:医疗报告获取...
【专利技术属性】
技术研发人员:高唯唯,文景涛,曾婷,欧阳滨滨,林梓陆,陈益祥,蔡德贵,匡思羽,柳子用,
申请(专利权)人:联通广东产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。