一种对体检报告进行OCR识别以及结构化的方法及系统技术方案

技术编号:37065905 阅读:7 留言:0更新日期:2023-03-29 19:44
本发明专利技术涉及信息处理技术领域,提供一种对体检报告进行OCR识别以及结构化的方法及系统,包括:将获取的体检报告材料影像件生成不同方向的样本数据,利用样本数据进行方向检测模型训练,并对样本数据进行方向检测并旋转方向使其达到最优解,对样本数据进行OCR文字识别处理,得到文字列表以及对应文字位置坐标信息;训练图像分拣AI模型,利用图像分拣AI模型得到样本数据类型

【技术实现步骤摘要】
一种对体检报告进行OCR识别以及结构化的方法及系统


[0001]本专利技术涉及信息处理
,尤其涉及一种对体检报告进行OCR识别以及结构化的方法及系统。

技术介绍

[0002]体检报告的识别及结构化不同于常规其他影像件的处理,常规影像件的识别及结构化通过模板进行,某一类的影像件类型大多来说外观布局都是类似的,可以使用标准化的模板来进行模型训练后得到结构化数据。如身份证结构化,所有身份证图片都是符合标准身份证模板的外观布局的,只需要将图中标识字段的相对位置确定,那每个标签字段的位置也就相对确定了,但对于体检报告来说没有统一的标准化模板,针对每家医院或体检机构生成一种模板,由于模板类型较多,且不能通过相对位置确定每个指标的位置信息。
[0003]目前保险行业中体检报告主要是通过传统人力录入的方式进行数据结构化,根据人力切图方式对每张体检报告的不同信息进行拆分,然后拆分后的每一部分确定行列关系以及每列的具体含义,结合行列关系及含义进行OCR识别,将识别到的数据放置到相应位置,最后由人工复核拼接每张体检报告的结构化。这种方式的好处在于不需要进行模型训练,无需有机器学习基础,缺点是需要大量人力成本投入,每个阶段人工差错大以及标准不同,导致体检报告复核错误多,准确率没有超过50%。

技术实现思路

[0004]本专利技术主要解决现有技术的体检报告模板类型较多,需要人工录入,准确率低,工作效率低,且投入人工成本高的技术问题,提出一种对体检报告进行OCR识别以及结构化的方法及系统,以达到提高体检报告的识别及结构化的准确率和效率的目的。
[0005]本专利技术提供了一种对体检报告进行OCR识别以及结构化的方法及系统,包括:所述对体检报告进行OCR识别以及结构化的方法包括:
[0006]获取体检报告材料影像件;
[0007]将所述体检报告材料影像件生成不同方向的样本数据,利用所述样本数据进行方向检测模型训练;
[0008]利用所述方向检测模型对所述样本数据进行方向检测并旋转方向使其达到最优解,并对所述样本数据进行OCR文字识别处理,得到文字列表以及对应文字位置坐标信息;
[0009]训练图像分拣模型,并利用所述图像分拣模型得到样本数据类型

体检报告;利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型

体检报告进行结构化处理,输出为统一的表格形式;
[0010]根据体检报告的项目逻辑按照所述统一的表格形式输出结构化数据。
[0011]进一步地,所述方法,包括:所述获取体检报告材料影像件,包括:通过API接口、WEB系统或SFTP方式获取用户提供的体检报告材料影像件。
[0012]进一步地,所述方法,包括:所述将所述体检报告材料影像件生成不同方向的样本
数据,包括:利用人工标注方式生成0度、90度、180度、270度的所述样本数据,通过自动旋转方法对每个数据进行顺时针旋转,每次增加角度1度,获取每个角度的样本数据。
[0013]进一步地,所述方法,包括:
[0014]所述将所述体检报告材料影像件生成不同方向的样本数据,还包括:
[0015]采用数据增强技术对所述体检报告材料影像件进行预处理;
[0016]将0度的样本数据命名为:0_entityName,
[0017]90度的样本数据命名为90_entityName,
[0018]180度的样本数据命名为180_entityName,
[0019]270度的样本数据命名为270_entityName,
[0020]以此完成从0度到360度的样本数据的准备,并生成对应的label.txt文件,其中label.txt文件中每行数据包含图片路径与标签值;
[0021]按照2:8比例分别从label.txt文件抽取数据生成test.txt与train.txt文件,数据总量为55512。
[0022]进一步地,所述方法,包括:所述利用所述样本数据进行方向检测模型训练,包括:适用Adam优化算法作为方向检测室模型的优化器,训练脚本预设batch_size为10,epoch为20,eval_batch_step为1500,num_workers为4;通过不断调整参数,以保证模型的准确率,获取所述影像件的偏移角度后,通过自动旋转方法将所述影像件反向旋转相应角度获得最终方向正确的影像件。
[0023]进一步地,所述方法,包括:所述训练图像分拣模型,并利用所述图像分拣模型得到样本数据类型

体检报告,包括:对不同类型的样本数据进行人工标注准备AI分拣模型样本素材,具体为:从所述样本数据中人工标注出体检报告、描述报告、B超检查报告、病历、出院小结、入院记录、检查类报告等类别,并将所述体检报告标记为TYPE_TJBG,B超检查报告标记为TYPE_BCJCBG,病历标记为TYPE_BL,出院小结标记为TYPE_CYXJ,入院记录标记为TYPE_RYJL,检查类报告标记为TYPE_JCBG;根据系统自动生成的训练路径image_dir,修改参数进行模型调整,利用人工标注后的所述样本数据来训练,最终得到最优模型。
[0024]进一步地,所述方法,包括:所述利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型

体检报告进行结构化处理,输出为统一的表格形式,包括:根据所述文字列表以及对应文字位置坐标信息的四点坐标,利用表格模型构造一个新的x行y列的新表格,再根据tableFlag判断是否符合表格模板进行单元格合并,输出为统一的表格形式。
[0025]进一步地,所述方法,包括:所述利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型

体检报告进行结构化处理,还包括:对所述表格模型进行机器学习训练,具体步骤包括:
[0026]S1、对文字识别列表resList结合文字位置坐标信息rect对识别结果进行从上到下从左到右重新排序,首先确定阈值大小:判断实体坐标y0距离下一实体坐标y1的距离,求平均值,该平均值即为阈值,公式如下:
[0027][0028]其中,e
X
指的是第x个实体,表示实体总数,Y
ex
表示第x个实体的Y轴坐标信息,Y
ex+1

Y
ex
表示第x+1个实体到第x个实体的Y轴距离;
[0029]确定阈值后,根据阈值来判断前后实体是否进行调整,确定每行中每个字段的前后位置以及list包含多少行数据;最终获得按照位置信息排序的实体列表resNewList;
[0030]S2、确定参考行以及表头行位置,确定参考行目的是在下一步中以参考行为依据进行补列,确定表头行目的是对一个大表按照项目进行拆分,拆成若干个小表,每个小表即为一个检查项目;其中表头行的定义依据:体检报告表头一般都包含项目名称indexN本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述对体检报告进行OCR识别以及结构化的方法包括:获取体检报告材料影像件;将所述体检报告材料影像件生成不同方向的样本数据,利用所述样本数据进行方向检测模型训练;利用所述方向检测模型对所述样本数据进行方向检测并旋转方向使其达到最优解,并对所述样本数据进行OCR文字识别处理,得到文字列表以及对应文字位置坐标信息;训练图像分拣模型,并利用所述图像分拣模型得到样本数据类型

体检报告;利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型

体检报告进行结构化处理,输出为统一的表格形式;根据体检报告的项目逻辑按照所述统一的表格形式输出结构化数据。2.根据权利要求1所述的对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述方法,包括:所述获取体检报告材料影像件,包括:通过API接口、WEB系统或SFTP方式获取用户提供的体检报告材料影像件。3.根据权利要求2所述的对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述方法,包括:所述将所述体检报告材料影像件生成不同方向的样本数据,包括:利用人工标注方式生成0度、90度、180度、270度的所述样本数据,通过自动旋转方法对每个数据进行顺时针旋转,每次增加角度1度,获取每个角度的样本数据。4.根据权利要求3所述的对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述方法,包括:所述将所述体检报告材料影像件生成不同方向的样本数据,还包括:采用数据增强技术对所述体检报告材料影像件进行预处理;将0度的样本数据命名为:0_entityName,90度的样本数据命名为90_entityName,180度的样本数据命名为180_entityName,270度的样本数据命名为270_entityName,以此完成从0度到360度的样本数据的准备,并生成对应的label.txt文件,其中label.txt文件中每行数据包含图片路径与标签值;按照2:8比例分别从label.txt文件抽取数据生成test.txt与train.txt文件,数据总量为55512。5.根据权利要求4所述的对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述方法,包括:所述利用所述样本数据进行方向检测模型训练,所述利用所述方向检测模型对所述样本数据进行方向检测并旋转方向使其达到最优解,包括:适用Adam优化算法作为方向检测室模型的优化器,训练脚本预设batch_size为10,epoch为20,eval_batch_step为1500,num_workers为4;通过不断调整参数,以保证模型的准确率,获取所述影像件的偏移角度后,通过自动旋转方法将所述影像件反向旋转相应角
度获得最终方向正确的影像件。6.根据权利要求5所述的对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述方法,包括:所述训练图像分拣模型,并利用所述图像分拣模型得到样本数据类型

体检报告,包括:对不同类型的样本数据进行人工标注准备AI分拣模型样本素材,具体为:从所述样本数据中人工标注出体检报告、描述报告、B超检查报告、病历、出院小结、入院记录、检查类报告等类别,并将所述体检报告标记为TYPE_TJBG,B超检查报告标记为TYPE_BCJCBG,病历标记为TYPE_BL,出院小结标记为TYPE_CYXJ,入院记录标记为TYPE_RYJL,检查类报告标记为TYPE_JCBG;根据系统自动生成的训练路径image_dir,修改参数进行模型调整,利用人工标注后的所述样本数据来训练,最终得到最优模型。7.根据权利要求6所述的对体检报告进行OCR识别以及结构化的方法及系统,其特征在于,所述方法,包括:所述利用表格模型根据所述文字列表以及对应文字位置坐标信息,对所述样本数据类型

体检报告进行结构化处理,输出为统一的表格形式,包括:根据所述文字列表以及对应文字位置坐标...

【专利技术属性】
技术研发人员:罗慧颜世伟王竞赵为汉梁浩然何方华
申请(专利权)人:上海商涌科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1