一种对体检报告进行OCR识别以及结构化的方法及系统技术方案

技术编号：37065905 阅读：7 留言：0更新日期：2023-03-29 19:44

本发明专利技术涉及信息处理技术领域，提供一种对体检报告进行OCR识别以及结构化的方法及系统，包括：将获取的体检报告材料影像件生成不同方向的样本数据，利用样本数据进行方向检测模型训练，并对样本数据进行方向检测并旋转方向使其达到最优解，对样本数据进行OCR文字识别处理，得到文字列表以及对应文字位置坐标信息；训练图像分拣AI模型，利用图像分拣AI模型得到样本数据类型

全部详细技术资料下载

【技术实现步骤摘要】
一种对体检报告进行OCR识别以及结构化的方法及系统

[0001]本专利技术涉及信息处理
，尤其涉及一种对体检报告进行OCR识别以及结构化的方法及系统。

技术介绍

[0002]体检报告的识别及结构化不同于常规其他影像件的处理，常规影像件的识别及结构化通过模板进行，某一类的影像件类型大多来说外观布局都是类似的，可以使用标准化的模板来进行模型训练后得到结构化数据。如身份证结构化，所有身份证图片都是符合标准身份证模板的外观布局的，只需要将图中标识字段的相对位置确定，那每个标签字段的位置也就相对确定了，但对于体检报告来说没有统一的标准化模板，针对每家医院或体检机构生成一种模板，由于模板类型较多，且不能通过相对位置确定每个指标的位置信息。
[0003]目前保险行业中体检报告主要是通过传统人力录入的方式进行数据结构化，根据人力切图方式对每张体检报告的不同信息进行拆分，然后拆分后的每一部分确定行列关系以及每列的具体含义，结合行列关系及含义进行OCR识别，将识别到的数据放置到相应位置，最后由人工复核拼接每张体检报告的结构化。这种方式的好处在于不需要进行模型训练，无需有机器学习基础，缺点是需要大量人力成本投入，每个阶段人工差错大以及标准不同，导致体检报告复核错误多，准确率没有超过50％。

技术实现思路

[0004]本专利技术主要解决现有技术的体检报告模板类型较多，需要人工录入，准确率低，工作效率低，且投入人工成本高的技术问题，提出一种对体检报告进行OCR识别以及结构化的方法及系统，以达到提高体检报告的识别及...

【技术保护点】

【技术特征摘要】
1.一种对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述对体检报告进行OCR识别以及结构化的方法包括：获取体检报告材料影像件；将所述体检报告材料影像件生成不同方向的样本数据，利用所述样本数据进行方向检测模型训练；利用所述方向检测模型对所述样本数据进行方向检测并旋转方向使其达到最优解，并对所述样本数据进行OCR文字识别处理，得到文字列表以及对应文字位置坐标信息；训练图像分拣模型，并利用所述图像分拣模型得到样本数据类型
‑
体检报告；利用表格模型根据所述文字列表以及对应文字位置坐标信息，对所述样本数据类型
‑
体检报告进行结构化处理，输出为统一的表格形式；根据体检报告的项目逻辑按照所述统一的表格形式输出结构化数据。2.根据权利要求1所述的对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述方法，包括：所述获取体检报告材料影像件，包括：通过API接口、WEB系统或SFTP方式获取用户提供的体检报告材料影像件。3.根据权利要求2所述的对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述方法，包括：所述将所述体检报告材料影像件生成不同方向的样本数据，包括：利用人工标注方式生成0度、90度、180度、270度的所述样本数据，通过自动旋转方法对每个数据进行顺时针旋转，每次增加角度1度，获取每个角度的样本数据。4.根据权利要求3所述的对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述方法，包括：所述将所述体检报告材料影像件生成不同方向的样本数据，还包括：采用数据增强技术对所述体检报告材料影像件进行预处理；将0度的样本数据命名为：0_entityName,90度的样本数据命名为90_entityName,180度的样本数据命名为180_entityName,270度的样本数据命名为270_entityName,以此完成从0度到360度的样本数据的准备，并生成对应的label.txt文件，其中label.txt文件中每行数据包含图片路径与标签值；按照2:8比例分别从label.txt文件抽取数据生成test.txt与train.txt文件，数据总量为55512。5.根据权利要求4所述的对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述方法，包括：所述利用所述样本数据进行方向检测模型训练，所述利用所述方向检测模型对所述样本数据进行方向检测并旋转方向使其达到最优解，包括：适用Adam优化算法作为方向检测室模型的优化器，训练脚本预设batch_size为10，epoch为20，eval_batch_step为1500，num_workers为4；通过不断调整参数，以保证模型的准确率，获取所述影像件的偏移角度后，通过自动旋转方法将所述影像件反向旋转相应角
度获得最终方向正确的影像件。6.根据权利要求5所述的对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述方法，包括：所述训练图像分拣模型，并利用所述图像分拣模型得到样本数据类型
‑
体检报告，包括：对不同类型的样本数据进行人工标注准备AI分拣模型样本素材，具体为：从所述样本数据中人工标注出体检报告、描述报告、B超检查报告、病历、出院小结、入院记录、检查类报告等类别，并将所述体检报告标记为TYPE_TJBG，B超检查报告标记为TYPE_BCJCBG，病历标记为TYPE_BL，出院小结标记为TYPE_CYXJ，入院记录标记为TYPE_RYJL，检查类报告标记为TYPE_JCBG；根据系统自动生成的训练路径image_dir，修改参数进行模型调整，利用人工标注后的所述样本数据来训练，最终得到最优模型。7.根据权利要求6所述的对体检报告进行OCR识别以及结构化的方法及系统，其特征在于，所述方法，包括：所述利用表格模型根据所述文字列表以及对应文字位置坐标信息，对所述样本数据类型
‑
体检报告进行结构化处理，输出为统一的表格形式，包括：根据所述文字列表以及对应文字位置坐标...

【专利技术属性】
技术研发人员：罗慧，颜世伟，王竞，赵为汉，梁浩然，何方华，
申请(专利权)人：上海商涌科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人