医学报告文本数据处理方法、系统、装置及存储介质制造方法及图纸

技术编号：40807314 阅读：20 留言：0更新日期：2024-03-28 19:30

本公开实施例基于图像识别和文本布局模式匹配的医学报告文本数据处理方法、系统、装置及存储介质。方案包括：由图像输入模块接收医学报告图像以利用图文识别模块得到文本数据集；基于文本数据集中文本段的内容和/或图像位置信息与第一类文本布局模式匹配，确定各级项目名称和分块；基于分块中文本段的内容和/或图像位置信息与第二类文本布局模式匹配，提取项目名称关联的项目数据；整合各级项目名称和项目数据形成医学报告的结构化数据。本公开能根据医学报告图像中各种文本布局模式设计有效的信息提取逻辑以提取结构化的医学数据，解决传统OCR技术在医学报告应用的问题，适用于医疗信息管理、医疗数据分析、医疗知识发现等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及医学数据处理，尤其涉及医学报告文本数据处理方法、系统、装置及存储介质。

技术介绍

1、光学字符识别(optical character recognition，ocr)是指对文本资料进行扫描后对图像文件进行分析处理，获取文字及版面信息的过程。

2、然而，传统ocr技术只是将图像中的文字识别成文本的技术，但它不能识别图片中的信息，也不能理解文本中的语义和结构，故无法直接对文本进行结构化的处理。比如，在医学报告识别的领域，例如体检报告等，常见的ocr技术只能将其中的文本识别出来，而无法获取文本之间的关联，比如肝功能及对应的几项肝功能血指标等。也无法识别比如分割线、表格线等区分不同文本部分的符号。

技术实现思路

1、鉴于以上所述现有技术的缺点，本公开的目的在于提供可基于图像识别和文本布局模式匹配的医学报告文本数据处理方法、系统、装置及存储介质，解决相关技术中的问题。

2、本公开第一方面提供一种医学报告文本数据处理方法，包括：由图像输入模块接收医学报告图像以利用图...

【技术保护点】

1.一种医学报告文本数据处理方法，其特征在于，包括：

2.根据权利要求1所述的医学报告文本数据处理方法，其特征在于，所述基于所述文本数据集中文本段的内容和/或图像位置信息，与第一类文本布局模式匹配，确定至少一级项目名称及其在所述文本数据集对应的文本数据分块，包括：

3.根据权利要求2所述的医学报告文本数据处理方法，其特征在于，所述配置数据中包含映射至每个项目名称的至少一种近似错误名称。

4.根据权利要求2所述的医学报告文本数据处理方法，其特征在于，所述基于描述一级项目名称文本特征的正则表达式在所述文本数据集匹配，获得所述文本数据集中匹配所述正则表达式的...

【技术特征摘要】

1.一种医学报告文本数据处理方法，其特征在于，包括：

3.根据权利要求2所述的医学报告文本数据处理方法，其特征在于，所述配置数据中包含映射至每个项目名称的至少一种近似错误名称。

4.根据权利要求2所述的医学报告文本数据处理方法，其特征在于，所述基于描述一级项目名称文本特征的正则表达式在所述文本数据集匹配，获得所述文本数据集中匹配所述正则表达式的一级项目名称，包括：

5.根据权利要求1所述的医学报告文本数据处理方法，其特征在于，所述第二类文本布局模式包括第一布局模式类型；所述第一布局模式类型指的是：医学报告图像中项目名称和项目数据分布于不同列；所述基于每个所述文本数据分块中文本段的内容和/或图像位置信息，与第二类文本布局模式匹配，提取与各级项目名称关联的项目数据，包括：

6.根据权利要求5所述的医学报告文本数据处理方法，其特征在于，所述在文本数据分块中，依次确定与每个末级项目名称对应的行范围，以形成每个末级项目名称与对应行范围内各行项目数据间的关联关系，包括：

7.根据权利要求1所述的医学报告文本数据处理方法，其特征在于，所述第二类...

【专利技术属性】
技术研发人员：张天天，戴瑞明，赵祥超，罗力，钱梦岑，
申请(专利权)人：上海海宇信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人