【技术实现步骤摘要】
本公开涉及医学数据处理,尤其涉及医学报告文本数据处理方法、系统、装置及存储介质。
技术介绍
1、光学字符识别(optical character recognition,ocr)是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程。
2、然而,传统ocr技术只是将图像中的文字识别成文本的技术,但它不能识别图片中的信息,也不能理解文本中的语义和结构,故无法直接对文本进行结构化的处理。比如,在医学报告识别的领域,例如体检报告等,常见的ocr技术只能将其中的文本识别出来,而无法获取文本之间的关联,比如肝功能及对应的几项肝功能血指标等。也无法识别比如分割线、表格线等区分不同文本部分的符号。
技术实现思路
1、鉴于以上所述现有技术的缺点,本公开的目的在于提供可基于图像识别和文本布局模式匹配的医学报告文本数据处理方法、系统、装置及存储介质,解决相关技术中的问题。
2、本公开第一方面提供一种医学报告文本数据处理方法,包括:由图像输入模块接收医学报告图像以利用图
...【技术保护点】
1.一种医学报告文本数据处理方法,其特征在于,包括:
2.根据权利要求1所述的医学报告文本数据处理方法,其特征在于,所述基于所述文本数据集中文本段的内容和/或图像位置信息,与第一类文本布局模式匹配,确定至少一级项目名称及其在所述文本数据集对应的文本数据分块,包括:
3.根据权利要求2所述的医学报告文本数据处理方法,其特征在于,所述配置数据中包含映射至每个项目名称的至少一种近似错误名称。
4.根据权利要求2所述的医学报告文本数据处理方法,其特征在于,所述基于描述一级项目名称文本特征的正则表达式在所述文本数据集匹配,获得所述文本数据集中
...【技术特征摘要】
1.一种医学报告文本数据处理方法,其特征在于,包括:
2.根据权利要求1所述的医学报告文本数据处理方法,其特征在于,所述基于所述文本数据集中文本段的内容和/或图像位置信息,与第一类文本布局模式匹配,确定至少一级项目名称及其在所述文本数据集对应的文本数据分块,包括:
3.根据权利要求2所述的医学报告文本数据处理方法,其特征在于,所述配置数据中包含映射至每个项目名称的至少一种近似错误名称。
4.根据权利要求2所述的医学报告文本数据处理方法,其特征在于,所述基于描述一级项目名称文本特征的正则表达式在所述文本数据集匹配,获得所述文本数据集中匹配所述正则表达式的一级项目名称,包括:
5.根据权利要求1所述的医学报告文本数据处理方法,其特征在于,所述第二类文本布局模式包括第一布局模式类型;所述第一布局模式类型指的是:医学报告图像中项目名称和项目数据分布于不同列;所述基于每个所述文本数据分块中文本段的内容和/或图像位置信息,与第二类文本布局模式匹配,提取与各级项目名称关联的项目数据,包括:
6.根据权利要求5所述的医学报告文本数据处理方法,其特征在于,所述在文本数据分块中,依次确定与每个末级项目名称对应的行范围,以形成每个末级项目名称与对应行范围内各行项目数据间的关联关系,包括:
7.根据权利要求1所述的医学报告文本数据处理方法,其特征在于,所述第二类...
【专利技术属性】
技术研发人员:张天天,戴瑞明,赵祥超,罗力,钱梦岑,
申请(专利权)人:上海海宇信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。