图像识别方法、系统、电子设备和存储介质技术方案

技术编号:38875945 阅读:12 留言:0更新日期:2023-09-22 14:09
本申请公开了一种图像识别方法、系统、电子设备和存储介质。所述图像识别方法包括:对待处理图像进行图像矫正处理得到正向图像;通过光学字符识别对正向图像进行图像识别,得到图像数据信息;基于预设算法对图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息。息。息。

【技术实现步骤摘要】
图像识别方法、系统、电子设备和存储介质


[0001]本申请涉及图像识别
,具体而言,涉及一种图像识别方法、系统、电子设备和存储介质。

技术介绍

[0002]随着科学技术的技术,医疗领域也逐渐发展为数字化管理。如在目前的医学检验报告单的数据收集中,与医院信息系统的数据对接是常见的数据处理方式。
[0003]但在目前的一些非结构化医学检验报告单的数字化的情况下,大部分的医学检验报告单为图片、纸质或者其他文档格式,对这些非结构化的医学检验报告单进行数字化处理是个具有挑战性的工作。
[0004]目前一般为通过将医学检验报告单转换为图像格式,进而对图像进行信息提取以得到包括提取信息的相应文档(如表格)。
[0005]但本申请的专利技术人发现,由于图像一般是对医学检验报告单进行拍照或扫描处理得到的,因此可能会存在一定程度的倾斜和噪声干扰,图像的倾斜和噪声干扰会影响图像内容的准确识别;以及由于表格为结构化表格,其异于一般类型的文档识别,表格内容的识别还需要考虑数据项之间的对应关系。
[0006]基于此,提供一种将非结构化的图像(如医学检查报告单)进行图像识别得到对应的表格信息是本申请想要解决的技术方案。

技术实现思路

[0007]本申请公开了一种图像识别方法、系统、电子设备和存储介质。所述图像识别方法包括:对待处理图像进行图像矫正处理得到正向图像;通过光学字符识别对正向图像进行图像识别,得到图像数据信息;基于预设算法对图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息。
[0008]根据本申请的一些实施例,对待处理图像进行图像矫正处理得到正向图像包括:在预设角度范围内以预设旋转角度步长对待处理图像进行多次图像旋转;根据每次旋转后的待处理图像的图像像素方差形成像素方差组;将待处理图像旋转矫正角度得到正向图像,其中矫正角度为像素方差组中的最大像素方差所对应的旋转角度。
[0009]根据本申请的一些实施例,根据每次旋转后的待处理图像的图像像素方差形成像素方差组包括:确定每次旋转后的待处理图像的行像素或列像素的和;对待处理图像的所有行的行像素和求方差处理,得到图像像素方差,或者对待处理图像的所有列的列像素和求方差处理,得到图像像素方差;将所有图像像素方差组成像素方差组。
[0010]根据本申请的一些实施例,图像数据信息包括文本命名信息和文本位置信息,基于预设算法对图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息包括:根据文本命名信息和文本位置信息确定文档信息的多个行文本信息;基于第一预设匹配规则确定多个行文本信息的首行文本信息;基于第二预设匹配规则确定多个行文本信息的行顺
序信息;根据首行文本信息和行顺序信息确定文档信息。
[0011]根据本申请的一些实施例,基于第一预设匹配规则确定多个行文本信息的首行文本信息包括:将多个行文本信息中与预设首行文本信息的行匹配度最高的行文本信息确定为首行文本信息;行匹配度的计算公式为:P
r
=2.0*M1/T1,其中,P
r
为行匹配度,M1为行文本信息与预设首行文本信息中字符串的交集字符个数,T1为行文本信息与预设首行文本信息中字符串的长度和。
[0012]根据本申请的一些实施例,基于第二预设匹配规则确定多个行文本信息的行顺序信息包括:依次确定多个行文本信息中的与预设列文本信息的列匹配度最高的行文本信息;列匹配度的计算公式为:P
c
=2.0*M2/T2,其中,P
c
为列匹配度,M2为行文本信息与预设列文本信息中字符串的交集字符个数,T2为行文本信息与预设列文本信息中字符串的长度和。
[0013]根据本申请的一些实施例,在基于预设算法对图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息后,图像识别方法还包括:判断出文档信息中存在丢失文本信息,则提取丢失文本信息的相邻域的图像;通过光学字符识对相邻域的图像进行二次提取,以得到包括丢失文本信息的文档信息。
[0014]本申请的另一方面,提供了一种图像识别系统。所述图像识别系统包括图像矫正单元、数据识别单元和图像处理单元。图像矫正单元对待处理图像进行图像矫正处理得到正向图像;数据识别单元通过光学字符识别对正向图像进行图像识别,得到图像数据信息;图像处理单元基于预设算法对图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息。
[0015]根据本申请的又一方面,本申请提供了一种电子设备。所述电子设备包括一个或多个处理器和存储装置,存储装置用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器可以实现如上文所述的图像识别方法。
[0016]根据本申请的又一方面,本申请提供了一种非易失性计算机可读存储。所述存储介质上存储有计算机程序,该计算机程序可以实现如上文所述的图像识别方法。
[0017]本申请通过对待处理图像进行图像矫正处理得到正向图像,以及通过光学字符识别对正向图像进行图像识别,得到图像数据信息,并基于预设算法对图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息。本申请可以基于机器学习算法自动对图像进行图像倾斜矫正和结构化表格数据内容的识别,可以快速完成图像的数据录入,提高数字化工作效率。
附图说明
[0018]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1示出本申请示例实施例的图像识别方法的一示意图;
[0020]图2示出本申请示例实施例的待处理图像的示意图;
[0021]图3示出本申请示例实施例的图像识别方法的另一示意图;
[0022]图4示出本申请示例实施例的倾斜角与图像像素方差的曲线示意图;
[0023]图5示出本申请示例实施例的正向图像的示意图;
[0024]图6示出本申请示例实施例的图像识别方法的另一示意图;
[0025]图7示出本申请示例实施例的文档信息的示意图;
[0026]图8示出本申请示例实施例的图像识别方法的另一示意图;
[0027]图9示出了本申请示例实施例的图像识别系统的示意图。
[0028]附图标记说明:
[0029]图像识别系统1;图像矫正单元10;数据识别单元20;图像处理单元30。
具体实施方式
[0030]现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0031]所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:对待处理图像进行图像矫正处理得到正向图像;通过光学字符识别对所述正向图像进行图像识别,得到图像数据信息;基于预设算法对所述图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息。2.根据权利要求1所述的图像识别方法,其特征在于,所述对待处理图像进行图像矫正处理得到正向图像包括:在预设角度范围内以预设旋转角度步长对所述待处理图像进行多次图像旋转;根据每次旋转后的待处理图像的图像像素方差形成像素方差组;将所述待处理图像旋转矫正角度得到所述正向图像,其中所述矫正角度为所述像素方差组中的最大像素方差所对应的旋转角度。3.根据权利要求2所述的图像识别方法,其特征在于,所述根据每次旋转后的待处理图像的图像像素方差形成像素方差组包括:确定每次旋转后的待处理图像的行像素或列像素的和;对所述待处理图像的所有行的行像素和求方差处理,得到所述图像像素方差,或者对所述待处理图像的所有列的列像素和求方差处理,得到所述图像像素方差;将所有图像像素方差组成所述像素方差组。4.根据权利要求1所述的图像识别方法,其特征在于,所述图像数据信息包括文本命名信息和文本位置信息,所述基于预设算法对所述图像数据信息进行数据匹配提取,得到具有结构化数据的文档信息包括:根据所述文本命名信息和所述文本位置信息确定所述文档信息的多个行文本信息;基于第一预设匹配规则确定所述多个行文本信息的首行文本信息;基于第二预设匹配规则确定所述多个行文本信息的行顺序信息;根据所述首行文本信息和所述行顺序信息确定所述文档信息。5.根据权利要求4所述的图像识别方法,其特征在于,所述基于第一预设匹配规则确定所述多个行文本信息的首行文本信息包括:将所述多个行文本信息中与预设首行文本信息的行匹配度最高的行文本信息确定为所述首行文本信息;所述行匹配度的计算公式为:P
r
=2.0*M1/T1其中,P
r
为所述行匹配度,M1为所述...

【专利技术属性】
技术研发人员:汤雯李广孙颖徐成海柯兵兵李虹伟刘冰王珊王霁虹于亮王立伟
申请(专利权)人:科亚医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1