一种文档图像识别方法、装置、设备及存储介质制造方法及图纸

技术编号:36781038 阅读:27 留言:0更新日期:2023-03-08 22:15
本发明专利技术公开了一种文档图像识别方法、装置、设备及存储介质。该方法包括:通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器;将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像,其中,所述第一图像为对文档图像进行划分得到的图像;将至少一个第二图像输入目标识别模型,得到每个第二图像对应的文本数据,通过本发明专利技术的技术方案,能够充分利用CPU和GPU的资源,提高CPU和GPU的利用率。GPU的利用率。GPU的利用率。

【技术实现步骤摘要】
一种文档图像识别方法、装置、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种文档图像识别方法、装置、设备及存储介质。

技术介绍

[0002]在金融场景中,通用文档主要指电子文档和扫描文件图片,包括密集长文本、倾斜图片以及表格类场景等,如信用证、提货单、存放同业合同、贸易合同以及财务报表等。在金融场景业务的日常工作中,每天会产生大量的数据录入需求,各厂商提供的通用文档OCR识别服务处于高并发场景下,通用文档OCR识别服务预测请求的平均响应延迟时间达不到业务要求,市面上的绝大多数同类产品一方面直接使用文本检测和文本识别训练得出的FLOAT32模型进行推测,模型的尺寸及内存消耗都比较大。
[0003]当前OCR服务是直接使用串行执行的方式,没有充分利用服务器端的硬件资源,通用文档端到端识别虽然能满足自动提取相关文档信息,但是CPU利用率低,导致CPU资源浪费。

技术实现思路

[0004]本专利技术实施例提供一种文档图像识别方法、装置、设备及存储介质,解决了OCR服务中CPU利用率低和CPU资源浪费的问题。
[0005]根据本专利技术的一方面,提供了一种文档图像识别方法,包括:
[0006]通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器;
[0007]将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像,其中,所述第一图像为对文档图像进行划分得到的图像;
[0008]将至少一个第二图像输入目标识别模型,得到每个第二图像对应的文本数据。
[0009]根据本专利技术的另一方面,提供了一种文档图像识别装置,该文档图像识别装置包括:
[0010]矩阵拷贝模块,用于通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器;
[0011]图像得到模块,用于将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像,其中,所述第一图像为对文档图像进行划分得到的图像;
[0012]文本得到模块,用于将至少一个第二图像输入目标识别模型,得到每个第二图像对应的文本数据。
[0013]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文档图像识别方法。
[0017]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文档图像识别方法。
[0018]本专利技术实施例通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器;将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像,其中,所述第一图像为对文档图像进行划分得到的图像;将至少一个第二图像输入目标识别模型,得到每个第二图像对应的文本数据,解决了OCR服务中CPU利用率低和CPU资源浪费的问题,能够充分利用CPU和GPU的资源,提高CPU和GPU的利用率。
[0019]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0021]图1是本专利技术实施例一中的一种文档图像识别方法的流程图;
[0022]图2是本专利技术实施例一中的一种对称量化和非对称量化的示意图;
[0023]图3是本专利技术实施例二中的一种文档图像识别装置的结构示意图;
[0024]图4是本专利技术实施例三中的一种电子设备的结构示意图。
具体实施方式
[0025]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0026]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0027]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法
律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0028]实施例一
[0029]图1是本专利技术实施例一中的一种文档图像识别方法的流程图,本实施例可适用于文档图像检测和识别的情况,该方法可以由本专利技术实施例中的文档图像识别装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
[0030]S110,通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器。
[0031]其中,第一处理器为CPU(Central Processing Unit,中央处理器),第二处理器为GPU(Graphics Processing Unit,图形处理器)。
[0032]其中,透射变换矩阵为在获取文档图像和目标图像后,通过读取或者计算的方式,获取文档图像对齐到目标图像的透射变换矩阵,目标图像为文档图像经过目标文本检测模型处理后得到的图像。目标图像中的字体为标准字体。
[0033]具体的,通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器的方式可以为:先通过CPU多核并行计算获取透射变换矩阵,拷贝获取的透射变换矩阵至GPU。
[0034]需要说明的是,因透射变换矩阵计算量相对较小,且数据拷贝带来的延时要远远大于计算的时间,故将透射变换矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像识别方法,其特征在于,包括:通过第一处理器获取透射变换矩阵,并将透射变换矩阵拷贝至第二处理器;将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像,其中,所述第一图像为对文档图像进行划分得到的图像;将至少一个第二图像输入目标识别模型,得到每个第二图像对应的文本数据。2.根据权利要求1所述的方法,其特征在于,在将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像之前,还包括:将文档图像输入目标文本检测模型,得到文本位置坐标;根据文本位置坐标对文档图像进行划分,得到至少一个第一图像。3.根据权利要求1所述的方法,其特征在于,在将至少一个第一图像从内存拷贝到第二处理器显存中,通过第二处理器多核并行根据透射变换矩阵对第一图像进行透射变换,得到透射变换后的至少一个第二图像之后,还包括:将透射变换后的至少一个第二图像从第二处理器的显存拷贝到内存中,释放第二处理器显存。4.根据权利要求2所述的方法,其特征在于,在将文档图像输入目标文本检测模型,得到文本位置坐标之前,还包括:获取文本检测模型的参数;根据文本检测模型的参数确定文本检测模型的权重最大值、文本检测模型的权重最小值、文本检测模型的激活值最大值以及文本检测模型的激活值最小值;根据文本检测模型的权重最大值、文本检测模型的权重最小值、文本检测模型的激活值最大值以及文本检测模型的激活值最小值对文本检测模型的参数进行量化,得到量化后的第一目标参数;根据量化后的第一目标参数生成目标文本检测模型。5.根据权利要求4所述的方法,其特征在于,根据文本检测模型的权重最大值、文本检测模型的权重最小值、文本检测模型的激活值最大值以及文本检测模型的激活值最小值对文本检测模型的参数进行量化,得到量化后的第一目标参数,包括:获取用户输入的量化类型;若量化类型为对称量化,则根据文本检测模型的权重最大值、文本检测模型的权重最小值、文本检测模型的激活值最大值、文本检测模型的激活值最小值以及第一数值确定量化后的激活值和量化后的权重;若量化类型为非对称量化,则根据文本检测模型的权重最大值、文本检测模型的权重最小值、文本检测模型的激...

【专利技术属性】
技术研发人员:张斌李捷陈鹏宇赵逸如张玉琦
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1