基于混合卷积文字图像识别方法、装置、设备及存储介质制造方法及图纸

技术编号:25638185 阅读:19 留言:0更新日期:2020-09-15 21:30
本发明专利技术涉及人工智能,提供一种基于混合卷积文字图像识别方法、装置、计算机设备及存储介质,通过获取待识别图像;获取包含混合卷积核的文字图像识别模型;将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图;将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果;采用预设的损失函数对字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。通过在文字图像识别模型中采用混合卷积核来进行卷积特征提取,提高文字识别准确率。采用混合卷积核的方式,充分学习相邻文字区域,提高文字识别的准确率和覆盖率。

【技术实现步骤摘要】
基于混合卷积文字图像识别方法、装置、设备及存储介质
本专利技术涉及文字识别
,尤其涉及一种基于混合卷积文字图像识别方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的发展,自然语言处理领域(例如:文字检测、文字识别、语音识别或者文本翻译识别等领域)也相应快速发展。其中,文字检测和文字识别是应用场景非常广泛的,其在路牌检测识别、场景文字翻译或者图书文本识别提取等场景中均得到了广泛应用。在现有技术中,大多数文字检测和文字识别的方法都是通过卷积神经网络来实现的。但现有技术中卷积神经网络在识别一些特殊字体,比如艺术字、手写字体或者不规则字体时,会极易出现误差,并且,一般的卷积神经网络仅仅只是可以对较小覆盖区域内的局部文字进行聚焦,如此,会导致识别范围较小,进而降低识别效率。
技术实现思路
本专利技术实施例提供一种基于混合卷积文字图像识别方法、装置、设备及存储介质,以解决文字识别误差高问题。一种基于混合卷积文字图像识别方法,包括:获取待识别图像,所述待识别图像中包含至少一个字符;获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。一种基于混合卷积文字图像识别装置,其特征在于,包括:图像获取模块,用于获取待识别图像,所述待识别图像中包含至少一个字符;模型获取模块,用于获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;卷积识别模块,用于将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;特征提取模块,用于将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;字符分布模块,用于将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;损失计算模块,用于采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于混合卷积文字图像识别方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于混合卷积文字图像识别方法。上述基于混合卷积文字图像识别方法、装置、设备及存储介质,通过获取待识别图像,待识别图像中包含至少一个字符;获取包含混合卷积核的文字图像识别模型;混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图;将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;将序列特征输入至文字图像识别模型的全连接层,得到字符概率分布结果;采用预设的损失函数对字符概率分布结果进行误差损失计算,得到待识别图像的文字识别结果。通过上述步骤,在文字图像识别模型中采用混合卷积核来进行卷积特征提取,传统上仅使用单类卷积核进行卷积特征提取的方式仅仅只是对较小覆盖率区域内的局部文字进行聚焦,而当待识别图像中为艺术字体或者手写字体时候,就会出现覆盖率小的问题,从而使得文字识别准确率低。而采用混合卷积核的方式,利用规格大的卷积核感受视野大的特点,能够充分学习相邻文字区域,能够提高文字识别的准确率和覆盖率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中基于混合卷积文字图像识别方法的一应用环境示意图;图2是本专利技术一实施例中基于混合卷积文字图像识别方法的一流程图;图3是本专利技术一实施例中基于混合卷积文字图像识别方法中步骤S13的一流程图;图4是本专利技术一实施例中基于混合卷积文字图像识别方法中步骤S14的一流程图;图5是本专利技术一实施例中基于混合卷积文字图像识别装置的一原理框图;图6是本专利技术一实施例中基于混合卷积文字图像识别装置中卷积识别模块的一原理框图;图7是本专利技术一实施例中基于混合卷积文字图像识别装置中特征提取模块的一原理框图;图8是本专利技术一实施例中计算机设备的一示意图。具体实施方式本专利技术实施例提供一基于混合卷积文字图像识别方法,该基于混合卷积文字图像识别方法可应用如图1所示的应用环境中。具体地,该基于混合卷积文字图像识别方法应用在基于混合卷积文字图像识别系统中,该基于混合卷积文字图像识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于数据孤岛问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种基于混合卷积文字图像识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S11:获取待识别图像,待识别图像中包含至少一个字符。S12:获取包含混合卷积核的文字图像识别模型;混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核。其中,待识别图像为等待进行识别的包含至少一个字符的图像。混合卷积核中包含多种卷积核,具体地,混合卷积核可以包含3*3卷积核、5*5卷积核、7*7卷积核或者11*11卷积核等。文字图像识别模型是用于对包含字符的图像进行识别的模型,该文字图像识别模型的卷积核采用的是混合卷积核。具体地,获取一个原始图像,并对该原始图像进行字符检测,若该原始图像中包含至少一个字符,则将该原始图像作为待识别图像;在获取到待识别图像之后,获取文字图像识别模型,该文字图像识别模型的卷积核采用混合卷积核,该混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核等。S13:将待识别图像输入至文字图像识别模型中,得到待识别图像对应的卷积特征图。其中,卷积特征图为包含待识别图像中字符特征的特征图。具体地,在获取到待识别图像和文字图像识别模型之后,将待识别图像输入至文字图像识别模型中,采用文字图像识别模型的混合卷积核分别对待识别图像进行卷积特征提取,在对各卷积核进行卷积特征提取后的图像进行合并,最后对合并后的图像进行特本文档来自技高网...

【技术保护点】
1.一种基于混合卷积文字图像识别方法,其特征在于,包括:/n获取待识别图像,所述待识别图像中包含至少一个字符;/n获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;/n将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;/n将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;/n将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;/n采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。/n

【技术特征摘要】
1.一种基于混合卷积文字图像识别方法,其特征在于,包括:
获取待识别图像,所述待识别图像中包含至少一个字符;
获取包含混合卷积核的文字图像识别模型,所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核;
将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图;
将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征;
将所述序列特征输入至所述文字图像识别模型的全连接层,得到字符概率分布结果;
采用预设的损失函数,对所述字符概率分布结果进行误差损失计算,得到所述待识别图像的文字识别结果。


2.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,所述文字图像识别模型还包括1*1卷积核,所述将所述待识别图像输入至所述文字图像识别模型中,得到所述待识别图像对应的卷积特征图包括:
将所述待识别图像输入至所述文字图像识别模型中,采用所述混合卷积核对所述待识别图像进行卷积特征提取,得到与所述混合卷积核中的每一类卷积核对应的特征图;
将与所述每一类卷积核对应的特征图进行特征图合并操作,得到合并特征图;
采用所述1*1卷积核对所述合并特征图进行特征融合操作,得到卷积特征图。


3.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,所述将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取,得到序列特征,包括:
分别对高度为4、2和1的所述卷积特征图进行特征转换,得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征;
将所述第一转置特征、所述第二转置特征和所述第三转置特征输入至所述循环神经网络,对所述第一转置特征、所述第二转置特征和所述第三转置特征进行全局特征提取,得到与所述第一转置特征对应的第一序列特征、与所述第二转置特征对应的第二序列特征以及与所述第三转置特征对应的第三序列特征;
将所述第一序列特征、第二序列特征和第三序列特征进行序列特征合并,得到序列特征。


4.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于,在所述将所述待识别图像输入至所述文字图像识别模型中之前,还包括:
根据所述待识别图像的宽度,确定所述待识别图像对应的最大序列长度,并根据所述最大序列长度,确定所述文字图像识别模型的所述混合卷积核的卷积步长;
所述将所述待识别图像输入至所述文字图像识别模型中,采用混合卷积核对所述待识别图像进行卷积特征提取,得到与所述混合卷积核中的每一类卷积核对应的特征图,包括:
将所述待识别图像输入至所述文字图像识别模型中之后,根据所述卷积步长移动所述混合卷积核中的各类卷积核,并通过移动的各所述卷积核对所述待识别图像进行卷积特征提取,得到与各类卷积核对应的特征图。


5.如权利要求1所述的基于混合卷积文字图像识别方法,其特征在于...

【专利技术属性】
技术研发人员:何胜喻宁冯晶凌柳阳
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1