基于混合卷积文字图像识别方法、装置、设备及存储介质制造方法及图纸

技术编号：25638185 阅读：19 留言：0更新日期：2020-09-15 21:30

本发明专利技术涉及人工智能，提供一种基于混合卷积文字图像识别方法、装置、计算机设备及存储介质，通过获取待识别图像；获取包含混合卷积核的文字图像识别模型；将待识别图像输入至文字图像识别模型中，得到待识别图像对应的卷积特征图；将卷积特征图输入文字图像识别模型的循环神经网络中进行特征提取，得到序列特征；将序列特征输入至文字图像识别模型的全连接层，得到字符概率分布结果；采用预设的损失函数对字符概率分布结果进行误差损失计算，得到待识别图像的文字识别结果。通过在文字图像识别模型中采用混合卷积核来进行卷积特征提取，提高文字识别准确率。采用混合卷积核的方式，充分学习相邻文字区域，提高文字识别的准确率和覆盖率。

全部详细技术资料下载

【技术实现步骤摘要】
基于混合卷积文字图像识别方法、装置、设备及存储介质
本专利技术涉及文字识别
，尤其涉及一种基于混合卷积文字图像识别方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的发展，自然语言处理领域(例如：文字检测、文字识别、语音识别或者文本翻译识别等领域)也相应快速发展。其中，文字检测和文字识别是应用场景非常广泛的，其在路牌检测识别、场景文字翻译或者图书文本识别提取等场景中均得到了广泛应用。在现有技术中，大多数文字检测和文字识别的方法都是通过卷积神经网络来实现的。但现有技术中卷积神经网络在识别一些特殊字体，比如艺术字、手写字体或者不规则字体时，会极易出现误差，并且，一般的卷积神经网络仅仅只是可以对较小覆盖区域内的局部文字进行聚焦，如此，会导致识别范围较小，进而降低识别效率。
技术实现思路
本专利技术实施例提供一种基于混合卷积文字图像识别方法、装置、设备及存储介质，以解决文字识别误差高问题。一种基于混合卷积文字图像识别方法，包括：获取待识别图像，所述待识别图像中包含至少一个字符；获取包含混合卷积核的文字图像识别模型，所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核；将所述待识别图像输入至所述文字图像识别模型中，得到所述待识别图像对应的卷积特征图；将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取，得到序列特征；将所述序列特征输入至所述文字图像识别模型的全连接层，得到字符概率分布结果；采用预设的损失函数，...

【技术保护点】
1.一种基于混合卷积文字图像识别方法，其特征在于，包括：/n获取待识别图像，所述待识别图像中包含至少一个字符；/n获取包含混合卷积核的文字图像识别模型，所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核；/n将所述待识别图像输入至所述文字图像识别模型中，得到所述待识别图像对应的卷积特征图；/n将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取，得到序列特征；/n将所述序列特征输入至所述文字图像识别模型的全连接层，得到字符概率分布结果；/n采用预设的损失函数，对所述字符概率分布结果进行误差损失计算，得到所述待识别图像的文字识别结果。/n

【技术特征摘要】
1.一种基于混合卷积文字图像识别方法，其特征在于，包括：
获取待识别图像，所述待识别图像中包含至少一个字符；
获取包含混合卷积核的文字图像识别模型，所述混合卷积核包含3*3卷积核、5*5卷积核和7*7卷积核；
将所述待识别图像输入至所述文字图像识别模型中，得到所述待识别图像对应的卷积特征图；
将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取，得到序列特征；
将所述序列特征输入至所述文字图像识别模型的全连接层，得到字符概率分布结果；
采用预设的损失函数，对所述字符概率分布结果进行误差损失计算，得到所述待识别图像的文字识别结果。

2.如权利要求1所述的基于混合卷积文字图像识别方法，其特征在于，所述文字图像识别模型还包括1*1卷积核，所述将所述待识别图像输入至所述文字图像识别模型中，得到所述待识别图像对应的卷积特征图包括：
将所述待识别图像输入至所述文字图像识别模型中，采用所述混合卷积核对所述待识别图像进行卷积特征提取，得到与所述混合卷积核中的每一类卷积核对应的特征图；
将与所述每一类卷积核对应的特征图进行特征图合并操作，得到合并特征图；
采用所述1*1卷积核对所述合并特征图进行特征融合操作，得到卷积特征图。

3.如权利要求1所述的基于混合卷积文字图像识别方法，其特征在于，所述将所述卷积特征图输入至所述文字图像识别模型的循环神经网络中进行特征提取，得到序列特征，包括：
分别对高度为4、2和1的所述卷积特征图进行特征转换，得到与高度为4的卷积特征图对应的第一转置特征、与高度为2的卷积特征图对应的第二转置特征和与高度为1的卷积特征图对应的第三转置特征；
将所述第一转置特征、所述第二转置特征和所述第三转置特征输入至所述循环神经网络，对所述第一转置特征、所述第二转置特征和所述第三转置特征进行全局特征提取，得到与所述第一转置特征对应的第一序列特征、与所述第二转置特征对应的第二序列特征以及与所述第三转置特征对应的第三序列特征；
将所述第一序列特征、第二序列特征和第三序列特征进行序列特征合并，得到序列特征。

4.如权利要求1所述的基于混合卷积文字图像识别方法，其特征在于，在所述将所述待识别图像输入至所述文字图像识别模型中之前，还包括：
根据所述待识别图像的宽度，确定所述待识别图像对应的最大序列长度，并根据所述最大序列长度，确定所述文字图像识别模型的所述混合卷积核的卷积步长；
所述将所述待识别图像输入至所述文字图像识别模型中，采用混合卷积核对所述待识别图像进行卷积特征提取，得到与所述混合卷积核中的每一类卷积核对应的特征图，包括：
将所述待识别图像输入至所述文字图像识别模型中之后，根据所述卷积步长移动所述混合卷积核中的各类卷积核，并通过移动的各所述卷积核对所述待识别图像进行卷积特征提取，得到与各类卷积核对应的特征图。

5.如权利要求1所述的基于混合卷积文字图像识别方法，其特征在于...

【专利技术属性】
技术研发人员：何胜，喻宁，冯晶凌，柳阳，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人