基于双通道的文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38470838 阅读:14 留言:0更新日期:2023-08-11 14:47
本申请提供一种基于双通道的文本识别方法、装置、设备及存储介质,涉及机器学习技术领域。该方法包括:获取双通道模型的长短期记忆网络通道输出的第一字符串,以及双通道模型的变换通道输出的第二字符串;获取差异字符的占比;若差异字符的占比小于预设阈值,则逐一对比第一字符得分和对应的第二字符得分,将字符得分高的字符作为第三字符;输出多个第三字符组成的第三字符串。本申请的方法,根据字符得分互补长短期记忆网络通道输出的第一字符串和变换通道输出的第二字符串,确定字符得分更高的第三字符串,提高了识别文本的准确率。提高了识别文本的准确率。提高了识别文本的准确率。

【技术实现步骤摘要】
基于双通道的文本识别方法、装置、设备及存储介质


[0001]本申请涉及机器学习技术,尤其涉及一种基于双通道的文本识别方法、装置、设备及存储介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR),是指通过电子设备(例如扫描仪或者数码相机)获取载体(例如纸张或者屏幕)上的文本,再采用文本识别方法识别文本的过程。
[0003]主流的文本识别方法为基于卷积神经网络(Convolutional Neural Networks,CNN)的长短期记忆网络(Long Short

Term Memory,LSTM),即卷积递归神经网络(Convolution Recurrent Neural Network,CRNN)。CRNN的优点为可以直接使用序列标签学习,不受序列长度约束,包含参数少,以及内存要求小等;CRNN的缺点为算法效果一般,泛化能力较差,以及对于生僻字、形近字、标点符号等识别不准确等。
[0004]另一种文本识别方法为基于变换(Transformer)的文本识别,Transformer的优点为位置关联操作不受限,建模能力强,通用性强,可扩展性强,以及能更好的进行并行运算等;Transformer的缺点为局部信息获取不强,位置信息编码存在问题,以及顶层梯度消失等。
[0005]CRNN和基于Transformer的文本识别的识别文本准确率均无法满足使用要求,互补CRNN和基于Transformer的文本识别以提高识别文本的准确率是目前急需解决的问题。

技术实现思路

[0006]本申请提供一种基于双通道的文本识别方法、装置、设备及存储介质,用以解决卷积神经网络和基于变换的文本识别的识别文本准确率均无法满足使用要求,互补卷积神经网络和基于变换的文本识别以提高识别文本的准确率的问题。
[0007]第一方面,本申请提供一种基于双通道的文本识别方法,包括:
[0008]获取双通道模型的长短期记忆网络通道输出的第一字符串,以及双通道模型的变换通道输出的第二字符串,第一字符串包括多个第一字符,以及每个第一字符对应的第一字符得分,第二字符串包括多个第二字符,以及每个第二字符对应的第二字符得分,字符得分用于指示字符的准确率;
[0009]获取差异字符的占比,差异字符是根据第一字符串和第二字符串中相同位置的字符是否相同确定的;
[0010]若差异字符的占比小于预设阈值,则逐一对比第一字符得分和对应的第二字符得分,将字符得分高的字符作为第三字符;
[0011]输出多个第三字符组成的第三字符串。
[0012]在一种可能的设计中,获取差异字符的占比,包括:
[0013]获取差异字符;
[0014]根据第一字符串和第二字符串,确定总字符数量;
[0015]根据总字符数量和差异字符的字符数量,确定差异字符的占比。
[0016]在一种可能的设计中,获取差异字符,包括:
[0017]若第一字符串中的第一目标字符与第二字符串中的第二目标字符不同,则将第一目标字符和第二目标字符作为差异字符,第一目标字符和第二目标字符在各自的字符串中位置相同。
[0018]在一种可能的设计中,获取差异字符的占比之前,还包括:
[0019]若第一字符的数量与第二字符的数量不同,则根据第一字符串和第二字符串,确定缺失字符的位置,缺失字符是根据第一字符的位置和相应的第二字符的位置是否相同确定的;
[0020]将缺失字符的位置对应的字符设置为空字符,并将空字符对应的字符得分设置为零。
[0021]在一种可能的设计中,该方法还包括:
[0022]若差异字符的占比不小于预设阈值,则根据多个第一字符得分和多个第二字符得分,确定第一字符串的第一字符平均得分,以及第二字符串的第二字符平均得分;
[0023]根据第一字符平均得分和第二字符平均得分,确定第三字符串,第三字符串为第一字符串和第二字符串中字符平均得分高的字符串。
[0024]在一种可能的设计中,获取双通道模型的长短期记忆网络通道输出的第一字符串,以及双通道模型的变换通道输出的第二字符串,包括:
[0025]处理预置的识别图片,得到第一特征序列;
[0026]将第一特征序列同时发送至长短期记忆网络通道和变换通道,得到长短期记忆网络通道输出的第一字符串,以及变换通道输出的第二字符串。
[0027]在一种可能的设计中,获取双通道模型的长短期记忆网络通道输出的第一字符串,以及双通道模型的变换通道输出的第二字符串之前,该方法还包括:
[0028]构建双通道模型,获取预设的双通道模型参数,并根据双通道模型参数处理预置的训练图片,得到第二特征序列,双通道模型包括长短期记忆网络通道和变换通道;
[0029]将第二特征序列同时发送至长短期记忆网络通道和变换通道,得到长短期记忆网络通道输出的归一化指数损失函数,以及变换通道输出的连续时序分类损失函数;
[0030]根据归一化指数损失函数和连续时序分类损失函数,确定联合损失函数;
[0031]根据联合损失函数调整双通道模型参数,以进行双通道模型的迭代训练,直到迭代次数达到预设的最大迭代次数。
[0032]第二方面,本申请提供一种基于双通道的文本识别装置,包括:
[0033]获取模块,用于获取双通道模型的长短期记忆网络通道输出的第一字符串,以及双通道模型的变换通道输出的第二字符串,第一字符串包括多个第一字符,以及每个第一字符对应的第一字符得分,第二字符串包括多个第二字符,以及每个第二字符对应的第二字符得分,字符得分用于指示字符的准确率;
[0034]获取模块,还用于获取差异字符的占比,差异字符是根据第一字符串和第二字符串中相同位置的字符是否相同确定的;
[0035]对比模块,用于若差异字符占比小于预设阈值,则逐一对比第一字符得分和对应
的第二字符得分,将字符得分高的字符作为第三字符;
[0036]输出模块,用于输出多个第三字符组成的第三字符串。
[0037]第三方面,本申请提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
[0038]存储器存储计算机执行指令;
[0039]处理器执行存储器存储的计算机执行指令,以实现一种基于双通道的文本识别方法。
[0040]第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现一种基于双通道的文本识别方法。
[0041]第五方面,本申请提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时用于实现一种基于双通道的文本识别方法。
[0042]本申请提供的一种基于双通道的文本识别方法、装置、设备及存储介质,根据字符得分互补长短期记忆网络通道输出的第一字符串和变换通道输出的第二字符串,确定字符得分更高的第三字符串,实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双通道的文本识别方法,其特征在于,所述方法,包括:获取双通道模型的长短期记忆网络通道输出的第一字符串,以及所述双通道模型的变换通道输出的第二字符串,所述第一字符串包括多个第一字符,以及每个第一字符对应的第一字符得分,所述第二字符串包括多个第二字符,以及每个第二字符对应的第二字符得分,所述字符得分用于指示字符的准确率;获取差异字符的占比,所述差异字符是根据所述第一字符串和所述第二字符串中相同位置的字符是否相同确定的;若所述差异字符的占比小于预设阈值,则逐一对比所述第一字符得分和对应的所述第二字符得分,将字符得分高的字符作为第三字符;输出多个第三字符组成的第三字符串。2.根据权利要求1所述的方法,其特征在于,所述获取差异字符的占比,包括:获取差异字符;根据所述第一字符串和所述第二字符串,确定总字符数量;根据所述总字符数量和所述差异字符的字符数量,确定所述差异字符的占比。3.根据权利要求2所述的方法,其特征在于,所述获取差异字符,包括:若所述第一字符串中的第一目标字符与所述第二字符串中的第二目标字符不同,则将所述第一目标字符和所述第二目标字符作为差异字符,所述第一目标字符和所述第二目标字符在各自的字符串中位置相同。4.根据权利要求1

3任一项所述的方法,其特征在于,所述获取差异字符的占比之前,还包括:若所述第一字符的数量与所述第二字符的数量不同,则根据所述第一字符串和所述第二字符串,确定缺失字符的位置,所述缺失字符是根据所述第一字符的位置和相应的所述第二字符的位置是否相同确定的;将所述缺失字符的位置对应的字符设置为空字符,并将所述空字符对应的字符得分设置为零。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述差异字符的占比不小于所述预设阈值,则根据多个第一字符得分和多个第二字符得分,确定第一字符串的第一字符平均得分,以及第二字符串的第二字符平均得分;根据所述第一字符平均得分和所述第二字符平均得分,确定第三字符串,所述第三字符串为所述第一字符串和第二字符串中字符平均得分高的字符串。6.根据权利要求1所述的方法,其特征在于,所述获取双通道模型的长短期记忆网络通道输出的第一字符串,以及所述双通道模型的变换通道输出的第二字符串,包括:...

【专利技术属性】
技术研发人员:李研何非蒋维厉智孙玉刚刘梦雅
申请(专利权)人:联通数字科技有限公司联通物联网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1