【技术实现步骤摘要】
文本识别方法、装置、电子设备和存储介质
[0001]本公开涉及文本识别
,尤其涉及一种文本识别方法、装置、电子设备和存储介质。
技术介绍
[0002]随着图像处理技术的发展,图像处理技术逐渐被应用在文本识别领域,常见的文本识别方法多是同时得到对于每个字符的识别结果或者依次得到对于每个字符的识别结果,容易出现累计误差,导致识别精度比较低,且对于长文本来说识别的效果也比较差。
技术实现思路
[0003]为了解决上述技术问题,本公开提供了一种文本识别方法,能够快速准确的对文本图像中的字符进行识别。
[0004]根据本公开的一方面,提供了一种文本识别方法,包括:
[0005]获取待识别的目标文本图像;
[0006]使用预先训练的文本识别模型对所述目标文本图像进行识别,利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征,得到多个具有不同维度的特征映射,利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量,将所述多个上下 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取待识别的目标文本图像;使用预先训练的文本识别模型对所述目标文本图像进行识别,利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征,得到多个具有不同维度的特征映射,利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量,将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码,生成所述目标文本图像对应的多个识别结果;根据所述多个识别结果得到所述目标文本图像对应的最终识别结果。2.根据权利要求1所述的方法,其特征在于,所述特征提取层包括多个具有相同结构的卷积块,所述多个具有相同结构的卷积块依次连接;所述多个具有不同维度的特征映射包括多个具有不同维度的第二特征映射;所述利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征,得到多个具有不同维度的特征映射,包括:将提取的所述目标文本图像的第一特征映射输入到所述多个卷积块中进行卷积,所述多个卷积块中每个卷积块依次输出一个特征映射,得到所述多个具有不同维度的第二特征映射;其中,所述特征映射的维度包括所述特征映射的高度;针对每个卷积块,输出的特征映射的高度是输入的特征映射的高度的一半。3.根据权利要求1所述的方法,其特征在于,所述利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量,包括:利用所述文本识别模型中的位置编码器生成多个预设维度的位置编码,其中,生成所述位置编码的数量是根据设置的最大字符串的长度确定的;通过所述文本识别模型中的注意力层,根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分,并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均,生成多个上下文向量。4.根据权利要求3所述的方法,其特征在于,所述多个具有不同维度的特征映射包括第一特征映射、第二特征映射和第三特征映射,其中,所述第二特征映射的维度大于所述第三特征映射的维度且小于所述第一特征映射的维度;所述根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分,并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均,生成多个上下文向量,包括:根据所述第三特征映射和所述多个预设维度的位置编码计算注意力得分,根据计算得到的第一得分对所述第三特征映射进行加权平均生成第一上下文向量,同时基于所述第一得分在所述第三特征映射中确定至少一个第一像素点位置;通过所述至少一个第一像素点位置在所述第二特征映射中确定至少一个第一目标区域,根据所述至少一个第一目标区域和所述多个预设维度的位置编码计算注意力得分,根据计算得到的至少一个第二得分对所述至少一个第一目标区域进行加权平均生成至少一个第二上下文向量,同时基于所述至少一个第二得分在所述第二特征映射中确定至少一个
第二像素点位置;通过所述至少一...
【专利技术属性】
技术研发人员:秦勇,
申请(专利权)人:深圳市星桐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。