一种桥接式的端到端文字识别方法技术

技术编号:41214272 阅读:20 留言:0更新日期:2024-05-09 23:36
本发明专利技术公开了一种桥接式的端到端文字识别方法,涉及计算机视觉与人工智能技术领域,包括:获取训练好的文本检测模型和文本识别模型,并冻结文本检测模型和文本识别模型的训练参数;获取待处理文本特征图,将待处理文本特征图输入至训练好的文本检测模型中,获得文字区域和文字区域特征;将文字区域和文字区域特征输入桥接转换模型中,获得文字区域融合特征;将文字区域融合特征输入至训练好的文本识别模型,获取识别结果。本发明专利技术识别准确率高、鲁棒性强,适用于各种文本检测网络和识别网络。

【技术实现步骤摘要】

本专利技术涉及计算机视觉与人工智能,尤其涉及一种桥接式的端到端文字识别方法


技术介绍

1、当涉及到计算机视觉中至关重要的任务——端到端文字识别时,其主要目标是从图像中提取出文字信息。随着深度学习技术和相关硬件的不断进步,越来越多基于深度学习的文字识别网络被广泛应用于各个领域。一般而言,端到端文字识别方法通常包含两个关键子网络:文本检测网络和文本识别网络。文本检测网络的职责是准确定位图像中的文字区域,而文本识别网络则负责从这些定位好的文本区域中提取出文字内容。然而,不同的采样方法对文本检测网络定位的文本区域进行采样可能会对最终的识别性能产生巨大影响。因此,连接文本检测网络和文本识别网络成为了一项备受关注的研究课题。目前主要有两种连接方法,第一种方法就是分别训练好文本检测网络和文本识别网络,然后直接将文本检测网络和文本识别网络连接到一起。文本检测网络提取出文本区域,识别网络负责识别文本区域里面的文字内容。第二种方法就是将文本检测网络和文本识别网络统一到一个端到端可训练的架构中,同时优化文本检测网络和文本识别网络。第一种方法经常会产生错误累积和次优化的问题。检本文档来自技高网...

【技术保护点】

1.一种桥接式的端到端文字识别方法,其特征在于,包括:

2.根据权利要求1所述的桥接式的端到端文字识别方法,其特征在于,所述文本检测模型采用基于Transformer的文本检测网络,所述基于Transformer的文本检测网络包括动态Transformer编码器和动态Transformer解码器;其中,所述动态Transformer编码器包括第一动态多尺度注意力机制、第一激活层、第一Dropout操作单元、第一全连接层、第一LayerNorm归一化操作单元和第二全连接层,所述第一动态多尺度注意力机制、所述第一激活层、所述第一Dropout操作单元、所述第一全连接层、所述第一L...

【技术特征摘要】

1.一种桥接式的端到端文字识别方法,其特征在于,包括:

2.根据权利要求1所述的桥接式的端到端文字识别方法,其特征在于,所述文本检测模型采用基于transformer的文本检测网络,所述基于transformer的文本检测网络包括动态transformer编码器和动态transformer解码器;其中,所述动态transformer编码器包括第一动态多尺度注意力机制、第一激活层、第一dropout操作单元、第一全连接层、第一layernorm归一化操作单元和第二全连接层,所述第一动态多尺度注意力机制、所述第一激活层、所述第一dropout操作单元、所述第一全连接层、所述第一layernorm归一化操作单元和所述第二全连接层依次连接;所述动态transformer解码器包括动态查询单元、多头注意力机制、第二动态多尺度注意力机制、第二激活层、第二dropout操作单元、第三全连接层、第二layernorm归一化操作单元和第四全连接层,所述动态查询单元、所述多头注意力机制、所述第二动态多尺度注意力机制、所述第二激活层、所述第二dropout操作单元、所述第三全连接层、所述第二layernorm归一化操作单元和所述第四全连接层依次连接。

3.根据权利要求1所述的桥接式的端到端文字识别方法,其特征在于,获取所述待处理文本特征...

【专利技术属性】
技术研发人员:金连文黄明鑫刘禹良
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1