【技术实现步骤摘要】
本专利技术涉及计算机视觉与人工智能,尤其涉及一种桥接式的端到端文字识别方法。
技术介绍
1、当涉及到计算机视觉中至关重要的任务——端到端文字识别时,其主要目标是从图像中提取出文字信息。随着深度学习技术和相关硬件的不断进步,越来越多基于深度学习的文字识别网络被广泛应用于各个领域。一般而言,端到端文字识别方法通常包含两个关键子网络:文本检测网络和文本识别网络。文本检测网络的职责是准确定位图像中的文字区域,而文本识别网络则负责从这些定位好的文本区域中提取出文字内容。然而,不同的采样方法对文本检测网络定位的文本区域进行采样可能会对最终的识别性能产生巨大影响。因此,连接文本检测网络和文本识别网络成为了一项备受关注的研究课题。目前主要有两种连接方法,第一种方法就是分别训练好文本检测网络和文本识别网络,然后直接将文本检测网络和文本识别网络连接到一起。文本检测网络提取出文本区域,识别网络负责识别文本区域里面的文字内容。第二种方法就是将文本检测网络和文本识别网络统一到一个端到端可训练的架构中,同时优化文本检测网络和文本识别网络。第一种方法经常会产生错误累
...【技术保护点】
1.一种桥接式的端到端文字识别方法,其特征在于,包括:
2.根据权利要求1所述的桥接式的端到端文字识别方法,其特征在于,所述文本检测模型采用基于Transformer的文本检测网络,所述基于Transformer的文本检测网络包括动态Transformer编码器和动态Transformer解码器;其中,所述动态Transformer编码器包括第一动态多尺度注意力机制、第一激活层、第一Dropout操作单元、第一全连接层、第一LayerNorm归一化操作单元和第二全连接层,所述第一动态多尺度注意力机制、所述第一激活层、所述第一Dropout操作单元、所述第一
...【技术特征摘要】
1.一种桥接式的端到端文字识别方法,其特征在于,包括:
2.根据权利要求1所述的桥接式的端到端文字识别方法,其特征在于,所述文本检测模型采用基于transformer的文本检测网络,所述基于transformer的文本检测网络包括动态transformer编码器和动态transformer解码器;其中,所述动态transformer编码器包括第一动态多尺度注意力机制、第一激活层、第一dropout操作单元、第一全连接层、第一layernorm归一化操作单元和第二全连接层,所述第一动态多尺度注意力机制、所述第一激活层、所述第一dropout操作单元、所述第一全连接层、所述第一layernorm归一化操作单元和所述第二全连接层依次连接;所述动态transformer解码器包括动态查询单元、多头注意力机制、第二动态多尺度注意力机制、第二激活层、第二dropout操作单元、第三全连接层、第二layernorm归一化操作单元和第四全连接层,所述动态查询单元、所述多头注意力机制、所述第二动态多尺度注意力机制、所述第二激活层、所述第二dropout操作单元、所述第三全连接层、所述第二layernorm归一化操作单元和所述第四全连接层依次连接。
3.根据权利要求1所述的桥接式的端到端文字识别方法,其特征在于,获取所述待处理文本特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。