一种基于动态采样的端到端文字识别方法技术

技术编号：39186235 阅读：11 留言：0更新日期：2023-10-27 08:33

本发明专利技术公开了一种基于动态采样的端到端文字识别方法，包括以下步骤：获取待处理的文本图像；将所述待处理的文本图像输入文本检测模型，获取待处理图像中的文字区域；将所述文字区域输入动态采样模型，获取与所述文字区域对应的文字视觉特征；将所述文字视觉特征输入识别模型，获取识别结果。本发明专利技术利用动态采样网络来连接文本检测和文本识别网络，能够识别各种场景下复杂多样的文字，适用于不同机制的端到端文字识别方法，并在各个公开的数据集上达到了较高的准确率，具有极高的实用性和应用价值。价值。价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态采样的端到端文字识别方法

[0001]本专利技术属于计算机视觉与人工智能
，尤其涉及一种基于动态采样的端到端文字识别方法。

技术介绍

[0002]端到端文字识别作为计算机视觉的重要任务，其目的在于提取图片中的文字。随着深度学习技术和相关硬件的发展，越来越多的基于深度学习的文字识别网络被应用于实际生产和生活。通常的端到端文字识别方法包括了两个子网络，检测网络和识别网络。检测网络负责定位出图像中文本的位置。识别网络负责把检测网络定位出来的文本区域采样出来，并且把文字内容也提取出来。使用不同的采样方法对检测网络定位出来的文本区域采样会极大的影响最终的识别性能。因而，连接检测网络和识别网络成为了一项重要的研究课题。虽然有一些方法尝试将设计一些采样算子，以此来为识别网络采样出检测网络定位出来的文本区域。但是，这些采样算子都是静态的，只能在固定的网格上采样，容易采样到背景区域而忽略实际的文本位置，导致了背景复杂、形状多种多样、尺度差异大的文本的识别效果仍然较差。其次，这些采样算子需要搭配专用的检测网络和识别网络来使用，通用性较差。

技术实现思路

[0003]本专利技术为了实现端到端文字识别，提供了一种基于动态采样的端到端文字识别方法，该方法可以为识别网络动态的采样特征，可以极大地提升识别准确率，具有很高的使用价值。
[0004]为实现上述目的，本专利技术提供了一种基于动态采样的端到端文字识别方法，包括以下步骤：
[0005]获取待处理的文本图像；
[0006]将所述待处理...

【技术保护点】

【技术特征摘要】
1.一种基于动态采样的端到端文字识别方法，其特征在于，包括以下步骤：获取待处理的文本图像；将所述待处理的文本图像输入文本检测模型，获取待处理图像中的文字区域；将所述文字区域输入动态采样模型，获取与所述文字区域对应的文字视觉特征；将所述文字视觉特征输入识别模型，获取识别结果。2.如权利要求1所述的基于动态采样的端到端文字识别方法，其特征在于，所述文本检测模型采用稀疏的RCNN模型；所述稀疏的RCNN模型包括多头注意力机制、全连接层、动态卷积层、LayerNorm归一化操作、Dropout操作和激活层。3.如权利要求2所述的基于动态采样的端到端文字识别方法，其特征在于，将所述待处理的文本图像输入所述文本检测模型，获得所述待处理图像中的文字区域包括：利用Transformer编码器对所述文本图像进行特征提取，获取特征图；基于卷积层，预先对所述特征图进行粗检测，获取若干个候选区域；利用ROI Align对若干个所述候选区域进行特征提取，获取所述特征图对应区域的视觉特征；基于所述稀疏的RCNN模型，利用所述视觉特征对若干个所述候选区域进行校正，获取所述待处理图像中的文字区域。4.如权利要求3所述的基于动态采样的端到端文字识别方法，其特征在于，基于所述稀疏的RCNN模型，利用所述视觉特征对若干个所述候选区域进行校正，获取所述待处理图像中的文字区域包括：对若干个所述候选区域进行随机初始化，获取若干个候选特征，若干个所述候选区域和若干个所述候选特征一一对应；若干个所述候选特征通过所述多头注意力机制后与若干个所述候选特征进行相加并进行LayerNorm归一化，再通过全连接层，获取卷积核的权重；基于所述卷积核的权重对所述视觉特征进行卷积操作、LayerNorm归一化和激活操作，并利用所述全连接层输出若干个偏移量；利用若干个所述偏移量对若干个所述候选区域进行校正，获取校正候选区域及校正候选特征；所述校正候选区域利用ROI Align进行特征提取，并输入下一层所述稀疏的RCNN模型，直至获取所述待处理图像中的文字区域。5.如权利要求4所述的基于动态采样的端到端文字识别方法，其特征在于，所述动态采样模型包括低层次注意力模型、高层次注意力模型、可形变卷积采样模型、识别转换模型。6...

【专利技术属性】
技术研发人员：金连文，黄明鑫，刘禹良，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人