【技术实现步骤摘要】
一种针对自然场景的文本检测与识别方法及系统
本专利技术涉及一种针对自然场景的的文本检测与识别方法及系统,尤其涉及一种基于多尺度图像分割的文本检测模型和基于平衡注意力机制的文本识别模型,属于计算机视觉
技术介绍
近年来,深度学习技术快速发展,并已经在图像识别、语音识别、自然语言处理和围棋等领域超越了人类水平。图像识别是实现人工智能的核心技术,在图像识别领域,深度学习技术也在图像分类、图像检测等方面也取得了重要突破。文本检测与识别作为图像处理领域的核心技术,借助于深度学习技术的推动获得了快速发展。基于深度学习的文本检测与识别算法在自然场景中进行使用时,经常会遇到以下几个困难与挑战:(1)一些场景下的图像中存在着复杂背景纹理。在一些特殊场景中(例如室外自然场景),文本区域附近有复杂多变的背景,很容易对文本检测造成干扰,造成文本检测框漏识别或者文本误识别。(2)图像中的文本区域角度和形状变化大。在很多场景中,文本区域往往具有一定的角度,而且区域本身也不是一个规则的矩形,这对文本检测带来了极大的挑战。 ...
【技术保护点】
1.一种针对自然场景的文本检测与识别系统,其特征在于:所述文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型;/n所述的文本检测模型用于对自然场景图像中的文本区域进行检测,定位包含文本区域的四边形区域;所述的文本检测模型包括多尺度标签生成模块、多尺度特征提取网络模块和渐进式特征图扩展与融合模块;所述的多尺度标签生成模块用于生成层次分割标签,以用于多尺度特征提取网络的训练;所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法;所述的渐进式特征图扩展与融合模块用于提取最终用于预测的分割图,作为所述文本检测模型最终的输出;/n所述的文本识 ...
【技术特征摘要】
1.一种针对自然场景的文本检测与识别系统,其特征在于:所述文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型;
所述的文本检测模型用于对自然场景图像中的文本区域进行检测,定位包含文本区域的四边形区域;所述的文本检测模型包括多尺度标签生成模块、多尺度特征提取网络模块和渐进式特征图扩展与融合模块;所述的多尺度标签生成模块用于生成层次分割标签,以用于多尺度特征提取网络的训练;所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法;所述的渐进式特征图扩展与融合模块用于提取最终用于预测的分割图,作为所述文本检测模型最终的输出;
所述的文本识别模型用于对文本检测模型输出的分割图进行识别,抽取其中包含的文本信息;所述的文本识别模型包括输入转换模块、特征提取模块、序列特征模块、平衡注意力模块;所述的输入转换模块用于对输入图像进行空间变换;所述的特征提取模块用于将空间转换后的输入图像转换成特征序列;所述的序列特征模块用于学习特征序列之间的关系,学习上下文关系,形成序列特征;所述的平衡注意力模块用于进一步对字符分类特征进行加权。
2.根据权利要求1所述的针对自然场景的文本检测与识别系统,其特征在于:所述的平衡注意力模块包括序列注意力机制和字符平衡机制;序列注意力机制,用于预测序列中每个特征的重要程度;字符平衡机制,用于平衡不同字符之间的重要程度。
3.根据权利要求1所述的针对自然场景的文本检测与识别系统,其特征在于:所述的平衡注意力模块的输入是经过序列特征模块的序列特征,输出是用于计算损失函数的分类序列特征。
4.一种针对自然场景的文本检测与识别方法,其特征在于:该方法包括:
S1.1:多尺度标签生成:多尺度标签生成使用不同的填充方式生成层次分割标签,用于多尺度特征提取网络的训练;
S1.2:多尺度特征提取:对于输入的图像,多尺度特征提取网络通过卷积网络技术提取图像的多层特征表示,获得图像的数学化特征表示方法;
S1.3:渐进式特征图扩...
【专利技术属性】
技术研发人员:李舟军,肖武魁,刘俊杰,陈小明,田茂清,
申请(专利权)人:深圳智能思创科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。