场景图像的检测方法及其装置制造方法及图纸

技术编号:29971487 阅读:17 留言:0更新日期:2021-09-08 09:48
本申请提出了一种场景图像的检测方法及其装置,涉及图像处理领域。该方法包括获取携带至少一个文本实例的场景图像,并从场景图像中获取文本实例的文本区域特征;对每个文本区域特征进行文本间特征融合处理,获取每个文本区域特征对应的增强文本区域特征;基于增强文本区域特征进行掩模预测,获取增强文本区域特征对应的文本实例的文本轮廓。本申请提取了文本实例的完整文本区域特征,可以解决文本内部空隙造成的断裂而存在检测不准确的问题,并且文本区域特征进行文本间进行特征融合,提取到文本实例之间的相互依赖关系,从而生成鲁棒性更好的文本特征表示,以实现复杂背景下可靠的高精度文本检测。高精度文本检测。高精度文本检测。

【技术实现步骤摘要】
场景图像的检测方法及其装置


[0001]本申请涉及图像处理领域,尤其涉及一种场景图像的检测方法及其装置。

技术介绍

[0002]对于给定的自然场景图像,对其进行文本区域的检测定位,可以帮助我们有效提取包含丰富语言信息的文本用于下游任务。相关技术中,当文本内部的字符存在大面积的空隙或极端的错位时,文本检测模型可能生成断裂的文本框。通过现有的端到端检测模型来检测图像中的所有文本实例,将每个文本视为单独的实例,没有建模实例之间存在的上下文依赖关系,会导致文本检测结果不准确。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请的一个目的在于提出一种场景图像的检测方法。
[0005]本申请的第二个目的在于提出一种场景图像的检测装置。
[0006]本申请的第三个目的在于提出一种电子设备。
[0007]本申请的第四个目的在于提出一种非瞬时计算机可读存储介质。
[0008]本申请的第五个目的在于提出一种计算机程序产品。
[0009]为达上述目的,本申请第一方面实施例提出了一种场景图像的检测方法,包括:获取携带至少一个文本实例的场景图像,并从所述场景图像中获取所述文本实例的文本区域特征;对每个所述文本区域特征进行文本间特征融合处理,获取每个所述文本区域特征对应的增强文本区域特征;基于所述增强文本区域特征进行掩模预测,获取所述增强文本区域特征对应的所述文本实例的文本轮廓。
[0010]本申请中从场景图像中可以提取文本实例的文本区域特征,能够使得从场景图像上提取的特征中不仅包括字符的语义特征,还包括空隙的语义特征,即可以提取到文本实例的完整文本框,不再因为空隙的语义特征的缺失而出现文本框断裂的问题。进一步地,由于文本实例之间在背景、颜色、字体或者尺寸等方面存在依赖关系,本申请中通过文本实例的文本区域特征进行文本间的特征融合,能够提取到包括不同文本实例之间的相互依赖关系的增强文本区域特征,使其成为具有鲁棒性更好的文本特征表示,进而可以实现复杂不同复杂背景下可靠的高精度文本检测。
[0011]根据本申请的一个实施例,所述从所述场景图像中获取所述文本实例的文本区域特征,包括:对所述场景图像进行特征提取,获取所述场景图像的语义特征图;根据所述语义特征图,获取所述文本区域特征。
[0012]根据本申请的一个实施例,所述对所述场景图像进行特征提取,获取所述场景图像的语义特征图,包括:对所述场景图像进行多个尺度上的特征提取,获取尺度不同的多个所述语义特征图。
[0013]根据本申请的一个实施例,所述根据所述语义特征图,获取所述文本区域特征,包
括:对所述语义特征图进行卷积处理,获取所述语义特征图对应的优化特征图;从所述优化特征图中提取所述文本实例的文本区域特征。
[0014]根据本申请的一个实施例,所述对所述语义特征图进行卷积处理,获取所述语义特征图对应的优化特征图,包括:将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理,以输出所述语义特征图对应的所述优化特征图,其中,所述卷积单元包括多个级联的卷积模块,每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。
[0015]根据本申请的一个实施例,所述文本内协同学习模型还包括残差单元,所述方法还包括:将所述语义特征图经过所述残差单元后,再与所述卷积单元输出的特征图进行相加,生成所述优化特征图。
[0016]根据本申请的一个实施例,所述对每个所述文本区域特征进行文本间特征融合处理,获取所述文本区域特征对应的增强文本区域特征,包括:生成每个所述文本区域特征对应的第一特征向量,由所有的所述第一特征向量生成一个第一文本特征序列,基于所述第一文本特征序列,获取所述文本区域特征对应的增强文本区域特征。
[0017]根据本申请的一个实施例,所述生成每个所述文本区域特征对应的第一特征向量,由所有的所述第一特征向量生成一个第一特征序列,基于所述第一文本特征序列,获取每个所述文本区域特征对应的增强文本区域特征,包括:将所述文本区域特征输入分割检测模型中;由所述分割检测模型中的文本间协同学习网络中的降维单元,对所述文本特征进行降维处理生成降维文本区域特征,并对所述降维文本区域特征中的每个通道上的特征进行拼接,生成所述文本区域特征对应的第一特征向量;基于每个所述第一特征向量,生成所述第一特征序列,并将每个所述第一特征序列输入所述文本间协同学习网络中的第一自注意力编码器单元中,由所述第一自注意力编码器单元输出待增强文本区域特征;将所述待增强文本区域特征输入所述文本间协同学习模型中的特征结构重构单元中,由所述特征结构重构单元进行特征结构恢复,输出所述增强文本区域特征。
[0018]根据本申请的一个实施例,所述由所述分割检测模型中的文本间协同学习网络中的降维单元,对所述文本特征进行降维处理生成降维文本区域特征,包括:通过所述降维单元中的第一卷积层对每个所述文本区域特征进行卷积特征通道维度上的降维处理,获取所述文本区域特征对应的降维中间文本区域特征;通过所述降维单元中的池化层对所述降维中间文本区域特征进行分辨率维度上的降维处理,获取所述降维文本区域特征。
[0019]根据本申请的一个实施例,所述将所述待增强文本区域特征输出所述文本间协同学习网络中的特征结构重构单元中,由所述特征结构重构单元进行特征结构恢复,输出所述增强文本区域特征,包括:通过所述特征结构重构单元中的重塑层对所述待增强文本区域特征进行分辨率维度上的重构,生成重构文本区域特征;通过所述特征结构重构单元中的采样层和第二卷积层对所述重构文本区域特征进行卷积特征通道维度上的重构,生成所述增强文本区域特征。
[0020]根据本申请的一个实施例,所述基于每个所述增强文本区域特征进行掩模预测,获取所述增强文本区域特征对应的所述文本实例的文本轮廓包括:获取所述场景图像的全局上下文特征;对所述全局上下文特征、所述文本区域特征和所述增强文本区域特征进行融合,生成融合文本区域特征;对所述融合文本区域特征进行掩模预测,获取所述融合文本
区域特征对应所述文本轮廓。
[0021]根据本申请的一个实施例,所述获取所述场景图像的全局上下文特征,包括:对所述场景图像的语义特征图进行上采样或下采样处理,生成采样特征图,对每个所述采样特征图进行融合,生成所述场景图像的全局特征;将所述全局特征中每个通道上的特征进行拼接,生成所述全局特征对应的第二特征向量;将所述第二特征向量输入第二自注意力编码器单元中,输出全局上下文特征。
[0022]根据本申请的一个实施例,所述从每个所述优化特征图中提取所述文本实例的文本区域特征,包括:获取所述文本实例的候选文本框;从所述优化特性图中,提取所述候选文本框所指示位置上的特征,并根据提取的所述特征,生成所述候选文本框对应的所述文本实例的文本区域特征。
[0023]根据本申请的一个实施例,所述获取所述文本实例的候选文本框,包括:将所述优化特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景图像的检测方法,其特征在于,包括:获取携带至少一个文本实例的场景图像,并从所述场景图像中获取所述文本实例的文本区域特征;对每个所述文本区域特征进行文本间特征融合处理,获取每个所述文本区域特征对应的增强文本区域特征;基于所述增强文本区域特征进行掩模预测,获取所述增强文本区域特征对应的所述文本实例的文本轮廓。2.根据权利要求1所述的方法,其特征在于,所述从所述场景图像中获取所述文本实例的文本区域特征,包括:对所述场景图像进行特征提取,获取所述场景图像的语义特征图;根据所述语义特征图,获取所述文本区域特征。3.根据权利要求2所述的方法,其特征在于,所述对所述场景图像进行特征提取,获取所述场景图像的语义特征图,包括:对所述场景图像进行多个尺度上的特征提取,获取尺度不同的多个所述语义特征图。4.根据权利要求2所述的方法,其特征在于,所述根据所述语义特征图,获取所述文本区域特征,包括:对所述语义特征图进行卷积处理,获取所述语义特征图对应的优化特征图;从所述优化特征图中提取所述文本实例的文本区域特征。5.根据权利要求4所述的方法,其特征在于,所述对所述语义特征图进行卷积处理,获取所述语义特征图对应的优化特征图,包括:将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理,以输出所述语义特征图对应的所述优化特征图,其中,所述卷积单元包括多个级联的卷积模块,每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。6.根据权利要求5所述的方法,其特征在于,所述文本内协同学习网络还包括残差单元,所述方法还包括:将所述语义特征图经过所述残差单元后,再与所述卷积单元输出的特征图进行相加,生成所述优化特征图。7.根据权利要求1

6任一项所述的方法,其特征在于,所述对每个所述文本区域特征进行文本间特征融合处理,获取所述文本区域特征对应的增强文本区域特征,包括:生成每个所述文本区域特征对应的第一特征向量,由所有的所述第一特征向量生成一个第一文本特征序列,基于所述第一文本特征序列,获取所述文本区域特征对应的增强文本区域特征。8.根据权利要求7所述的方法,其特征在于,所述生成每个所述文本区域特征对应的第一特征向量,由所有的所述第一特征向量生成一个第一特征序列,基于所述第一文本特征序列,获取每个所述文本区域特征对应的增强文本区域特征,包括:将所述文本区域特征输入分割检测模型中;由所述分割检测模型中的文本间协同学习网络中的降维单元,对所述文本特征进行降维处理生成降维文本区域特征,并对所述降维文本区域特征中的每个通道上的特征进行拼接,生成所述文本区域特征对应的第一特征向量;
基于每个所述第一特征向量,生成所述第一特征序列,并将每个所述第一特征序列输入所述文本间协同学习网络中的第一自注意力编码器单元中,由所述第一自注意力编码器单元输出待增强文本区域特征;将所述待增强文本区域特征输入所述文本间协同学习模型中的特征结构重构单元中,由所述特征结构重构单元进行特征结构恢复,输出所述增强文本区域特征。9.根据权利要求8所述的方法,其特征在于所述由所述分割检测模型中的文本间协同学习网络中的降维单元,对所述文本特征进行降维处理生成降维文本区域特征,包括:通过所述降维单元中的第一卷积层对每个所述文本区域特征进行卷积特征通道维度上的降维处理,获取所述文本区域特征对应的降维中间文本区域特征;通过所述降维单元中的池化层对所述降维中间文本区域特征进行分辨率维度上的降维处理,获取所述降维文本区域特征。10.根据权利要求8所述的方法,其特征在于,所述将所述待增强文本区...

【专利技术属性】
技术研发人员:陶大程叶健
申请(专利权)人:京东数科海益信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1