场景图像的检测方法及其装置制造方法及图纸

技术编号：29971487 阅读：17 留言：0更新日期：2021-09-08 09:48

本申请提出了一种场景图像的检测方法及其装置，涉及图像处理领域。该方法包括获取携带至少一个文本实例的场景图像，并从场景图像中获取文本实例的文本区域特征；对每个文本区域特征进行文本间特征融合处理，获取每个文本区域特征对应的增强文本区域特征；基于增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓。本申请提取了文本实例的完整文本区域特征，可以解决文本内部空隙造成的断裂而存在检测不准确的问题，并且文本区域特征进行文本间进行特征融合，提取到文本实例之间的相互依赖关系，从而生成鲁棒性更好的文本特征表示，以实现复杂背景下可靠的高精度文本检测。高精度文本检测。高精度文本检测。

全部详细技术资料下载

【技术实现步骤摘要】
场景图像的检测方法及其装置

[0001]本申请涉及图像处理领域，尤其涉及一种场景图像的检测方法及其装置。

技术介绍

[0002]对于给定的自然场景图像，对其进行文本区域的检测定位，可以帮助我们有效提取包含丰富语言信息的文本用于下游任务。相关技术中，当文本内部的字符存在大面积的空隙或极端的错位时，文本检测模型可能生成断裂的文本框。通过现有的端到端检测模型来检测图像中的所有文本实例，将每个文本视为单独的实例，没有建模实例之间存在的上下文依赖关系，会导致文本检测结果不准确。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此，本申请的一个目的在于提出一种场景图像的检测方法。
[0005]本申请的第二个目的在于提出一种场景图像的检测装置。
[0006]本申请的第三个目的在于提出一种电子设备。
[0007]本申请的第四个目的在于提出一种非瞬时计算机可读存储介质。
[0008]本申请的第五个目的在于提出一种计算机程序产品。
[0009]为达上述目的，本申请第一方面实施例提出了一种场景图像的检测方法，包括：获取携带至少一个文本实例的场景图像，并从所述场景图像中获取所述文本实例的文本区域特征；对每个所述文本区域特征进行文本间特征融合处理，获取每个所述文本区域特征对应的增强文本区域特征；基于所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓。
[0010]本申请中从场景图像中可以...

【技术保护点】

【技术特征摘要】
1.一种场景图像的检测方法，其特征在于，包括：获取携带至少一个文本实例的场景图像，并从所述场景图像中获取所述文本实例的文本区域特征；对每个所述文本区域特征进行文本间特征融合处理，获取每个所述文本区域特征对应的增强文本区域特征；基于所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓。2.根据权利要求1所述的方法，其特征在于，所述从所述场景图像中获取所述文本实例的文本区域特征，包括：对所述场景图像进行特征提取，获取所述场景图像的语义特征图；根据所述语义特征图，获取所述文本区域特征。3.根据权利要求2所述的方法，其特征在于，所述对所述场景图像进行特征提取，获取所述场景图像的语义特征图，包括：对所述场景图像进行多个尺度上的特征提取，获取尺度不同的多个所述语义特征图。4.根据权利要求2所述的方法，其特征在于，所述根据所述语义特征图，获取所述文本区域特征，包括：对所述语义特征图进行卷积处理，获取所述语义特征图对应的优化特征图；从所述优化特征图中提取所述文本实例的文本区域特征。5.根据权利要求4所述的方法，其特征在于，所述对所述语义特征图进行卷积处理，获取所述语义特征图对应的优化特征图，包括：将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出所述语义特征图对应的所述优化特征图，其中，所述卷积单元包括多个级联的卷积模块，每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。6.根据权利要求5所述的方法，其特征在于，所述文本内协同学习网络还包括残差单元，所述方法还包括：将所述语义特征图经过所述残差单元后，再与所述卷积单元输出的特征图进行相加，生成所述优化特征图。7.根据权利要求1
‑
6任一项所述的方法，其特征在于，所述对每个所述文本区域特征进行文本间特征融合处理，获取所述文本区域特征对应的增强文本区域特征，包括：生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一文本特征序列，基于所述第一文本特征序列，获取所述文本区域特征对应的增强文本区域特征。8.根据权利要求7所述的方法，其特征在于，所述生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一特征序列，基于所述第一文本特征序列，获取每个所述文本区域特征对应的增强文本区域特征，包括：将所述文本区域特征输入分割检测模型中；由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，并对所述降维文本区域特征中的每个通道上的特征进行拼接，生成所述文本区域特征对应的第一特征向量；
基于每个所述第一特征向量，生成所述第一特征序列，并将每个所述第一特征序列输入所述文本间协同学习网络中的第一自注意力编码器单元中，由所述第一自注意力编码器单元输出待增强文本区域特征；将所述待增强文本区域特征输入所述文本间协同学习模型中的特征结构重构单元中，由所述特征结构重构单元进行特征结构恢复，输出所述增强文本区域特征。9.根据权利要求8所述的方法，其特征在于所述由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，包括：通过所述降维单元中的第一卷积层对每个所述文本区域特征进行卷积特征通道维度上的降维处理，获取所述文本区域特征对应的降维中间文本区域特征；通过所述降维单元中的池化层对所述降维中间文本区域特征进行分辨率维度上的降维处理，获取所述降维文本区域特征。10.根据权利要求8所述的方法，其特征在于，所述将所述待增强文本区...

【专利技术属性】
技术研发人员：陶大程，叶健，
申请(专利权)人：京东数科海益信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人