基于通道分组注意力机制的文本检测方法技术

技术编号：27582386 阅读：41 留言：0更新日期：2021-03-09 22:39

本发明专利技术提供一种基于通道分组注意力机制的文本检测方法，针对不同尺度的目标在特征谱上采用不同尺度的预置框，而融合前的具有较多空间信息的较高分辨率预测特征谱不能很好表示文本特征，直接输入到检测头效果较差。申请人经过实验后发现在四分之一分辨率的预测特征谱上引入注意力模块，提升了四分之一尺度下TextBoxes_plusplus算法的文本偏移预测与候选框回归效果，从而适应文本多变的长宽比减少漏检误检，很好地增强特征鲁棒性，保留空间信息提高小目标文本检测精度。另外本发明专利技术注意力机制在编码与解码上分别使用卷积和分组卷积替代全连接，降低了参数量与计算复杂度，对比普通通道注意力，在性能近似情况下高效实现注意力机制。意力机制。意力机制。

全部详细技术资料下载

【技术实现步骤摘要】
基于通道分组注意力机制的文本检测方法

[0001]本专利技术涉及文本检测技术，特别涉及文本检测中通道注意力。

技术介绍

[0002]OCR(Optical Character Recignition)光学字符识别目，随着数字多媒体技术的发展现泛指图像文字识别，在各种可视化的数据分析和应用中需要提取文字信息。文本检测旨在寻找文本所在区域。文字识别则目的在于识别感兴趣区域文字类别。对计算机图片上文字读取和识别，将期刊文集表单等数据录入计算机处理保存，无不支撑着文本检测与识别方法的飞速发展。进一步的结合广告推荐，素材分类，视频审核等新兴方向OCR焕发着经久不衰的生机。而当前主流OCR技术主要分为文本检测与文本识别。
[0003]从对数字字母检测的探求，到汉字的检测与识别。从传统模板匹配到深度学习神经网络算法的提出。利用传统手工设计特征，使用关键文本点小波变换提取文本特征，使用文本颜色特征聚类等传统方法都缺乏较好的鲁棒性。然而计算力解放下的深度学习方法层出不穷，基于预置框的SSD类方法，如RRPN、CTPN、FTSN和TextBoxes等方法。这类方法将文本视为一个对象，具有较好的性能但文本本身长宽比变化剧烈，文本可能存在倾斜扭曲等问题上检测精度仍有待提高。
[0004]对于TextBoxes_plusplus算法，是基于SSD通用目标检测方法改进的单阶段端到端文本检测算法。其采用以VGG16为主干的全卷积网络结构，针对不同尺度的目标在特征谱上采用不同尺度的预置框，在每个尺度下都使用分布更密集、更大长宽比预置...

【技术保护点】

【技术特征摘要】
1.基于通道分组注意力机制的文本检测，其特征在于，包含以下步骤：1)将待检测文本图像输入TextBoxes_plusplus网络，经过基于VGG16的主干网络，得到不同尺度下的预测特征谱；2)从主干网络的隐藏层中选择原输入图像四分之一尺度特征谱作为预测特征谱；3)预测特征谱基于注意力机制生成注意力热图；4)将注意力热图与预测特征谱进行哈达马积得到优化后的预测特征谱；5)将优化后的预测特征谱经由回归框偏移后输入PriorB...

【专利技术属性】
技术研发人员：李宏亮，李泊琦，戚耀，钟子涵，
申请(专利权)人：权利要求书一页说明书三页附图二页，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人