一种基于半监督与弱监督学习的曲形场景文字检测方法技术

技术编号：23085631 阅读：43 留言：0更新日期：2020-01-11 01:20

本发明专利技术提供一种基于半监督与弱监督学习的曲形场景文字检测方法，用于减少曲形文字检测算法所需要的人工标注，同时让整个算法框架更加简洁，利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据，就能训练得到一个准确的曲形文字检测器，能够对场景曲形文字进行准确检测。

A text detection method for curved scene based on semi supervised and weak supervised learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督与弱监督学习的曲形场景文字检测方法
本专利技术涉及图像文字检测
，具体涉及一种基于半监督与弱监督学习的曲形场景文字检测方法。
技术介绍
场景文字通常出现在车牌、产品包装、广告牌等上，是图像中最常见的对象之一，携带有丰富的语义信息。阅读自然场景图像中的文字是各种复杂任务，如车辆自动导航和产品自动检索等任务的一个基本任务。场景文字因其重要性和基础性，吸引了学术界和工业界越来越多的关注。与图像中的通用目标相比，场景文字天生具有多个方向、大宽高比、形状任意、背景复杂等特点，给文字的检测和识别带来了巨大困难和挑战。场景文字的早期研究主要集中在横向文字上，随着技术及数据集的发展与进步，多向文字逐渐成为研究的主要对象。近年来，曲形文本作为自然场景文字中的一种常见对象，吸引了大量的关注。目前，场景文字检测识别方法都主要基于卷积神经网络。曲形文字检测方法主要包括基于语义分割[8]和实例分割[9]的方法。Ch’ng等[1]利用反卷积网络对图像进行语义分割得到文字区域。Liu等[2]利用R-FCN[10]网络结构回归得到包围文字的十四边形。Lyu等[7]利用实例分割方法MaskR-CNN[6]，同时得到文字实例的矩形包围框及文字区域的像素级二值表示。Long等[5]将曲形文字建模成多个沿中心线的圆盘，同时回归圆盘的半径及角度，最后得到文字区域的重建结果。利用以上这些全监督方法可以取得不错的性能，然而这些方法大多依赖于准确的多形性或像素级标注，大大加重了人工标注的负担。Li等[3]提出一种利用图像有无文字...

【技术保护点】
1.一种基于半监督与弱监督学习的曲形场景文字检测方法，其特征在于，包括以下步骤：/n构建一个检测器，利用全标注数据对检测器进行初次训练；/n根据半监督与弱监督学习策略，利用无标注或弱标注数据对初次训练好的检测器进行微调训练；/n利用微调训练好的检测器检测曲形场景文字，检测步骤包括：/n从目标图像中提取多尺度的图像特征表示；/n利用图像特征表示得到可能含有文字的候选区域；/n根据候选区域的局部特征，利用粗定位网络回归得到文字的水平矩形包围框；/n利用水平矩形包围框重新提取更精确的局部特征，根据该更精确的局部特征，利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。/n

【技术特征摘要】
1.一种基于半监督与弱监督学习的曲形场景文字检测方法，其特征在于，包括以下步骤：
构建一个检测器，利用全标注数据对检测器进行初次训练；
根据半监督与弱监督学习策略，利用无标注或弱标注数据对初次训练好的检测器进行微调训练；
利用微调训练好的检测器检测曲形场景文字，检测步骤包括：
从目标图像中提取多尺度的图像特征表示；
利用图像特征表示得到可能含有文字的候选区域；
根据候选区域的局部特征，利用粗定位网络回归得到文字的水平矩形包围框；
利用水平矩形包围框重新提取更精确的局部特征，根据该更精确的局部特征，利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。

2.如权利要求1所述的方法，其特征在于，半监督与弱监督学习策略包括朴素半监督学习策略，该朴素半监督学习策略为：利用初次训练好的检测器对无标注数据进行伪标注，得到标注候选集，经过阈值筛选得到伪标注数据集，将伪标注数据与已标注数据合并在一起，对初次训练好的检测器进行微调训练。

3.如权利要求2所述的方法，其特征在于，半监督与弱监督学习策略包括基于过滤的弱监督学习策略，该基于过滤的弱监督学习策略为：在朴素半监督学习策略的基础上，利用数据的弱标签来对标注候选集进行过滤，弱标签包含重要的语义信息，利用弱标注框与检测结果的交并比，过滤误检测得到的结果，减少朴素半监督学习中引入的噪声。

4.如权利要求1所述的方法，其特征在于，半监督与弱监督学习策略包括基于局部...

【专利技术属性】
技术研发人员：王伟平，秦绪功，周宇，杨东宝，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人