【技术实现步骤摘要】
本专利技术属于图像检测领域,尤其涉及一种场景图像的文本检测方法和装置。
技术介绍
对场景图像中的文字进行有效的识别,可以为人们生活带来极大的便利性。比如可以对图像中的车牌等内容的识图,可以根据车牌号自动的查找车辆的相关信息等。而准确的检测和定位图像中的文本区域,是非限制自然场景中文本识别的基础和前提。目前对于文本检测的方法,一般包括基于连通组件的文本检测方法,以及基于滑动窗口的文本检测方法。其中,基于连通组件的文本检测方法,用一个快速的方法(比如MSER(MaximallyStableExtremalRegions,最大稳定极值区域),SWT(应用画笔宽度)等)去分离文本像素与非文本像素。然后文本像素被贪婪地使用底层特征打组为笔画或者字符候选。使用的底层特征一般是灰度值、颜色或者梯度等。基于连通组件的文本检测方法,对非连通文字(比如说中文)不能进行有效的检测。基于滑动窗口的文本检测方法,是指在图像中密集的滑动一个窗口,同时在滑窗的每个位置处应用检测算法(使用手动设计的底层特征或者CNN(卷积神经网络))。基于滑动窗口的方法虽然不存在不支持非连通文字的问题,但却需 ...
【技术保护点】
一种场景图像的文本检测方法,其特征在于,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;对所述文本候选框序列进行后处理,获取文本行区域。
【技术特征摘要】
1.一种场景图像的文本检测方法,其特征在于,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;对所述文本候选框序列进行后处理,获取文本行区域。2.根据权利要求1所述方法,其特征在于,所述通过卷积神经网络模型提取所述场景图像的卷积特征步骤包括:通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图像的卷积层;采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。3.根据权利要求1所述方法,其特征在于,所述将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列步骤包括:将所述卷积特征按行送入递归神经网络模型,将每个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列。4.根据权利要求3所述方法,其特征在于,所述对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列步骤包括:获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、文本候选锚框距离自己最近文本行边界下端的第二偏移距离;根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。5.根据权利要求1-4任一项所述方法,其特征在于,所述对所述文本候选框序列进行后处理,获取文本行区域步骤包括:根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。6.一种场景图像的...
【专利技术属性】
技术研发人员:乔宇,黄韡林,田值,贺通,贺盼,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。