一种场景图像的文本检测方法和装置制造方法及图纸

技术编号:15191981 阅读:102 留言:0更新日期:2017-04-20 10:05
本发明专利技术提供了一种场景图像的文本检测方法,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列,对所述文本候选框序列进行后处理,获取文本行区域。本方法通过递归神经网络模型对卷积特征进行训练,可以利用卷积特征的上下文本信息进行训练,有利于提高文本检测的鲁棒性,并且不局限于单一语言分类器,可以适应多语言文本的检测要求,而且无需人为设定复杂的先验条件,在不同场景下有利于提高检测的稳定性。通过利用重叠区域的计算资源,可以有效的提高计算效率,通过端到端的模型,可以简化计算处理的步骤。

【技术实现步骤摘要】

本专利技术属于图像检测领域,尤其涉及一种场景图像的文本检测方法和装置。
技术介绍
对场景图像中的文字进行有效的识别,可以为人们生活带来极大的便利性。比如可以对图像中的车牌等内容的识图,可以根据车牌号自动的查找车辆的相关信息等。而准确的检测和定位图像中的文本区域,是非限制自然场景中文本识别的基础和前提。目前对于文本检测的方法,一般包括基于连通组件的文本检测方法,以及基于滑动窗口的文本检测方法。其中,基于连通组件的文本检测方法,用一个快速的方法(比如MSER(MaximallyStableExtremalRegions,最大稳定极值区域),SWT(应用画笔宽度)等)去分离文本像素与非文本像素。然后文本像素被贪婪地使用底层特征打组为笔画或者字符候选。使用的底层特征一般是灰度值、颜色或者梯度等。基于连通组件的文本检测方法,对非连通文字(比如说中文)不能进行有效的检测。基于滑动窗口的文本检测方法,是指在图像中密集的滑动一个窗口,同时在滑窗的每个位置处应用检测算法(使用手动设计的底层特征或者CNN(卷积神经网络))。基于滑动窗口的方法虽然不存在不支持非连通文字的问题,但却需要处理多尺度问题。为了解决多尺度问题,一般需要用好几种尺度的滑窗分别滑过图像,这样会增加文本检测的计算量。由于目前的文本检测方法通常是基于单个字符的分类器,以滑动窗口作用于候选框,当场景复杂时,比如光照、阴影、遮挡等自然条件的影响,影响字符分类的鲁棒性,不能一次处理包括多种语言文本的图像,在不同场景下检测时,检测的稳定性较差。
技术实现思路
本专利技术的目的在于提供一种场景图像的文本检测方法,以解决现有技术的文本检测方法中,字符分类的鲁棒性差,不能一次处理包括多种语言文本的图像,在不同场景下检测的稳定性较差的问题。第一方面,本专利技术实施例提供了一种场景图像的文本检测方法,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;对所述文本候选框序列进行后处理,获取文本行区域。结合第一方面,在第一方面的第一种可能实现方式中,所述通过卷积神经网络模型提取所述场景图像的卷积特征步骤包括:通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图像的卷积层;采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。结合第一方面的第二种可能实现方式,在第一方面的第二种可能实现方式中,所述将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列步骤包括:将所述卷积特征按行送入递归神经网络模型,将每个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列。结合第一方面,在第一方面的第三种可能实现方式中,对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列步骤包括:获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、文本候选锚框距离自己最近文本行边界下端的第二偏移距离;根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。结合第一方面、第一方面的第一种可能实现方式、第一方面的第二种可能实现方式、第一方面的第三种可能实现方式,在第一方面的第四种可能实现方式中,所述对所述文本候选框序列进行后处理,获取文本行区域步骤包括:根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。第二方面,本专利技术实施例提供了一种场景图像的文本检测装置,所述装置包括:卷积特征获取单元,用于获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;文本候选框生成单元,用于将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;文本行区域获取单元,用于对所述文本候选框序列进行后处理,获取文本行区域。。结合第二方面,在第二方面的第一种可能实现方式中,所述卷积特征获取单元包括:卷积层获取子单元,用于通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图像的卷积层;卷积特征滑取子单元,用于采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。结合第二方面,在第二方面的第二种可能实现方式中,所述文本候选框生成单元包括:文本候选锚框训练子单元,用于将所述卷积特征送入双向长短期记忆模型,将每个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;文本候选框检测子单元,用于对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列。结合第二方面的第二种可能实现方式,在第二方面的第三种可能实现方式中,所述文本候选框检测子单元包括:监督信息获取模块,用于获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、文本候选锚框离自己最近文本行边界下端的第二偏移距离;选择比较模块,用于根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。结合第二方面、第二方面的第一种可能实现方式、第二方面的第二种可能实现方式、第二方面的第三种可能实现方式,在第二方面的第四种可能实现方式中,所述文本行区域获取单元具体用于:根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。在本专利技术中,通过卷积神经网络提取场景图像的卷积特征,通过递归神经网络对所述卷积特征进行训练,得到文本候选框序列,并对所述文本候选框序列进行后处理,生成文本行区域。由于本方法通过递归神经网络模型对卷积特征进行训练,可以利用卷积特征的上下文本信息进行训练,有利于提高文本检测的鲁棒性,并且不局限于单一语言分类器,可以适应多语言文本的检测要求,而且无需人为设定复杂的先验条件,在不同场景下有利于提高检测的稳定性。附图说明图1是本专利技术实施例提供的场景图像的文本检测方法的实现流程图;图2是本专利技术实施例提供的场景图像的文本检测的网络结构示意图;图3是本专利技术实施例提供的检测过程示意图;图4是本专利技术实施例提供的场景图像的文本检测装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例的目的在于提供一种场景图像的文本检测方法和装置,以解决现有技术中对于场景图像的文本检测方法中,通常基于单个字符的分类器,以滑动窗口作用于候选框,不能够充分利用上下文与序列信息,并且当场景比较复杂时,比如光照、阴影、遮挡等自然条件的影响,单字符分类器不具有很好的鲁棒性,以及目前绝大多数分类器都是基于单一语言的分类器,不能一次检测处理多种语言的文本,以及大多数方法有很繁琐的后处理,有很多人为设定的本文档来自技高网...
一种场景图像的文本检测方法和装置

【技术保护点】
一种场景图像的文本检测方法,其特征在于,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;对所述文本候选框序列进行后处理,获取文本行区域。

【技术特征摘要】
1.一种场景图像的文本检测方法,其特征在于,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;对所述文本候选框序列进行后处理,获取文本行区域。2.根据权利要求1所述方法,其特征在于,所述通过卷积神经网络模型提取所述场景图像的卷积特征步骤包括:通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图像的卷积层;采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。3.根据权利要求1所述方法,其特征在于,所述将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列步骤包括:将所述卷积特征按行送入递归神经网络模型,将每个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列。4.根据权利要求3所述方法,其特征在于,所述对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列步骤包括:获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、文本候选锚框距离自己最近文本行边界下端的第二偏移距离;根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。5.根据权利要求1-4任一项所述方法,其特征在于,所述对所述文本候选框序列进行后处理,获取文本行区域步骤包括:根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。6.一种场景图像的...

【专利技术属性】
技术研发人员:乔宇黄韡林田值贺通贺盼
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1