文本检测方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:24093634 阅读:18 留言:0更新日期:2020-05-09 09:13
本发明专利技术实施例公开了一种文本检测方法、装置、电子设备以及存储介质,其中,该文本检测方法包括:获取待检测图像,在待检测图像中构建每个文本元素对应的检测框,分别提取每个检测框对应区域的纹理特征和几何特征,并获取各检测框之间的关联关系,根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框,基于分类后检测框对待检测图像进行文本检测,该方案可以有效地提高文本检测的准确率。

Text detection method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文本检测方法、装置、电子设备以及存储介质
本专利技术涉及计算机
,具体涉及一种文本检测方法、装置、电子设备以及存储介质。
技术介绍
自然场景文本检测在现实生活中具有极其的重要的广泛应用,例如文本检索、路牌识别和试卷智能批改等。但是自然场景中各种不可控干扰因素,如光影遮蔽、拍摄角度、异物遮挡、以及文本自身的一些固有属性如艺术字、变形字或残缺字等的影响,使得自然场景文本检测依然是一项难度很大的任务。不过,随着近年来人工智能(AI,ArtificialIntelligence)技术的发展,基于深度学习算法的自然场景文本检测技术在性能上也取得了长足的进步。目前,较为常用的文本检测技术主要是“基于回归(regression-based)的方法”,但在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,当前基于回归的方法仅能处理矩形文本行情况,当文本的形状为曲线形时,其预测的检测框无法准确的覆盖所有文本区域;另外,对于长文本行,一旦文本行的宽高比大于预设的预测阈值,也会出现丢框或者预测不完整问题,所以,现有的文本检测方案的检测效果并不佳。
技术实现思路
本专利技术实施例提供一种文本检测方法、装置、电子设备以及存储介质,可以提高文本检测的准确率。本专利技术实施例提供了一种文本检测方法,包括:获取待检测图像,所述待检测图像包括待检测文本,所述待检测文本包括多个文本元素;在所述待检测图像中构建每个文本元素对应的检测框;分别提取每个检测框对应区域的纹理特征和几何特征,并获取各检测框之间的关联关系;根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框;基于分类后检测框对待检测图像进行文本检测。相应的,本专利技术实施例还提供了一种文本检测装置,包括:第一获取模块,用于获取待检测图像,所述待检测图像包括待检测文本,所述待检测文本包括多个文本元素;构建模块,用于在所述待检测图像中构建每个文本元素对应的检测框;提取模块,用于分别提取每个检测框对应区域的纹理特征和几何特征;第二获取模块,用于获取各检测框之间的关联关系;分类模块,用于根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框;检测模块,用于基于分类后检测框对待检测图像进行文本检测。可选的,在本专利技术的一些实施例中,所述分类模块包括:计算单元,用于根据关联关系计算每个检测框对应的相似度函数;分类单元,用于基于纹理特征、几何特征以及相似度函数对检测框进行分类,得到分类后检测框。可选的,在本专利技术的一些实施例中,所述分类单元包括:构建子单元,用于根据纹理特征、几何特征以及相似度函数,分别构建待检测图像对应的纹理特征图以及待检测图像对应的几何特征图;分类子单元,用于基于所述纹理特征图以及几何特征图对检测框进行分类,得到分类后检测框。可选的,在本专利技术的一些实施例中,所述构建子单元具体用于:通过纹理特征以及相似度函数计算待检测图像对应的纹理特征点;基于所述纹理特征点构建待检测图像对应的纹理特征图;通过几何特征以及相似度函数计算待检测图像对应的几何特征点;基于所述几何特征点构建待检测图像对应的几何特征图。可选的,在本专利技术的一些实施例中,所述分类子单元具体用于:对所述纹理特征图以及几何特征图进行融合,得到融合后特征图;通过所述融合后特征图对检测框的所属类别进行预测;基于预测结果对检测框进行分类,得到分类后检测框。可选的,在本专利技术的一些实施例中,所述检测模块包括:确定单元,用于将属于同一类别的分类后检测框确定为一个同源组;构建单元,用于根据同源组中的分类后检测框构建用于文本检测的文本框;检测单元,用于基于所述文本框对待检测图像进行文本检测。可选的,在本专利技术的一些实施例中,所述构建单元具体用于:确定同源组中每个分类后检测框对应的中心点;获取同源组中每个分类后检测框对应的尺寸;基于中心点以及尺寸构建用于文本检测的文本框。可选的,在本专利技术的一些实施例中,还包括调整模块,所述调整模块用于对所述文本框的边缘进行调整,得到调整后文本框;所述检测模块具体用于:基于调整后文本框对待检测图像进行文本检测。可选的,在本专利技术的一些实施例中,所述构建模块具体用于:对所述待检测图像进行语义分割,得到每个文本元素对应的目标像素点以及每个目标像素点对应的像素关联信息;基于像素关联信息以及多个目标像素点,构建每个文本元素对应的检测框。本专利技术实施例在获取待检测图像后,所述待检测图像包括待检测文本,所述待检测文本包括多个文本元素,在所述待检测图像中构建每个文本元素对应的检测框,然后,分别提取每个检测框对应区域的纹理特征和几何特征,并获取各检测框之间的关联关系,接着,根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框,最后,基于分类后检测框对待检测图像进行文本检测。因此,该方案可以有效地提高文本检测的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的文本检测方法的场景示意图;图1b是本专利技术实施例提供的文本检测方法的流程示意图;图1c是本专利技术实施例提供的文本检测方法中目标像素点的8邻域示意图;图1d是本专利技术实施例提供的文本检测方法中构建基准线的示意图;图1e是本专利技术实施例提供的文本检测方法中构建文本框的示意图;图1f是本专利技术实施例提供的文本检测方法中对文本框进行调整的示意图;图2a是本专利技术实施例提供的文本检测方法的另一流程示意图;图2b是本专利技术实施例提供的文本检测方法的另一场景示意图;图2c至图2e是本专利技术实施例提供的文本检测方法中构建文本框的另一示意图;图3a是本专利技术实施例提供的文本检测装置的结构示意图;图3b是本专利技术实施例提供的文本检测装置的另一结构示意图;图4是本专利技术实施例提供的电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种在文本检测方法、装置、电子设备和存储介质。其中,该文本检测装置具体可以集成在终端中,终端可以包括手机、平板电脑或个人计算机(PC,PersonalComputer)。例如,请参阅图1a,该文本检测装置集成在手机上,该手本文档来自技高网...

【技术保护点】
1.一种文本检测方法,其特征在于,包括:/n获取待检测图像,所述待检测图像包括待检测文本,所述待检测文本包括多个文本元素;/n在所述待检测图像中构建每个文本元素对应的检测框;/n分别提取每个检测框对应区域的纹理特征和几何特征,并获取各检测框之间的关联关系;/n根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框;/n基于分类后检测框对待检测图像进行文本检测。/n

【技术特征摘要】
1.一种文本检测方法,其特征在于,包括:
获取待检测图像,所述待检测图像包括待检测文本,所述待检测文本包括多个文本元素;
在所述待检测图像中构建每个文本元素对应的检测框;
分别提取每个检测框对应区域的纹理特征和几何特征,并获取各检测框之间的关联关系;
根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框;
基于分类后检测框对待检测图像进行文本检测。


2.根据权利要求1所述的方法,其特征在于,所述根据关联关系、纹理特征以及几何特征对检测框进行分类,得到分类后检测框,包括:
根据关联关系计算每个检测框对应的相似度函数;
基于纹理特征、几何特征以及相似度函数对检测框进行分类,得到分类后检测框。


3.根据权利要求2所述的方法,其特征在于,所述基于纹理特征、几何特征以及相似度函数对检测框进行分类,得到分类后检测框,包括:
根据纹理特征、几何特征以及相似度函数,分别构建待检测图像对应的纹理特征图以及待检测图像对应的几何特征图;
基于所述纹理特征图以及几何特征图对检测框进行分类,得到分类后检测框。


4.根据权利要求3所述的方法,其特征在于,所述根据纹理特征、几何特征以及相似度函数,分别构建待检测图像对应的纹理特征图以及待检测图像对应的几何特征图,包括:
通过纹理特征以及相似度函数计算待检测图像对应的纹理特征点;
基于所述纹理特征点构建待检测图像对应的纹理特征图;
通过几何特征以及相似度函数计算待检测图像对应的几何特征点;
基于所述几何特征点构建待检测图像对应的几何特征图。


5.根据权利要求3所述的方法,其特征在于,所述基于所述纹理特征图以及几何特征图对检测框进行分类,得到分类后检测框,包括:
对所述纹理特征图以及几何特征图进行融合,得到融合后特征图;
通过所述融合后特征图对检测框的所属类别进行预测;
基于预测结果对检测框进行分类,得到分类后检测框。


6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于分类后检测框对待检测图像进行文本检测,包括:
将属于同一类别的分类后检测框确定为一个同源组;
根据同源组中的分类后检测框构建用于文本检测的文本框;
基于所述文本框对待检测图像进行文本检测。


7.根据权利要求6所述的方法,其特征在于,所述根据同源组中的分类后检测框构建用于文本检测的文本框,包括:
确定同源组中每个分类后检测框对应的中心点;
获取同源组中每个分类后检测框对应的尺寸;
基于中心点以及尺寸构建用于文本检测的文本框。


...

【专利技术属性】
技术研发人员:刘皓
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1