文本检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39280184 阅读:6 留言:0更新日期:2023-11-07 10:54
本申请涉及一种文本检测方法、装置、计算机设备、存储介质和计算机程序产品,可应用于人工智能领域。方法包括:对目标特征图进行图文分割处理,得到待处理图像上各个像素的图文分割结果;对目标特征图进行文本分类处理,得到待处理图像上各个像素的文本分类结果;根据待处理图像上各个像素的图文分割结果,确定待处理图像中的文本区域,并从待处理图像上各个像素的文本分类结果中,筛选出文本区域内各像素的文本分类结果;基于文本区域内各像素的文本分类结果,确定待处理图像的文本检测结果。提升了后续处理人员的业务处理效率。提升了后续处理人员的业务处理效率。提升了后续处理人员的业务处理效率。

【技术实现步骤摘要】
文本检测方法、装置、计算机设备和存储介质


[0001]本申请涉及图像处理
,特别是涉及一种文本检测方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着图像处理技术的发展,图像处理功能呈现多样化,比如可以从图像中识别出目标对象、可将图像中的多个对象分割开、可从图像中识别出文本等。在人工智能、计算机视觉等方面有着广泛应用。
[0003]传统技术中,在对图像进行文本检测时,可将图像中文本的位置检测出来,以供后续处理人员基于该位置处的文本做相应的业务处理。
[0004]然而,这种方式下后续处理人员并不能快速定位关注的文本内容,导致业务处理效率不高。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提升业务处理效率的文本检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]一方面,本申请提供了一种文本检测方法。方法包括:
[0007]对待处理图像进行特征提取,得到待处理图像的目标特征图;
[0008]对目标特征图进行图文分割处理,得到待处理图像上各个像素的图文分割结果;
[0009]对目标特征图进行文本分类处理,得到待处理图像上各个像素的文本分类结果;
[0010]根据待处理图像上各个像素的图文分割结果,确定待处理图像中的文本区域,并从待处理图像上各个像素的文本分类结果中,筛选出文本区域内各像素的文本分类结果;
[0011]基于文本区域内各像素的文本分类结果,确定待处理图像的文本检测结果。
[0012]另一方面,本申请还提供了一种文本检测装置。装置包括:
[0013]特征提取模块,用于对待处理图像进行特征提取,得到待处理图像的目标特征图。
[0014]图文分割模块,用于对目标特征图进行图文分割处理,得到待处理图像上各个像素的图文分割结果。
[0015]文本分类模块,用于对目标特征图进行文本分类处理,得到待处理图像上各个像素的文本分类结果。
[0016]筛选模块,用于根据待处理图像上各个像素的图文分割结果,确定待处理图像中的文本区域,并从待处理图像上各个像素的文本分类结果中,筛选出文本区域内各像素的文本分类结果。
[0017]确定模块,用于基于文本区域内各像素的文本分类结果,确定待处理图像的文本检测结果。
[0018]在一些实施例中,特征提取模块具体用于:根据待处理图像上各个像素在多个通道的信息,确定待处理图像的多通道图像张量;对多通道图像张量进行卷积处理,得到图像
特征张量;对图像特征张量进行多尺寸特征提取,得到多个尺寸的特征图;融合多个尺寸的特征图,得到待处理图像的目标特征图。
[0019]在一些实施例中,特征提取模块具体用于:根据待处理图像上各个像素分别在色彩通道上的像素值,确定色彩通道的图像张量;根据待处理图像上各个像素分别在位置通道上的坐标值,确定位置通道的图像张量;将色彩通道的图像张量和位置通道的图像张量,共同作为待处理图像的多通道图像张量。
[0020]在一些实施例中,特征提取模块具体用于:对待处理图像上各个像素分别在色彩通道上的像素值进行标准化处理,得到各个像素在色彩通道的标准化值;对待处理图像上各个像素在色彩通道的标准化值进行正则化处理,得到待处理图像在色彩通道的图像张量。
[0021]在一些实施例中,图文分割模块具体用于:通过训练完成的图文分割网络,对目标特征图进行图文分割处理;文本分类模块具体用于:通过训练完成的文本分类网络,对目标特征图进行文本分类处理。
[0022]在一些实施例中,文本检测装置还包括:训练模块,用于获取训练样本集,对训练样本集中的样本图像进行特征提取,得到样本图像的样本特征图;通过待训练的图文分割网络,对样本特征图进行图文分割处理,得到样本图像上各个像素的图文分割预测结果;通过待训练的文本分类网络,对样本特征图进行文本分类处理,得到样本图像上各个像素的文本分类预测结果;基于样本图像上各个像素的图文分割预测结果以及样本图像上各个像素的文本分类预测结果,确定目标损失函数;通过目标损失函数调整图文分割网络和文本分类网络的参数,继续进行训练,直至达到停止条件时停止,得到训练完成的图文分割网络和文本分类网络。
[0023]在一些实施例中,训练模块具体用于,基于样本图像上各个像素的图文分割预测结果,以及样本图像上各个像素的图文分割标注结果,确定图文分割网络的第一损失函数;基于样本图像上各个像素的文本分类预测结果,以及样本图像上各个像素的文本分类标注结果,确定文本分类网络的第二损失函数;根据第一损失函数和第二损失函数,确定目标损失函数。
[0024]在一些实施例中,筛选模块具体用于:根据待处理图像上各个像素的图文分割结果,从待处理图像所包含的像素中筛选出图文分割结果为文本的目标像素;根据目标像素的分布情况,确定待处理图像中的文本区域。
[0025]在一些实施例中,确定模块具体用于:统计文本区域内分别属于各文本类别的像素数量;基于像素数量满足预设数量条件的文本类别,确定文本区域所属的文本类别;将文本区域以及文本区域所属的文本类别,作为待处理图像的文本检测结果。
[0026]在一些实施例中,待处理图像为待处理视频中的图像帧,文本类别包括图片文本类别、花字文本类别或后期文本类别中的任一种;确定模块具体用于:在像素数量满足预设数量条件的文本类别为花字文本类别的情况下,根据文本区域的角点坐标或者文本区域所包含的文本内容中的至少一种,确定文本区域的文本类别。
[0027]在一些实施例中,确定模块具体用于:根据文本区域的角点坐标,确定文本区域的区域边界与待处理图像的图像边界之间的边界距离;在边界距离小于预设距离阈值的情况下,将后期文本类别作为文本区域的文本类别。
[0028]在一些实施例中,确定模块具体用于:确定文本区域所包含的文本内容中是否包含不属于花字文本类别的内容;在包含不属于花字文本类别的内容的情况下,将后期文本类别作为文本区域的文本类别。
[0029]在一些实施例中,确定模块具体用于:获取包括待处理图像在内的多帧图像帧,并确定每帧图像帧中与待处理图像的文本区域处于相同位置的目标区域;在多帧图像帧的目标区域的文本内容均相同的情况下,将后期文本类别作为文本区域的文本类别。
[0030]在一些实施例中,待处理图像为待处理视频中的任一图像帧,确定模块还用于:根据待处理视频中每帧图像帧的文本检测结果,从待处理视频中筛选出存在花字的目标图像;检测目标图像中的花字文本内容;基于花字文本内容,确定待处理视频的标签。
[0031]第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0032]对待处理图像进行特征提取,得到待处理图像的目标特征图;
[0033]对目标特征图进行图文分割处理,得到待处理图像上各个像素的图文分割结果;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,其特征在于,所述方法包括:对待处理图像进行特征提取,得到所述待处理图像的目标特征图;对所述目标特征图进行图文分割处理,得到所述待处理图像上各个像素的图文分割结果;对所述目标特征图进行文本分类处理,得到所述待处理图像上各个像素的文本分类结果;根据所述待处理图像上各个像素的图文分割结果,确定所述待处理图像中的文本区域,并从所述待处理图像上各个像素的文本分类结果中,筛选出所述文本区域内各像素的文本分类结果;基于所述文本区域内各像素的文本分类结果,确定所述待处理图像的文本检测结果。2.根据权利要求1所述的方法,其特征在于,所述对待处理图像进行特征提取,得到所述待处理图像的目标特征图,包括:根据所述待处理图像上各个像素在多个通道的信息,确定所述待处理图像的多通道图像张量;对所述多通道图像张量进行卷积处理,得到图像特征张量;对所述图像特征张量进行多尺寸特征提取,得到多个尺寸的特征图;融合所述多个尺寸的特征图,得到所述待处理图像的目标特征图。3.根据权利要求2所述的方法,其特征在于,所述根据所述待处理图像上各个像素在多个通道的信息,确定所述待处理图像的多通道图像张量,包括:根据所述待处理图像上各个像素分别在色彩通道上的像素值,确定色彩通道的图像张量;根据所述待处理图像上各个像素分别在位置通道上的坐标值,确定位置通道的图像张量;将所述色彩通道的图像张量和位置通道的图像张量,共同作为所述待处理图像的多通道图像张量。4.根据权利要求3所述的方法,其特征在于,所述根据所述待处理图像上各个像素分别在色彩通道上的像素值,确定色彩通道的图像张量,包括:对所述待处理图像上各个像素分别在色彩通道上的像素值进行标准化处理,得到各个像素在色彩通道的标准化值;对所述待处理图像上各个像素在色彩通道的标准化值进行正则化处理,得到所述待处理图像在色彩通道的图像张量。5.根据权利要求1所述的方法,其特征在于,所述对所述目标特征图进行图文分割处理,包括:通过训练完成的图文分割网络,对所述目标特征图进行图文分割处理;所述对所述目标特征图进行文本分类处理,包括:通过训练完成的文本分类网络,对所述目标特征图进行文本分类处理。6.根据权利要求5所述的方法,其特征在于,所述图文分割网络和文本分类网络的训练步骤包括:获取训练样本集,对所述训练样本集中进行特征提取,得到所述样本图像的样本特征
图;通过待训练的图文分割网络,对所述样本特征图进行图文分割处理,得到所述样本图像上各个像素的图文分割预测结果;通过待训练的文本分类网络,对所述样本特征图进行文本分类处理,得到所述样本图像上各个像素的文本分类预测结果;基于所述样本图像上各个像素的图文分割预测结果以及所述样本图像上各个像素的文本分类预测结果,确定目标损失函数;通过所述目标损失函数调整所述图文分割网络和所述文本分类网络的参数,继续进行训练,直至达到停止条件时停止,得到训练完成的图文分割网络和文本分类网络。7.根据权利要求6所述的方法,其特征在于,所述基于所述样本图像上各个像素的图文分割预测结果以及所述样本图像上各个像素的文本分类预测结果,确定目标损失函数,包括:基于所述样本图像上各个像素的图文分割预测结果,以及所述样本图像上各个像素的图文分割标注结果,确定所述图文分割网络的第一损失函数;基于所述样本图像上各个像素的文本分类预测结果,以及所述样本图像上各个像素的文本分类标注结果,确定所述文本分类网络的第二损失函数;根据所述第一损失函数和所述第二损失函数,确定目标损失函数。8.根据权利要求1所述方法,其特征在于,所述根据所述待处理图像上各个像素的图文分割结果,确定所述待处理图像中的文本区域,包括:根据所述待处理图像上各个像素的图文分割结果,从所述待处理图像所包含的像素中筛选出图文分...

【专利技术属性】
技术研发人员:曹润东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1