一种文本区域检测方法及装置制造方法及图纸

技术编号:26506311 阅读:42 留言:0更新日期:2020-11-27 15:34
本发明专利技术实施例提供了一种文本区域检测方法及装置,方法包括:获取待检测的目标图像,目标图像中包含目标文本;将待检测的目标图像输入预先训练的语义分割网络模型中,得到目标图像中各个像素点的类别标签,包括文本类标签,边界类标签和背景类标签,其中边界类标签的像素点位于各个文本区域的周边,因此,能够将不同文本区域分割开。再根据文本类标签的像素点,确定包含目标文本的目标文本区域,并对目标文本区域进行矫正,得到矩形文本区域,矩形文本区域能够便于文本识别,提高文本识别的准确性。

【技术实现步骤摘要】
一种文本区域检测方法及装置
本专利技术涉及计算机视觉
,特别是涉及一种文本区域检测方法及装置。
技术介绍
在计算机视觉领域,文本检测和识别是一个很有应用价值的研究方向,现实生活中很多应用都与其息息相关,例如,车牌识别、身份证信息识别等技术均应用了文本检测和识别的方法。文本检测和识别方法包括两个步骤,第一,针对图像进行文本区域检测,得到图像中的文本区域;第二,针对文本区域进行文本识别。其中,第一个步骤获取的文本区域的质量好坏,很大程度影响了最终的文本识别准确率。现有的文本区域检测方法中,检测结果是一个文本矩阵框,这种文本矩形框无法处理弯曲的长字符串。当待检测图像中包含连续的弯曲文本时,检测出的文本矩形框可能会框住其他文本区域,即无法适用于弯曲文本的检测,从而影响了文本识别的准确性。
技术实现思路
本专利技术实施例的目的在于提供一种文本区域检测方法及装置,实现对图像中弯曲文本的区域检测,从而提高文本识别的准确性。为了实现上述目的,本专利技术实施例提供了一种文本区域检测方法,所述方法包括:获取待检测的目标图像,所述目标图像中包含目标文本;将所述目标图像输入预先训练的语义分割网络模型中,得到所述目标图像中各个像素点的类别标签,所述语义分割网络模型是根据预设训练集训练得到的,所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签;<br>根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域;对所述目标文本区域进行矫正,得到矩形文本区域。可选的,在根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域之前,还包括:针对每个文本连通域,确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;若确定的比例小于预设比例阈值,则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。可选的,所述根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域的步骤,包括:从所述目标图像中类别标签为文本类标签的像素点中选择像素点,作为第一像素点;获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;判断所述第二像素点的类别标签是否为文本类标签;若不是文本类标签,判断预设衰减系数是否大于第一预设值,所述预设衰减系数的初始值大于所述第一预设值;若不大于所述第一预设值,则将当前所述目标图像中类别标签为文本类标签的像素点所在区域,作为包含所述目标文本的目标文本区域。可选的,所述方法还包括:若大于所述第一预设值,则将所述第二像素点的类别标签更新为文本类标签,并将预设衰减系数减第二预设值,将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;若所述第二像素点的类别标签为文本类标签,则将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点。可选的,所述根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域的步骤,包括:针对每个文本连通域,获取外接该文本连通域的矩形图像;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;将所述矩形图像中类别标签为文本类标签的像素点赋值为第一数值,并将所述矩形图像中类别标签为边界类或背景类标签的像素点赋值为第二数值,得到所述矩形图像对应的二值图像;将所述二值图像输入预先训练的角点网络模型,得到多个角点坐标;所述角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练得到的;将得到的多个角点坐标组成的多边形区域,作为所述目标文本区域。可选的,所述对所述目标文本区域进行矫正,得到矩形文本区域的步骤,包括:根据所述目标文本区域各个角点的坐标,利用以下公式,对所述目标文本区域进行矫正,确定所述目标文本区域的各个角点的矫正坐标,得到矩形文本区域:avgh=[Distance(P1,P2×n)+Distance(Pn,Pn+1)]/2;其中,avgw为所述目标文本区域的平均宽度,avgh为所述目标文本区域的平均高度,Pi表示所述文本区域中第i个角点,Distance(Pi,Pi+1)表示所述文本区域中第i个角点和第i+1个角点的距离,Ti为所述目标文本区域的第i个角点的矫正坐标。为了实现上述目的,本专利技术实施例还提供了一种文本区域检测装置,所述装置包括:获取模块,用于获取待检测的目标图像,所述目标图像中包含目标文本;语义分割模块,用于将所述目标图像输入预先训练的语义分割网络模型中,得到所述目标图像中各个像素点的类别标签,所述语义分割网络模型是根据预设训练集训练得到的,所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签;确定模块,用于根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域;矫正模块,用于对所述目标文本区域进行矫正,得到矩形文本区域。可选的,所述装置还包括更新模块,所述更新模块,用于针对每个文本连通域,确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;若确定的比例小于预设比例阈值,则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。可选的,所述确定模块,具体用于:从所述目标图像中类别标签为文本类标签的像素点中选择像素点,作为第一像素点;获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;判断所述第二像素点的类别标签是否为文本类标签;若不是文本类标签,判断预设衰减系数是否大于第一预设值,所述预设衰减系数的初始值大于所述第一预设值;若不大于所述第一预设值,则将当前所述目标图像中类别标签为文本类标签的像素点所在区域,作为包含所述目标文本的目标文本区域。可选的,所述确定模块,具体还用于:若大于所述第一预设值,则将所述第二像素点的类别标签更新为文本类标签,并将预设衰减系数减第二预设值,将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;若所述第二像素点的类别标签为文本类标签,则将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点本文档来自技高网...

【技术保护点】
1.一种文本区域检测方法,其特征在于,所述方法包括:/n获取待检测的目标图像,所述目标图像中包含目标文本;/n将所述目标图像输入预先训练的语义分割网络模型中,得到所述目标图像中各个像素点的类别标签,所述语义分割网络模型是根据预设训练集训练得到的,所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签;/n根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域;/n对所述目标文本区域进行矫正,得到矩形文本区域。/n

【技术特征摘要】
1.一种文本区域检测方法,其特征在于,所述方法包括:
获取待检测的目标图像,所述目标图像中包含目标文本;
将所述目标图像输入预先训练的语义分割网络模型中,得到所述目标图像中各个像素点的类别标签,所述语义分割网络模型是根据预设训练集训练得到的,所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签;
根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域;
对所述目标文本区域进行矫正,得到矩形文本区域。


2.根据权利要求1所述的方法,其特征在于,在根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域之前,还包括:
针对每个文本连通域,确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;
若确定的比例小于预设比例阈值,则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。


3.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域的步骤,包括:
从所述目标图像中类别标签为文本类标签的像素点中选择像素点,作为第一像素点;
获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;
判断所述第二像素点的类别标签是否为文本类标签;
若不是文本类标签,判断预设衰减系数是否大于第一预设值,所述预设衰减系数的初始值大于所述第一预设值;
若不大于所述第一预设值,则将当前所述目标图像中类别标签为文本类标签的像素点所在区域,作为包含所述目标文本的目标文本区域。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若大于所述第一预设值,则将所述第二像素点的类别标签更新为文本类标签,并将预设衰减系数减第二预设值,将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;
若所述第二像素点的类别标签为文本类标签,则将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点。


5.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域的步骤,包括:
针对每个文本连通域,获取外接该文本连通域的矩形图像;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;
将所述矩形图像中类别标签为文本类标签的像素点赋值为第一数值,并将所述矩形图像中类别标签为边界类或背景类标签的像素点赋值为第...

【专利技术属性】
技术研发人员:乔梁
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1