一种文本区域检测方法及装置制造方法及图纸

技术编号:33349238 阅读:16 留言:0更新日期:2022-05-08 09:51
本说明书实施例提供一种文本区域检测方法及装置,所述方法包括:将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;检测所述待检测图像包含的文本区域;获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。语序方向的所述文本区域。语序方向的所述文本区域。

【技术实现步骤摘要】
一种文本区域检测方法及装置


[0001]本说明书一个或多个实施例涉及光学字符识别
,尤其涉及一种文本区域检测方法及装置。

技术介绍

[0002]在金融自证的场景中,在对用户提交的用于自证的票据、合同等材料进行验证时,可以先通过OCR(Optical Character Recognition,光学字符识别)技术,检测并识别所述票据或合同等对应的图像中的文本内容,再对所述文本内容的真实性进行校验。
[0003]例如,通过OCR技术,可以先对所述票据或合同等对应的图像进行图像降噪、二值化处理等预处理,再对预处理后的图像进行像素级别的图像分割,以得到该图像中的文本区域,也即该图像中的文本内容所在的区域;进一步地,可以通过字符识别算法,识别所述文本区域中的文本内容,以使用户可以获取到识别出的所述票据或合同等对应的图像中的文本内容,并进行后续的人工校正、真实性验证等处理。

技术实现思路

[0004]本申请提供一种文本区域检测方法,所述方法包括:
[0005]将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;
[0006]检测所述待检测图像包含的文本区域;
[0007]获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。
[0008]本申请还提供一种文本区域检测装置,所述装置包括:
[0009]输入单元,用于将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;
[0010]检测单元,用于检测所述待检测图像包含的文本区域;
[0011]标记单元,用于获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。
[0012]本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
[0013]所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行
上述方法。
[0014]本申请还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。
[0015]上述实施例中,由于所述文本检测模型可以学习所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息,也即,可以获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,因此根据所述方向偏移图,可以为检测到的文本区域标记文本语序方向,得到标记有文本语序方向的文本区域,作为针对所述待检测图像包含的文本区域的检测结果。从而实现了检测出任意角度的文本区域,并为其标记正确的文本语序方向的目的,以便于在后续的图像矫正、文本识别等过程中,可以结合为所述文本区域标记的文本语序方向进行处理,进而能够准确地提取出所述待检测图像中的文本信息,避免出现文本语序方向错误、字符倒立、文本内容识别失败等情况。
附图说明
[0016]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本说明书一实施例中待检测图像的示意图;
[0018]图2是本说明书一实施例中文本区域检测方法的流程图;
[0019]图3是本说明书一实施例中文本区域的示意图;
[0020]图4是本说明书一实施例中概率图的示意图;
[0021]图5是本说明书一实施例中二值化处理之后的概率图的示意图;
[0022]图6是本说明书一实施例中阈值图的示意图;
[0023]图7是本说明书一实施例中边界偏移图的示意图;
[0024]图8是本说明书一实施例中方向偏移图的示意图;
[0025]图9是本说明书一实施例中标记有文本语序方向的文本区域的示意图;
[0026]图10是本说明书一实施例中文本区域检测装置所在电子设备的结构示意图;
[0027]图11是本说明书一实施例中文本区域检测装置的框图。
具体实施方式
[0028]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0029]为了使本
的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的文本检测与识别的相关技术,进行简要说明。
[0030]OCR(Optical Character Recognition,光学字符识别)技术,是指电子设备可以采用光学的方式,将纸质文档或数字图像中的文字转换成为黑白点阵的图像文件,并通过
字符识别方法将所述图像文件中的文本内容转换成文本格式的技术。
[0031]在实际应用中,通过OCR技术识别图像中的文本内容的过程,主要可以分为:图像输入、图像预处理、文本识别、人工校正等步骤。其中,所述图像输入,是指通过扫描仪、摄影设备等,获取需要进行OCR处理的图像,并将所述图像传入计算机;所述图像预处理,可以包括针对所述图像进行二值化处理、图像降噪、倾斜校正、分割文本区域等方式中的一种或多种预处理;所述文本识别,是指将输入的图像中包含的文本内容转换成文本格式。
[0032]例如,在金融自证的场景中,在对用户提交的用于自证的票据、合同等材料进行验证时,可以将所述票据或合同中包含的文本内容,分为印章区域中的文本内容和其他区域中的文本内容。具体地,通过OCR技术,可以针对与所述票据或合同对应的图像先进行分割,得到所述图像包含的印章区域中的文本内容所在的区域,再识别所述印章区域中的文本内容;基于相似的方法,可以识别所述票据或合同中包含的其他区域中的文本内容;进一步地,可以根据检测并识别到的所述印章区域中的文本内容,来验证所述其他区域中的文本内容。
[0033]需要说明的是,在上述应用场景中,所述票据或合同盖章时,印章可能存在旋转的情况,导致所述印章区域中的文本内容的阅读方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本区域检测方法,所述方法包括:将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;检测所述待检测图像包含的文本区域;获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。2.根据权利要求1所述的方法,所述文本检测模型的学习目标还包括与所述待检测图像对应的概率图;所述概率图用于指示所述待检测图像中的各像素点位于所述文本区域的概率分布;所述检测所述待检测图像包含的文本区域,包括:获取所述文本检测模型输出的与所述待检测图像对应的概率图,并对所述概率图的概率分布中的各个概率值进行二值化处理,得到与所述待检测图像对应的二值化处理之后的概率图;根据所述二值化处理之后的概率图,检测所述待检测图像包含的文本区域。3.根据权利要求2所述的方法,所述对所述概率图的概率分布中的各个概率值进行二值化处理,得到与所述待检测图像对应的二值化处理之后的概率图,包括:根据用于针对所述概率分布中的各个概率值进行标准二值化处理的预设的固定阈值,对所述概率图的概率分布中对应于各像素点的各个概率值进行标准二值化处理,得到与所述待检测图像对应的标准二值化处理之后的概率图;其中,所述标准二值化处理,包括:分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述固定阈值进行比较;如果对应于任一像素点的概率值大于所述固定阈值,则确定该像素点位于所述文本区域。4.根据权利要求2所述的方法,所述文本检测模型的学习目标还包括与所述待检测图像对应的阈值图;所述阈值图用于指示针对所述概率分布中的各个概率值进行可微分二值化处理的阈值分布;所述对所述概率图的概率分布中的各个概率值进行二值化处理,得到与所述待检测图像对应的二值化处理之后的概率图,包括:获取所述文本检测模型输出的与所述待检测图像对应的阈值图,并根据所述阈值图的阈值分布中的各个自适应阈值,分别针对所述概率图的概率分布中的各个概率值进行可微分二值化处理,得到与所述待检测图像对应的可微分二值化处理之后的概率图;其中,所述可微分二值化处理,包括:分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述阈值图的阈值分布中对应于该像素点的自适应阈值进行比较;如果对应于任一像素点的概率值大于对应于该像素点的自适应阈值,则确定该像素点位于所述文本区域。5.根据权利要求3或4所述的方法,所述根据所述二值化处理之后的概率图,检测所述
待检测图像包含的文本区域,包括:根据所述二值化处理之后的概率图,将位于所述文本区域的像素点构成的区域,确定为检测到的所述待检测图像包含的文本区域。6.根据权利要求3或4所述的方法,所述文本检测模型的学习目标还包括与所述待检测图像对应的边界偏移图;所述边界偏移图用于指示所述待检测图像包含的文本区域的中心区域中的各像素点相对于所述文本区域的各边界的偏移向量;所述根据所述二值化处理之后的概率图,检测所述待检测图像包含的文本区域,包括:根据所述二值化处理之后的概率图,提取所述待检测图像包含的文本区域的中心区域;从所述文本区域的中心区域进行采样,得到若干采样点;获取所述文本检测模型输出的与所述待检测图像对应的边界偏移图,并根据所述边界偏移图中对应于所述若干采样点的偏移向量,针对所述若干采样点分别进行扩展,得到对应的若干文本区域边界点;将所述若干文本区域...

【专利技术属性】
技术研发人员:欧阳潘义陈煜东胡亮朱禹轲杨雷
申请(专利权)人:浙江网商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1