一种文本区域检测方法及装置制造方法及图纸

技术编号：33349238 阅读：16 留言：0更新日期：2022-05-08 09:51

本说明书实施例提供一种文本区域检测方法及装置，所述方法包括：将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算；其中，所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型；所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息；检测所述待检测图像包含的文本区域；获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图，并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向，以得到标记了文本语序方向的所述文本区域。语序方向的所述文本区域。语序方向的所述文本区域。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本区域检测方法及装置

[0001]本说明书一个或多个实施例涉及光学字符识别
，尤其涉及一种文本区域检测方法及装置。

技术介绍

[0002]在金融自证的场景中，在对用户提交的用于自证的票据、合同等材料进行验证时，可以先通过OCR(Optical Character Recognition，光学字符识别)技术，检测并识别所述票据或合同等对应的图像中的文本内容，再对所述文本内容的真实性进行校验。
[0003]例如，通过OCR技术，可以先对所述票据或合同等对应的图像进行图像降噪、二值化处理等预处理，再对预处理后的图像进行像素级别的图像分割，以得到该图像中的文本区域，也即该图像中的文本内容所在的区域；进一步地，可以通过字符识别算法，识别所述文本区域中的文本内容，以使用户可以获取到识别出的所述票据或合同等对应的图像中的文本内容，并进行后续的人工校正、真实性验证等处理。

技术实现思路

[0004]本申请提供一种文本区域检测方法，所述方法包括：
[0005]将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算；其中，所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型；所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息；
[0006]检测所述待检测图像包含的文本区域；
[0007]获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图，并根据所述方向偏移图为检测到的所述文本区域...

【技术保护点】

【技术特征摘要】
1.一种文本区域检测方法，所述方法包括：将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算；其中，所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型；所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息；检测所述待检测图像包含的文本区域；获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图，并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向，以得到标记了文本语序方向的所述文本区域。2.根据权利要求1所述的方法，所述文本检测模型的学习目标还包括与所述待检测图像对应的概率图；所述概率图用于指示所述待检测图像中的各像素点位于所述文本区域的概率分布；所述检测所述待检测图像包含的文本区域，包括：获取所述文本检测模型输出的与所述待检测图像对应的概率图，并对所述概率图的概率分布中的各个概率值进行二值化处理，得到与所述待检测图像对应的二值化处理之后的概率图；根据所述二值化处理之后的概率图，检测所述待检测图像包含的文本区域。3.根据权利要求2所述的方法，所述对所述概率图的概率分布中的各个概率值进行二值化处理，得到与所述待检测图像对应的二值化处理之后的概率图，包括：根据用于针对所述概率分布中的各个概率值进行标准二值化处理的预设的固定阈值，对所述概率图的概率分布中对应于各像素点的各个概率值进行标准二值化处理，得到与所述待检测图像对应的标准二值化处理之后的概率图；其中，所述标准二值化处理，包括：分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述固定阈值进行比较；如果对应于任一像素点的概率值大于所述固定阈值，则确定该像素点位于所述文本区域。4.根据权利要求2所述的方法，所述文本检测模型的学习目标还包括与所述待检测图像对应的阈值图；所述阈值图用于指示针对所述概率分布中的各个概率值进行可微分二值化处理的阈值分布；所述对所述概率图的概率分布中的各个概率值进行二值化处理，得到与所述待检测图像对应的二值化处理之后的概率图，包括：获取所述文本检测模型输出的与所述待检测图像对应的阈值图，并根据所述阈值图的阈值分布中的各个自适应阈值，分别针对所述概率图的概率分布中的各个概率值进行可微分二值化处理，得到与所述待检测图像对应的可微分二值化处理之后的概率图；其中，所述可微分二值化处理，包括：分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述阈值图的阈值分布中对应于该像素点的自适应阈值进行比较；如果对应于任一像素点的概率值大于对应于该像素点的自适应阈值，则确定该像素点位于所述文本区域。5.根据权利要求3或4所述的方法，所述根据所述二值化处理之后的概率图，检测所述
待检测图像包含的文本区域，包括：根据所述二值化处理之后的概率图，将位于所述文本区域的像素点构成的区域，确定为检测到的所述待检测图像包含的文本区域。6.根据权利要求3或4所述的方法，所述文本检测模型的学习目标还包括与所述待检测图像对应的边界偏移图；所述边界偏移图用于指示所述待检测图像包含的文本区域的中心区域中的各像素点相对于所述文本区域的各边界的偏移向量；所述根据所述二值化处理之后的概率图，检测所述待检测图像包含的文本区域，包括：根据所述二值化处理之后的概率图，提取所述待检测图像包含的文本区域的中心区域；从所述文本区域的中心区域进行采样，得到若干采样点；获取所述文本检测模型输出的与所述待检测图像对应的边界偏移图，并根据所述边界偏移图中对应于所述若干采样点的偏移向量，针对所述若干采样点分别进行扩展，得到对应的若干文本区域边界点；将所述若干文本区域...

【专利技术属性】
技术研发人员：欧阳潘义，陈煜东，胡亮，朱禹轲，杨雷，
申请(专利权)人：浙江网商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人