一种文本信息的检测方法、装置及设备制造方法及图纸

技术编号：38882866 阅读：10 留言：0更新日期：2023-09-22 14:12

本发明专利技术提供一种文本信息的检测方法、装置及设备，所述方法包括：获取待检测图像；对所述待检测图像进行校正，得到校正后的目标图像；对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行；对所述至少一个文本行进行文本行分类处理，得到所述待检测图像中的至少一个关键字段。本发明专利技术提供的方案可以避免图像背景及图像倾斜导致的检测干扰，提高检测的效率与准确率。高检测的效率与准确率。高检测的效率与准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息的检测方法、装置及设备

[0001]本专利技术涉及通信
，特别是指一种文本信息的检测方法、装置及设备。

技术介绍

[0002]场景文本检测是文本识别的重要方法，例如，行驶证关键字检测方法，通过文本模糊匹配定位关键字段，依赖于文本识别结果；各种自然场景下文本识别效果差，是影响识别准确率的关键因素，进而影响定位行驶证关键字段；样本标记量大，需要将行驶证上所有的中、英文全部标记出来；
[0003]但现有的场景文本检测方法，存在卡证倾斜，图片方向为倒着的情况；存在一张图像有多张卡证图像情况，也存在背景OCR文字干扰关键字段定位情况，存在检测准确性较低、局限性强且浪费处理资源。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种文本信息的检测方法、装置及设备，以提高图像文本信息检测的准确率。
[0005]为解决上述技术问题，本专利技术的实施例提供一种文本信息的检测方法，所述方法包括：
[0006]获取待检测图像；
[0007]对所述待检测图像进行校正，得到校正后的目标图像；
[0008]对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行；
[0009]对所述至少一个文本行进行文本行分类处理，得到所述待检测图像中的至少一个关键字段。
[0010]可选的，对所述待检测图像进行校正，得到校正后的目标图像，包括：
[0011]通过第一预设网络模型对所述待检测图像进行预处理，得到包括所述目标图像的目标区域；r/>[0012]对所述目标区域中有形变的目标图像进行校正，得到校正后的目标图像。
[0013]可选的，对所述目标区域中有形变的目标图像进行校正，得到校正后的目标图像，包括：
[0014]对所述目标区域中有形变的目标图像的顶点坐标进行标记以及对各顶点之间的顺序进行标记，得到至少一个顶点的坐标、各顶点之间的顺序以及所述目标图像中心点的位置坐标；
[0015]将所述至少一个顶点的坐标、各顶点之间的顺序以及所述目标图像中心点的位置坐标，输入到所述第一预设网络模型的分类处理层进行处理，得到分类处理结果；
[0016]将所述分类处理结果输入到所述第一预设网络模型的输出层的第一损失函数中进行处理，得到校正后的目标图像。
[0017]可选的，所述分类处理结果包括：
[0018]通过公式a*(b+c+d)＝e计算得到卷积核个数，其中，a表示待测图像的预设检测尺寸，b表示待检测图像的类别，c表示待检测图像上的标记的坐标信息，d表示物体识别度，e表示卷积核个数。
[0019]可选的，所述第一损失函数为：
[0020]LOSS1＝Lxy+Lx1y1+Lx2y2+Lx3y3+Lx4y4+Lr1+Lr2+Lr3+Lr4+Lcon1；其中
[0021]Lcon1是分类的置信度，Lxy是中心坐标点，Lx1y1、Lx2y2、Lx3y3以及Lx4y4标记的待检测图像的四个顶点，Lr1、Lr2、Lr3以及Lr4分别表示四个顶点的顺序。
[0022]可选的，对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行，包括：
[0023]对所述目标图像进行数据标记，获得包括目标图像前景的数据标记结果；
[0024]将所述数据标记结果输入到第二预设网络模型进行文本行分割处理，得到所述目标图像中的至少一个文本行。
[0025]可选的，所述第二预设网络模型依据输出层中的第二损失函数对所述至少一个文本行进行处理，得到处理后的文本行；
[0026]所述第二预设网络模型的输出层的第二损失函数为：LOSS2＝Lxy+Lw+Lh+Lcon2；其中，Lxy是中心坐标点，Lw是待检测图像的宽度，Lh是待检测图像的高度，Lcon2是文本行的置信度。
[0027]可选的，对所述至少一个文本行进行文本行分类处理，得到所述待检测图像中的至少一个关键字段，包括：
[0028]将所述至少一个文本行进行特征融合处理，得到融合特征集合；
[0029]根据所述融合特征集合进行文本行分类，得到所述待检测图像中的至少一个关键字段。
[0030]可选的，将所述至少一个文本行行进行特征融合处理，得到融合特征集合，包括：
[0031]将所述至少一个文本进行尺度归一化处理，得到归一化处理结果；
[0032]将所述归一化处理结果，输入到第三预设网络模型进行处理，得到第三预设网络模型处理结果；
[0033]将所述第三预设网络模型处理结果，输入到第四预设网络模型进行处理，得到第四预设网络模型处理结果；
[0034]将所述第三预设网络模型处理结果和所述第四预设网络模型处理结果进行融合处理，得到融合特征集合。
[0035]可选的，根据所述融合特征集合进行文本行分类，得到所述待检测图像中的至少一个关键字段，包括：
[0036]对所述融合特征集合中的第三预设网络模型处理结果和第四预设网络模型处理结果，通过预设分类模型进行分类处理，得到所述待检测图像中的至少一个关键字段。
[0037]本专利技术的实施例还提供一种文本信息的检测装置，所述装置包括：
[0038]获取模块，用于获取待检测图像；
[0039]图像校正处理模块，用于对所述待检测图像进行校正，得到校正后的目标图像；
[0040]文本行分割处理模块，用于对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行；
[0041]文本分类处理模块，用于对所述至少一个文本行进行文本行分类处理，得到所述待检测图像中的至少一个关键字段。
[0042]本专利技术的实施例还提供一种计算设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上述所述的方法。
[0043]本专利技术的实施例还提供一种计算机可读存储介质，存储指令，当所述指令在计算机上运行时，使得计算机执行如上述所述的方法。
[0044]本专利技术的上述方案至少包括以下有益效果：
[0045]通过对所述待检测图像进行校正，得到校正后的目标图像，避免图像背景及图像倾斜导致的干扰，提高后续关键字段定位的准确性，进一步提升检测的准确率；对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行；对所述至少一个文本行进行文本行分类处理，得到所述待检测图像中的至少一个关键字段，去除其他不必要的字段信息，避免检测干扰，减少检测工作量，提高检测的效率与准确率。
附图说明
[0046]图1是本专利技术实施例提供的文本信息的检测方法流程图；
[0047]图2是本专利技术实施例提供的YOLOv3算法架构示意图；
[0048]图3是本专利技术实施例提供的顶点及中心点坐标标记示意图；
[0049]图4是本专利技术实施例提供的文本行尺度归一化处理示意图；
[0050]图5是本专利技术实施例提供的文本行特征融入架构示意图；
[0051]图6是本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本信息的检测方法，其特征在于，所述方法包括：获取待检测图像；对所述待检测图像进行校正，得到校正后的目标图像；对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行；对所述至少一个文本行进行文本行分类处理，得到所述待检测图像中的至少一个关键字段。2.根据权利要求1所述的文本信息的检测方法，其特征在于，对所述待检测图像进行校正，得到校正后的目标图像，包括：通过第一预设网络模型对所述待检测图像进行预处理，得到包括所述目标图像的目标区域；对所述目标区域中有形变的目标图像进行校正，得到校正后的目标图像。3.根据权利要求2所述的文本信息的检测方法，其特征在于，对所述目标区域中有形变的目标图像进行校正，得到校正后的目标图像，包括：对所述目标区域中有形变的目标图像的顶点坐标进行标记以及对各顶点之间的顺序进行标记，得到至少一个顶点的坐标、各顶点之间的顺序以及所述目标图像中心点的位置坐标；将所述至少一个顶点的坐标、各顶点之间的顺序以及所述目标图像中心点的位置坐标，输入到所述第一预设网络模型的分类处理层进行处理，得到分类处理结果；将所述分类处理结果输入到所述第一预设网络模型的输出层的第一损失函数中进行处理，得到校正后的目标图像。4.根据权利要求3所述的文本信息的检测方法，其特征在于，所述分类处理结果包括：通过公式a*(b+c+d)＝e计算得到卷积核个数，其中，a表示待检测图像的预设检测尺寸，b表示待检测图像的类别，c表示待检测图像上的标记的坐标信息，d表示物体识别度，e表示卷积核个数。5.根据权利要求3所述的文本信息的检测方法，其特征在于，所述第一损失函数为：LOSS1＝Lxy+Lx1y1+Lx2y2+Lx3y3+Lx4y4+Lr1+Lr2+Lr3+Lr4+Lcon1；其中Lcon1是分类的置信度，Lxy是中心坐标点，Lx1y1、Lx2y2、Lx3y3以及Lx4y4标记的待检测图像的四个顶点，Lr1、Lr2、Lr3以及Lr4分别表示四个顶点的顺序。6.根据权利要求1所述的文本信息的检测方法，其特征在于，对所述目标图像进行文本行分割处理，得到所述目标图像中的至少一个文本行，包括：对所述目标图像进行数据标记，获得包括目标图像前景的数据标记结果；将所述数据标记结果输入到第二预设网络模型进行文本行分割处理，得到所述目标图像中的至少一个文本行。7...

【专利技术属性】
技术研发人员：王鹏，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人