文档图像中文字高度的分布情况估计方法及装置制造方法及图纸

技术编号:35018592 阅读:14 留言:0更新日期:2022-09-24 22:45
本发明专利技术提供一种文档图像中文字高度的分布情况估计方法及装置,所述方法包括:获取第一样本训练集;基于所述第一样本训练集对初始网络模型进行训练,得到字高检测模型;将待检测文档图像缩放至不同比例并输入至所述字高检测模型,获得不同比例下的所述待检测文档图像对应的文字高度识别结果;基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图;将所述待分类文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况。该方法可准确的检测到文档图像上的文字高度分布情况。高度分布情况。高度分布情况。

【技术实现步骤摘要】
文档图像中文字高度的分布情况估计方法及装置


[0001]本专利技术涉及计算机信息
,尤其涉及一种文档图像中文字高度的分布情况估计方法及装置。

技术介绍

[0002]目前在电子文档的阅读以及OCR识别等应用场景都需要解决如何将图像放缩至符合视觉的大小的问题。具体来说在OCR的输入预处理阶段需要将图像放缩至合适大小,这样可以显著提升OCR识别的正确率;而在采用阅读器阅读PDF页面或在浏览器页面浏览文字类网页的时候,将页面图像放缩至合适位置,使页面中文字大小调整到适合阅读的大小,可以提升用户阅读的体验。
[0003]现有的PDF页面或文字类网页图像放缩时,一般是用户根据阅读爱好将其阅读或浏览的含有文字的图像放缩至自己想要的大小。由于现有方法无法准确识别图像中文字的高度分布情况,因而在图像放缩过程中难以保证以较佳的放缩比例进行放缩,因此如何准确的检测到图像上的文字高度分布情况是亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种文档图像中文字高度的分布情况估计方法及装置,以解决现有技术中存在的一个或多个问题。
[0005]根据本专利技术的一个方面,本专利技术公开了一种文档图像中文字高度的分布情况估计方法,所述方法包括:
[0006]获取第一样本训练集,所述第一样本训练集中的样本数据包括文字块图像及文字高度;
[0007]基于所述第一样本训练集对初始网络模型进行训练,得到字高检测模型;
[0008]将待检测文档图像缩放至不同比例并输入至所述字高检测模型,获得不同比例下的所述待检测文档图像对应的文字高度识别结果;
[0009]基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图;其中,所述待分类文字高度分布图的横轴表示实际字高,纵轴表示相应字高的文字数量与总文字数量的比值;
[0010]将所述待分类文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况。
[0011]在本专利技术一些实施例中,获取第一样本训练集,包括:
[0012]获取文档图像,将所述文档图像切割为多个文字块图像,标注各所述文字块图像的文字高度;
[0013]将所述文字块图像中的在高度方向上被切割的文字进行马赛克处理。
[0014]在本专利技术一些实施例中,获取第一样本训练集,还包括:
[0015]随机生成文档图像,并在生成的所述文档图像的各区域添加识别干扰项,所述识别干扰项包括纯白背景、高斯噪声、晶体、椒盐噪声和真实环境信息中的至少一个;和/或
[0016]对所述文字块图像进行数据增强及旋转,调整所述文字块图像的亮度、对比度、饱和度和色调。
[0017]在本专利技术一些实施例中,所述方法包括:
[0018]构建高度损失函数,所述高度损失函数为:其中,HLoss表示高度损失,H1=min(D1,D3)+min(D2,D4),H2=D1+D2+D3+D4‑
H1,D1为预测的像素点至文字块图像顶部之间的距离,D2为预测的像素点至文字块图像底部之间的距离,D3为标注的像素点至文字块图像顶部之间的距离,D4为标注的像素点至文字块图像底部之间的距离。
[0019]在本专利技术一些实施例中,当获取第一样本训练集包括对所述文字块图像进行数据增强及旋转时,所述方法还包括:构建角度损失函数,所述角度损失函数为angleLoss=1

cos(θ1‑
θ2);其中,angleLoss表示角度损失,θ1为预测的文字块图像的旋转角度值,θ2为标注的文字块图像旋转角度值。
[0020]在本专利技术一些实施例中,将所述文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况,之前,还包括:
[0021]获取第二样本训练集,所述第二样本训练集中的样本数据包括文字高度分布图以及对应的最优缩放比例;
[0022]基于所述第二样本训练集对初始分类器模型进行训练得到所述分类器模型。
[0023]在本专利技术一些实施例中,所述方法还包括:
[0024]构建文本识别损失函数,所述文本识别损失函数为其中,DiceLoss表示文本识别损失,X表示标注的像素点为文本的概率,Y表示预测的像素点为文本的概率。
[0025]在本专利技术一些实施例中,所述分类器模型为SVM分类器;和/或
[0026]基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图,包括:
[0027]统计各比例下的所述待检测文档图像对应的各字高的文字数量;
[0028]计算各比例下的所述待检测文档图像对应的各字高的文字数量与总文字数量的比值;
[0029]基于所述比值采用画图工具建立各比例待检测文档图像的待分类文字高度分布图。
[0030]根据本专利技术的另一方面,还公开了一种文档图像中文字高度的分布情况估计系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上述任一实施例所述方法的步骤。
[0031]根据本专利技术的再一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
[0032]该文档图像中文字高度的分布情况估计方法通过构造大量文档图像文字块作为
网络训练集的来源,并通过字高检测模型获取待检测文档图像中文字的高度,进而通过分类器模型获得待检测文档图像的最优缩放比例,从而可准确的检测到图像上的文字高度分布情况,从而可保证在文档阅读或OCR识别场合使带有文字的图像放缩至最优比例。
[0033]本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
[0034]本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本专利技术能够实现的上述和其他目的。
附图说明
[0035]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。附图中的部件不是成比例绘制的,而只是为了示出本专利技术的原理。为了便于示出和描述本专利技术的一些部分,附图中对应部分可能被放大,即,相对于依据本专利技术实际制造的示例性装置中的其它部件可能变得更大。在附图中:
[0036]图1为本专利技术一实施例的文档图像中文字高度的分布情况估计方法的流程示意图。
[0037]图2为本专利技术另一实施例的文档本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像中文字高度的分布情况估计方法,其特征在于,所述方法包括:获取第一样本训练集,所述第一样本训练集中的样本数据包括文字块图像及文字高度;基于所述第一样本训练集对初始网络模型进行训练,得到字高检测模型;将待检测文档图像缩放至不同比例并输入至所述字高检测模型,获得不同比例下的所述待检测文档图像对应的文字高度识别结果;基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图;其中,所述待分类文字高度分布图的横轴表示实际字高,纵轴表示相应字高的文字数量与总文字数量的比值;将所述待分类文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况。2.根据权利要求1所述的文档图像中文字高度的分布情况估计方法,其特征在于,获取第一样本训练集,包括:获取文档图像,将所述文档图像切割为多个文字块图像,标注各所述文字块图像的文字高度;将所述文字块图像中的在高度方向上被切割的文字进行马赛克处理。3.根据权利要求2所述的文档图像中文字高度的分布情况估计方法,其特征在于,获取第一样本训练集,还包括:随机生成文档图像,并在生成的所述文档图像的各区域添加识别干扰项,所述识别干扰项包括纯白背景、高斯噪声、晶体、椒盐噪声和真实环境信息中的至少一个;和/或对所述文字块图像进行数据增强及旋转,调整所述文字块图像的亮度、对比度、饱和度和色调。4.根据权利要求3所述的文档图像中文字高度的分布情况估计方法,其特征在于,所述方法包括:构建高度损失函数,所述高度损失函数为:其中,HLoss表示高度损失,H1=min(D1,D3)+min(D2,D4),H2=D1+D2+D3+D4‑
H1,D1为预测的像素点至文字块图像顶部之间的距离,D2为预测的像素点至文字块图像底部之间的距离,D3为标注的像素点至文字块图像顶部之间的距离,D4为标注的像素点至文字块图像底部之间的距离。5.根据权利要求4所述的文档图像中文字高度的分布情况估计方法,其特征在于,当获...

【专利技术属性】
技术研发人员:熊永平丁运运黄思远伍贵宾
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1