一种手写体文本图片的文本检测方法、装置及存储介质制造方法及图纸

技术编号:38649509 阅读:14 留言:0更新日期:2023-09-02 22:39
本发明专利技术公开了一种手写体文本图片的文本检测方法、装置及存储介质,文本检测方法包括:手写体文本检测模型的深度学习训练流程:将含有插入行的手写体文本图片作为输入数据样本集,将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集,基于DBNet文本检测算法模型进行深度学习训练,得到手写体文本检测模型;手写体文本图片的文本检测流程:将含有插入行的目标手写体文本图片输入手写体文本检测模型,输出与之相应的含有插入行文本框的手写体文本标注图片。本发明专利技术在进行手写体文本图片的文本检测过程中,可以将含有插入行的目标手写体文本图片中的插入行文本和普通行文本进行识别分割,解决具有插入行手写体文本的文本检测问题。行手写体文本的文本检测问题。行手写体文本的文本检测问题。

【技术实现步骤摘要】
一种手写体文本图片的文本检测方法、装置及存储介质


[0001]本专利技术涉及文本检测
,具体的涉及一种手写体文本图片的文本检测方法、装置及存储介质。

技术介绍

[0002]手写体文本是指以毛笔或钢笔等书写工具书写的文本,由于是手写文本,因此手写体文本的行与行之间会存在一些交错的情况。在这种情况下,手写体文本中还会出现插入行的情况,插入行指的是书写时出现在正常行之间的附加行,可能是因为笔误或想要添加注释等原因所导致。小目标行作为插入行的另一种形式,则是指书写时被嵌入在行内的较短的行,例如书写数字、符号、注音等,具体的手写体文本示例如图1所示。
[0003]深度学习算法是一种基于神经网络模型的机器学习算法,其模拟人类大脑神经元之间相互连接的方式,通过多层次的非线性变换,从大量的数据中提取出高层次、抽象的特征表征。深度学习算法可以用于图像、语音、自然语言处理等各种领域的数据分析与处理。深度学习算法的核心是深度神经网络,由多个层次的神经元组成,其中每个神经元都包含输入、输出、激活函数等元素,神经元之间的权重值可以通过反向传播算法进行调整,以优化神经网络的性能。深度学习算法具有较高的自动化和泛化能力,能够自主学习和发现数据之间的规律,从而在未知数据中实现准确的预测和分类。
[0004]手写体文本识别一直是计算机视觉领域的一个重要研究方向。但是,手写体文本中行与行之间会存在一些交错的情况,导致行与行之间相互粘连,使得目前许多文本检测和识别的深度学习算法进行手写体文本的检测和识别变得困难;而且,手写体文本中的插入行(也称为悬挂行)的存在,进一步加剧手写体文本中文本行与文本行之间的粘连现象,使得深度学习算法进行手写体文本的检测和识别变得更加困难。
[0005]目前,许多文本检测和识别的深度学习算法仍然无法很好地处理这些问题。传统基于深度学习算法的手写体文本的行分割方法通常依赖于像素级预测,通过强大的深度学习模型获得更好的行分割结果。然而,对于具有插入行手写体文本,仅依靠更强大的深度学习模型进行文本的检测分割是不可行的。

技术实现思路

[0006]针对以上阐述的问题,本专利技术提出了一种手写体文本图片的文本检测方法、装置及存储介质,将手写体文本中的插入行先验信息引入到深度模型的学习过程中,从而使模型获得更好的结果,解决具有插入行手写体文本的文本检测问题。具体地,采用了如下技术方案:
[0007]一种手写体文本图片的文本检测方法,包括:
[0008]手写体文本检测模型的深度学习训练流程:将含有插入行的手写体文本图片作为输入数据样本集,将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集,基于DBNet文本检测算法模型进行深度学习训练,得到手写体文本检测模型;
[0009]手写体文本图片的文本检测流程:将含有插入行的目标手写体文本图片输入手写体文本检测模型,输出与之相应的含有插入行文本框的手写体文本标注图片。
[0010]作为本专利技术的可选实施方式,所述手写体文本检测模型的深度学习训练流程包括:
[0011]将含有插入行的手写体文本图片作为输入数据样本集,输入基于DBNet文本检测算法模型中,得到预测probability map;
[0012]根据输出数据样本集中的手写体文本标注图片生成真实probability map;
[0013]将所述预测probability map与所述真实probability map进行逐点比较,得到各个点的损失,根据损失确定惩罚系数;
[0014]根据输出数据样本集中手写体文本标注图片生成真实threshold map,基于所述真实threshold map与真实probability map生成权重图weigt map;
[0015]根据所述权重图weigt map与各点的惩罚系数确定DBNet文本检测算法模型的损失,进行反向传播优化。
[0016]作为本专利技术的可选实施方式,本专利技术的一种手写体文本图片的文本检测方法,包括:
[0017]提取输出数据样本集中手写体文本标注图片中插入行;
[0018]所述根据输出数据样本集中手写体文本标注图片生成真实probability map过程中,针对插入行粘连的部分行进行膨胀,对插入行膨胀后的外框实例置为背景类,将膨胀之前的插入行实例置为前景类,生成DBNet文本检测算法模型应当输出的真实插入行。
[0019]作为本专利技术的可选实施方式,所述提取输出数据样本集中手写体文本标注图片中插入行包括:
[0020]所述手写体文本标注图片中各个文本行和插入行均被人为标注为各个文本框实例;
[0021]针对所有文本框实例进行边界扩充;
[0022]遍历所有边界扩充后的文本框实例;
[0023]当边界扩充后的第一文本框实例的面积和与其相交的边界扩充后的第二文本框实例的面积比小于或者等于第一预设阈值,则判定所述第一文本框实例为插入行。
[0024]作为本专利技术的可选实施方式,所述根据输出数据样本集中手写体文本标注图片生成真实threshold map,基于所述真实threshold map与真实probability map生成权重图weigt map包括:
[0025]将真实threshold map中所有真实文本框按照自身周长的系数进行膨胀,对膨胀后的真实文本框外框实例置为前景类,将膨胀之前的真实文本框实例置为背景类,得到初始权重图;
[0026]将膨胀的部分在模型训练中施加第一惩罚系数,所述第一惩罚系数由所述预测probability map与所述真实probability map进行逐点比较确定的惩罚系数乘以大于1的比例系数得到。
[0027]作为本专利技术的可选实施方式,所述根据输出数据样本集中手写体文本标注图片生成真实threshold map,基于所述真实threshold map与真实probability map生成权重图weigt map包括:
[0028]遍历初始权重图中所有膨胀后的真实文本框外框实例;
[0029]当膨胀后的的第一真实文本框外框实例的面积和与其相交的膨胀后的第二真实文本框外框实例的面积比小于或者等于第二预设阈值,则判定所述第一真实文本框外框实例所对应的真实文本框实例为插入行;
[0030]针对所述插入行实例在模型训练中施加第二惩罚系数,所述的第二惩罚系数大于所述第一惩罚系数。
[0031]作为本专利技术的可选实施方式,所述根据输出数据样本集中手写体文本标注图片生成真实threshold map,基于所述真实threshold map与真实probability map生成权重图weigt map包括:
[0032]对插入行实例的膨胀粘连区域在模型训练中施加第三惩罚系数,所述的第三惩罚系数大于所述第二惩罚系数。
[0033]本专利技术同时提供一种手写体文本图片的文本检测装置,包括:
[0034]手写体文本检测模型训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手写体文本图片的文本检测方法,其特征在于,包括:手写体文本检测模型的深度学习训练流程:将含有插入行的手写体文本图片作为输入数据样本集,将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集,基于DBNet文本检测算法模型进行深度学习训练,得到手写体文本检测模型;手写体文本图片的文本检测流程:将含有插入行的目标手写体文本图片输入手写体文本检测模型,输出与之相应的含有插入行文本框的手写体文本标注图片。2.根据权利要求1所述的一种手写体文本图片的文本检测方法,其特征在于,所述手写体文本检测模型的深度学习训练流程包括:将含有插入行的手写体文本图片作为输入数据样本集,输入基于DBNet文本检测算法模型中,得到预测probability map;根据输出数据样本集中的手写体文本标注图片生成真实probability map;将所述预测probability map与所述真实probability map进行逐点比较,得到各个点的损失,根据损失确定惩罚系数;根据输出数据样本集中手写体文本标注图片生成真实threshold map,基于所述真实threshold map与真实probability map生成权重图weigt map;根据所述权重图weigt map与各点的惩罚系数确定DBNet文本检测算法模型的损失,进行反向传播优化。3.根据权利要求2所述的一种手写体文本图片的文本检测方法,其特征在于,包括:提取输出数据样本集中手写体文本标注图片中插入行;所述根据输出数据样本集中手写体文本标注图片生成真实probability map过程中,针对插入行粘连的部分行进行膨胀,对插入行膨胀后的外框实例置为背景类,将膨胀之前的插入行实例置为前景类,生成DBNet文本检测算法模型应当输出的真实插入行。4.根据权利要求3所述的一种手写体文本图片的文本检测方法,其特征在于,所述提取输出数据样本集中手写体文本标注图片中插入行包括:所述手写体文本标注图片中各个文本行和插入行均被人为标注为各个文本框实例;针对所有文本框实例进行边界扩充;遍历所有边界扩充后的文本框实例;当边界扩充后的第一文本框实例的面积和与其相交的边界扩充后的第二文本框实例的面积比小于或者等于第一预设阈值,则判定所述第一文本框实例为插入行。5.根据权利要求2所述的一种手写体文本图片的文本检测方法,其特征在于,所述根据输出数据样本集中手写体文本标注图片生成真实threshold map,基于所述真实threshold map与真实probability map生成权...

【专利技术属性】
技术研发人员:刘旭东郭彦宗袁景伟
申请(专利权)人:北京云思智学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1