一种手写体文本图片的文本检测方法、装置及存储介质制造方法及图纸

技术编号：38649509 阅读：14 留言：0更新日期：2023-09-02 22:39

本发明专利技术公开了一种手写体文本图片的文本检测方法、装置及存储介质，文本检测方法包括：手写体文本检测模型的深度学习训练流程：将含有插入行的手写体文本图片作为输入数据样本集，将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集，基于DBNet文本检测算法模型进行深度学习训练，得到手写体文本检测模型；手写体文本图片的文本检测流程：将含有插入行的目标手写体文本图片输入手写体文本检测模型，输出与之相应的含有插入行文本框的手写体文本标注图片。本发明专利技术在进行手写体文本图片的文本检测过程中，可以将含有插入行的目标手写体文本图片中的插入行文本和普通行文本进行识别分割，解决具有插入行手写体文本的文本检测问题。行手写体文本的文本检测问题。行手写体文本的文本检测问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种手写体文本图片的文本检测方法、装置及存储介质

[0001]本专利技术涉及文本检测
，具体的涉及一种手写体文本图片的文本检测方法、装置及存储介质。

技术介绍

[0002]手写体文本是指以毛笔或钢笔等书写工具书写的文本，由于是手写文本，因此手写体文本的行与行之间会存在一些交错的情况。在这种情况下，手写体文本中还会出现插入行的情况，插入行指的是书写时出现在正常行之间的附加行，可能是因为笔误或想要添加注释等原因所导致。小目标行作为插入行的另一种形式，则是指书写时被嵌入在行内的较短的行，例如书写数字、符号、注音等，具体的手写体文本示例如图1所示。
[0003]深度学习算法是一种基于神经网络模型的机器学习算法，其模拟人类大脑神经元之间相互连接的方式，通过多层次的非线性变换，从大量的数据中提取出高层次、抽象的特征表征。深度学习算法可以用于图像、语音、自然语言处理等各种领域的数据分析与处理。深度学习算法的核心是深度神经网络，由多个层次的神经元组成，其中每个神经元都包含输入、输出、激活函数等元素，神经元之间的权重值可以通过反向传播算法进行调整，以优化神经网络的性能。深度学习算法具有较高的自动化和泛化能力，能够自主学习和发现数据之间的规律，从而在未知数据中实现准确的预测和分类。
[0004]手写体文本识别一直是计算机视觉领域的一个重要研究方向。但是，手写体文本中行与行之间会存在一些交错的情况，导致行与行之间相互粘连，使得目前许多文本检测和识别的深度学习算法进行手写体文本的检测和识别变得困难；而且，手写体文本中的...

【技术保护点】

【技术特征摘要】
1.一种手写体文本图片的文本检测方法，其特征在于，包括：手写体文本检测模型的深度学习训练流程：将含有插入行的手写体文本图片作为输入数据样本集，将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集，基于DBNet文本检测算法模型进行深度学习训练，得到手写体文本检测模型；手写体文本图片的文本检测流程：将含有插入行的目标手写体文本图片输入手写体文本检测模型，输出与之相应的含有插入行文本框的手写体文本标注图片。2.根据权利要求1所述的一种手写体文本图片的文本检测方法，其特征在于，所述手写体文本检测模型的深度学习训练流程包括：将含有插入行的手写体文本图片作为输入数据样本集，输入基于DBNet文本检测算法模型中，得到预测probability map；根据输出数据样本集中的手写体文本标注图片生成真实probability map；将所述预测probability map与所述真实probability map进行逐点比较，得到各个点的损失，根据损失确定惩罚系数；根据输出数据样本集中手写体文本标注图片生成真实threshold map，基于所述真实threshold map与真实probability map生成权重图weigt map；根据所述权重图weigt map与各点的惩罚系数确定DBNet文本检测算法模型的损失，进行反向传播优化。3.根据权利要求2所述的一种手写体文本图片的文本检测方法，其特征在于，包括：提取输出数据样本集中手写体文本标注图片中插入行；所述根据输出数据样本集中手写体文本标注图片生成真实probability map过程中，针对插入行粘连的部分行进行膨胀，对插入行膨胀后的外框实例置为背景类，将膨胀之前的插入行实例置为前景类，生成DBNet文本检测算法模型应当输出的真实插入行。4.根据权利要求3所述的一种手写体文本图片的文本检测方法，其特征在于，所述提取输出数据样本集中手写体文本标注图片中插入行包括：所述手写体文本标注图片中各个文本行和插入行均被人为标注为各个文本框实例；针对所有文本框实例进行边界扩充；遍历所有边界扩充后的文本框实例；当边界扩充后的第一文本框实例的面积和与其相交的边界扩充后的第二文本框实例的面积比小于或者等于第一预设阈值，则判定所述第一文本框实例为插入行。5.根据权利要求2所述的一种手写体文本图片的文本检测方法，其特征在于，所述根据输出数据样本集中手写体文本标注图片生成真实threshold map，基于所述真实threshold map与真实probability map生成权...

【专利技术属性】
技术研发人员：刘旭东，郭彦宗，袁景伟，
申请(专利权)人：北京云思智学科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人