基于文档图像的文本类型识别方法、装置、设备及介质制造方法及图纸

技术编号:38103121 阅读:32 留言:0更新日期:2023-07-06 09:22
本发明专利技术公开了一种基于文档图像的文本类型识别方法、装置、设备及介质。模型训练方法,包括:根据文本图像样本以及文本检测模块,确定待处理字条样本集合;对待处理字条样本集合中的各待处理字条样本进行预处理,得到待识别字条样本集合;将待识别字条样本集合,输入至预训练分类模型进行字体类型以及文字方向的识别训练,得到文本类型识别模型。本发明专利技术实施例的技术方案能够在保证文本识别精度的前提下,降低文本识别的训练难度。降低文本识别的训练难度。降低文本识别的训练难度。

【技术实现步骤摘要】
基于文档图像的文本类型识别方法、装置、设备及介质


[0001]本专利技术涉及文本识别
,尤其涉及一种基于文档图像的文本类型识别方法、装置、设备及介质。

技术介绍

[0002]在文档电子化的处理过程中,常常会面对文字方向不是水平正向的文档, 还有不同字体混合的文档。
[0003]对于存在不同方向文本的文档图像,有两种常见的解决方案:一种是直接把文字的方向分类加入文本检测或文本识别流程中,这种方案会大大增加相应流程的训练难度,而且在出现错误时, 具有不可解释性,很难找到优化方向, 只能通过堆数据等方法来解决,这样做往往事倍功半。另一种方案是训练一个方向分类模型,输入为整个图像,输出为四方向分类结果,这种方案对数据的种类和数量需求很大,而且在遇到文字区域占比较小的情况时,鲁棒性较差。此外,这种方案无法解决同一张图片上存在不同方向文字的情况。当字符集很大时,将导致涉及字体类型的识别流程训练难度很大。例如,手写体和印刷体文本有明显区别,对于手写体和印刷体文本混合的文档,要学习的字符集数量增大了近一倍,识别模型会更难收敛。
专利技术内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:根据文本图像样本以及文本检测模块,确定待处理字条样本集合;对所述待处理字条样本集合中的各待处理字条样本进行预处理,得到待识别字条样本集合;将所述待识别字条样本集合,输入至预训练分类模型进行字体类型以及文字方向的识别训练,得到文本类型识别模型;所述文本类型识别模型,用于识别字体类型以及文本方向。2.根据权利要求1所述的方法,其特征在于,所述根据文本图像样本以及文本检测模块,确定待处理字条样本集合,包括:将所述文本图像样本输入至所述文本检测模块,得到文字边框集合;根据所述文字边框集合对所述文本图像样本进行图像截取,得到所述待处理字条样本集合。3.根据权利要求1所述的方法,其特征在于,所述对所述待处理字条样本集合中的各待处理字条样本进行预处理,包括:设置第一宽高阈值以及第二宽高阈值,并获取所述待处理字条样本集合中的各待处理字条样本的字条宽高数据;根据各待处理字条样本的字条宽高数据以及所述第一宽高阈值,确定第一类待处理字条样本;按照字条旋转规则,对所述第一类待处理字条样本进行字条旋转处理,并更新所述第一类待处理字条样本的字条宽高数据;根据所述第一类待处理字条样本更新后的字条宽高数据、所述待处理字条样本集合中除第一类待处理字条样本外的待处理字条样本,以及所述第二宽高阈值,确定第二类待处理字条样本;按照字条截断规则,对所述第二类待处理字条样本进行字条截断处理。4.根据权利要求3所述的方法,其特征在于,所述根据各待处理字条样本的字条宽高数据以及所述第一宽高阈值,确定第一类待处理字条样本,包括:根据各所述待处理字条样本的字条宽高数据,确定各所述待处理字条样本的字条宽高比;若待处理字条样本的字条宽高比小于所述第一宽高阈值,则将所述待处理字条样本划分为所述第一类待处理字条样本;所述根据所述第一类待处理字条样本更新后的字条宽高数据、所述待处理字条样本集合中除第一类待处理字条样本外的待处理字条样本,以及所述第二宽高阈值,确定第二类待处理字条样本,包括:将所述第一类待处理字条样本更新后的字条宽高比大于所述第二宽高阈值的待处理字条样本,以及所述待处理字条样本集合中除第一类待处理字条样本外字条宽高比大于所述第二宽高阈值的待处理字条样本,作为所述第二类待处理字条样本。5.根据权利要求3所述的方法,其特征在于,所述将所述待识别字条样本集合,输入至预训练分类模型进行字体类型以及文字方向的识别训练,包括:根据所述预训练分类模型,对所述待识别字条样本集合进行文字方向特征以及...

【专利技术属性】
技术研发人员:潘新星陈运文纪达麒李巍豪高翔黄登魏舒杨彬彬许诺
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1