文档图像的处理方法、装置、介质、设备及模型训练方法制造方法及图纸

技术编号:35680412 阅读:22 留言:0更新日期:2022-11-23 14:22
本公开涉及一种文档图像的处理方法、装置、介质、设备及模型训练方法,该处理方法包括:通过色调饱和值彩色模型对文档图像进行图像分割,生成三通道空间图像,对文档图像的背景区域进行过滤,生成二值边缘图像,将三通道空间图像和二值边缘图像进行拼接融合,生成目标输入数据,根据图像翻转识别模型对目标输入数据进行翻转识别,确定文档图像的目标翻转类别,根据目标翻转类别,对文档图像进行反向翻转得到目标图像。从而通过图像翻转识别模型对文档图像中的文字特征进行识别,并根据翻转角度对文档图像进行翻转,使上传的文档图像不会受到拍摄角度的干扰,用户能够直观的查看文档图像中的信息。图像中的信息。图像中的信息。

【技术实现步骤摘要】
文档图像的处理方法、装置、介质、设备及模型训练方法


[0001]本公开涉及图像处理领域,具体地,涉及一种文档图像的处理方法、装置、介质、设备及模型训练方法。

技术介绍

[0002]在现有的网络教育场景中,教师和学生经常使用手机、平板电脑等拍照设备对书籍、试卷、作业本等教学素材进行拍照上传,用于后续的作业提交,笔记归档等。但在实际操作中,因拍照时的角度不规范,导致上传图像的角度出现翻转,对后续针对上传图像进行作业批改、整理归档等带来困扰。

技术实现思路

[0003]为克服相关技术中存在的问题,本公开提供一种文档图像的处理方法、装置、介质、设备及模型训练方法,用于解决因拍照角度不规范,导致上传图像翻转,不方便查看的技术问题。
[0004]根据本公开实施例的第一方面,提供一种文档图像的处理方法,包括:
[0005]通过色调饱和值彩色模型对所述文档图像进行图像分割,生成三通道空间图像;
[0006]对所述文档图像的背景区域进行过滤,生成二值边缘图像;
[0007]将所述三通道空间图像和所述二值边缘图像进行拼接融合,生成目标输入数据;
[0008]根据图像翻转识别模型对所述目标输入数据进行翻转识别,确定所述文档图像的目标翻转类别;
[0009]根据所述目标翻转类别,对所述文档图像进行反向翻转得到目标图像。
[0010]可选地,所述图像翻转识别模型包括特征提取网络和卷积神经网络,所述根据图像翻转识别模型对所述目标输入数据进行翻转识别,确定所述文档图像的目标翻转类别,包括:
[0011]通过所述特征提取网络对所述目标输入数据进行特征提取,生成三维特征图像;
[0012]根据所述卷积神经网络获取所述三维特征图像分属于多个图像翻转类别的置信度评分,以确定置信度评分最高的图像翻转类别为目标翻转类别。
[0013]可选地,所述通过所述特征提取网络对所述目标输入数据进行特征提取,生成三维特征图像,包括:
[0014]根据所述特征提取网络识别所述目标输入数据的文字尺寸;
[0015]根据所述文字尺寸确定所述特征提取网络的首层卷积核和次层卷积核;
[0016]基于所述首层卷积核和所述次层卷积核对所述输入数据进行特征提取,生成所述三维特征图像。
[0017]可选地,所述根据所述卷积神经网络获取所述三维特征图像分属于多个图像翻转类别的置信度评分,以确定置信度评分最高的图像翻转类别为目标翻转类别,包括:
[0018]根据所述卷积神经网络对所述三维特征图进行降维,生成一维特征向量;
[0019]将所述一维特征向量与预设全连接网络进行链接,生成分属于多个图像翻转类别的多个置信度评分,其中,所述预设全连接网络根据所述多个图像翻转类别进行设定;
[0020]将所述多个置信度评分进行比较,确定置信度评分最高的图像翻转类别为所述目标翻转类别。
[0021]可选地,所述将所述一维特征向量与预设全连接网络进行链接,生成分属于多个图像翻转类别的多个置信度评分,包括:
[0022]根据所述预设全连接网络对所述一维特征向量进行分类,生成所述多个图像翻转类别;
[0023]对所述多个图像翻转类别进行置信度计算,生成所述多个置信度评分。
[0024]根据本公开实施例的第二方面,提供一种图像翻转识别模型的训练方法,应用于上述第一方面中任一项所述图像翻转识别模型,所述方法包括:
[0025]根据随机裁切算法对样本图像进行裁切,生成预设第一数量的裁切子图像;
[0026]基于所述裁切子图像中是否包含文字信息,对所述裁切子图像进行筛选,获得有效图像,其中所述有效图像中包含文字信息;
[0027]根据预设翻转规则将所述有效图像进行镜像翻转,生成翻转图像和预设翻转标签;
[0028]通过所述图像翻转识别模型对所述翻转图像进行识别,确定目标翻转标签;
[0029]在所述目标翻转标签与所述预设翻转标签不一致的情况下,根据所述预设翻转标签对所述图像翻转识别模型进行训练。
[0030]可选地,所述基于所述裁切子图像中是否包含文字信息,对所述裁切子图像进行筛选,获得有效图像,包括:
[0031]根据文字检测算法对任一裁切子图像的文字区域进行定位,生成第一位置记录码;
[0032]在所述第一位置记录码的总值大于预设像素阈值,且所述文字区域的总面积大于预设比例的裁切区域面积的情况下,确定所述裁切子图像为所述有效图像。
[0033]可选地,所述方法包括:
[0034]在所述有效图像的数量小于预设第二数量的情况下,对所述有效图像进行扩充,生成所述预设第二数量的有效图像。
[0035]可选地,所述对所述有效图像进行扩充,生成所述预设第二数量的有效图像,包括:
[0036]将预设样式图像随机粘贴至所述有效图像中,生成初始增广图像;
[0037]根据文字检测算法对所述初始增广图像中除所述预设样式图像以外的文字区域进行定位,生成第二位置记录码;
[0038]在所述第二位置记录码的总值大于所述预设像素阈值,且所述文字区域的总面积大于所述预设比例的裁切区域面积的情况下,确定所述初始增广图像为所述有效图像。
[0039]根据本公开实施例的第三方面,提供一种文档图像的处理装置,所述装置包括:
[0040]第一生成模块,用于通过色调饱和值彩色模型对所述文档图像进行图像分割,生成三通道空间图像;
[0041]第二生成模块,用于对所述文档图像的背景区域进行过滤,生成二值边缘图像;
[0042]第三生成模块,用于将所述三通道空间图像和所述二值边缘图像进行拼接融合,生成目标输入数据;
[0043]确定模块,用于根据图像翻转识别模型对所述目标输入数据进行翻转识别,确定所述文档图像的目标翻转类别;
[0044]翻转模块,用于根据所述目标翻转类别,对所述文档图像进行反向翻转得到目标图像。
[0045]根据本公开实施例的第四方面,提供一种图像翻转识别模型的训练装置,包括:
[0046]第四生成模块,用于根据随机裁切算法对样本图像进行裁切,生成预设第一数量的裁切子图像;
[0047]筛选模块,用于基于裁切子图像中是否包含文字信息,对裁切子图像进行筛选,获得有效图像,其中有效图像中包含文字信息;
[0048]第五生成模块,用于根据预设翻转规则将有效图像进行镜像翻转,生成翻转图像和预设翻转标签;
[0049]识别模块,用于通过图像翻转识别模型对翻转图像进行识别,确定目标翻转标签;
[0050]执行模块,用于在目标翻转标签与预设翻转标签不一致的情况下,根据预设翻转标签对图像翻转识别模型进行训练。
[0051]根据本公开实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
[0052]根据本公开实施例的第六方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像的处理方法,其特征在于,包括:通过色调饱和值彩色模型对所述文档图像进行图像分割,生成三通道空间图像;对所述文档图像的背景区域进行过滤,生成二值边缘图像;将所述三通道空间图像和所述二值边缘图像进行拼接融合,生成目标输入数据;根据图像翻转识别模型对所述目标输入数据进行翻转识别,确定所述文档图像的目标翻转类别;根据所述目标翻转类别,对所述文档图像进行反向翻转得到目标图像。2.根据权利要求1所述的处理方法,其特征在于,所述图像翻转识别模型包括特征提取网络和卷积神经网络,所述根据图像翻转识别模型对所述目标输入数据进行翻转识别,确定所述文档图像的目标翻转类别,包括:通过所述特征提取网络对所述目标输入数据进行特征提取,生成三维特征图像;根据所述卷积神经网络获取所述三维特征图像分属于多个图像翻转类别的置信度评分,以确定置信度评分最高的图像翻转类别为目标翻转类别。3.根据权利要求2所述的处理方法,其特征在于,所述通过所述特征提取网络对所述目标输入数据进行特征提取,生成三维特征图像,包括:根据所述特征提取网络识别所述目标输入数据的文字尺寸;根据所述文字尺寸确定所述特征提取网络的首层卷积核和次层卷积核;基于所述首层卷积核和所述次层卷积核对所述输入数据进行特征提取,生成所述三维特征图像。4.根据权利要求2所述的处理方法,其特征在于,所述根据所述卷积神经网络获取所述三维特征图像分属于多个图像翻转类别的置信度评分,以确定置信度评分最高的图像翻转类别为目标翻转类别,包括:根据所述卷积神经网络对所述三维特征图进行降维,生成一维特征向量;将所述一维特征向量与预设全连接网络进行链接,生成分属于多个图像翻转类别的多个置信度评分,其中,所述预设全连接网络根据所述多个图像翻转类别进行设定;将所述多个置信度评分进行比较,确定置信度评分最高的图像翻转类别为所述目标翻转类别。5.根据权利要求4所述的处理方法,其特征在于,所述将所述一维特征向量与预设全连接网络进行链接,生成分属于多个图像翻转类别的多个置信度评分,包括:根据所述预设全连接网络对所述一维特征向量进行分类,生成所述多个图像翻转类别;对所述多个图像翻转类别进行置信度计算,生成所述多个置信度评分。6.一种图像翻转识别模型的训练方法,其特征在于,应用于上述权利要求1

5中任一项所述图像翻转识别模型,所述方法包括:根据随机裁切算法对样本图像进行裁切,生成预设第一数量的裁切子图像;基于所述裁切子图像中是否包含文字信息,对所述裁切子图像进行筛选,获得有效图像,其中所述有效图像中包含文字信息;根据预设翻转规则将所述有效图像进行镜像翻转,生成翻转图像和预设翻转标签;通过所述图像翻转识别模型对所述翻转图像进行识别,确定目标翻转标签;
在所述目标翻转标签与所述预...

【专利技术属性】
技术研发人员:王彦君
申请(专利权)人:北京鼎事兴教育咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1