一种图像处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30548063 阅读:15 留言:0更新日期:2021-10-30 13:27
本发明专利技术涉及一种图像处理方法、装置、电子设备及存储介质,该方法包括:获取文本行图像,将所述文本行图像进行分割,得到至少两个文字图像;分别生成每个文字图像对应的掩码图像;基于每个文字图像对应的掩码图像,确定至少两个文字图像之间的差异是否超过预设阈值;若至少两个文字图像之间的差异超过预设阈值,基于所述掩码图像中文字所在的区域,截取对应的文字图像中相应区域的中间图像;按照与所述差异对应的调整策略对至少两个所述中间图像进行调整,得到目标文本图像,以用于文字识别。本发明专利技术实施例可以使文本图像中文字的排列更加规整,进而,便于在将处理后的文本行图像输入OCR模型中时,提高OCR模型对文本行图像中文字进行识别的准确率。行识别的准确率。行识别的准确率。

【技术实现步骤摘要】
一种图像处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种图像处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,一些图像中会包含文字、表格等文本信息,这些文本信息潜在描述了图像中所要表达的内容,对于理解图像内容具有重大的作用。
[0003]相关技术中,OCR(Optical Character Recognition,光学字符识别)模型可以将这些图像中像素化的文本转化为计算机可以理解的字符集表征,通常做法为在图像中借助文本检测模型,定位每一个文本行在图像中出现的坐标位置,并在图像中截取文本行图像,该文本行图像即是包含文本行的文本框内的图像,将文本行图像输入OCR模型中,利用OCR模型对文本行图像进行识别,将识别到的文本内容转化为字符集特征。
[0004]但在实际应用中,OCR模型在文本行中某个或者若干个文字与其它文字差异过大时,会无法准确识别的情况,导致识别准确率低。

技术实现思路

[0005]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种图像处理方法、装置、电子设备及存储介质。
[0006]第一方面,本申请提供了一种图像处理方法,包括:
[0007]获取文本行图像,将所述文本行图像进行分割,得到至少两个文字图像;
[0008]分别生成每个文字图像对应的掩码图像;
[0009]基于每个文字图像对应的掩码图像,确定至少两个文字图像之间的差异是否超过预设阈值;
[0010]若至少两个文字图像之间的差异超过预设阈值,基于所述掩码图像中文字所在的区域,截取对应的文字图像中相应区域的中间图像,所述中间图像包括所述文字图像中文字对应的像素点所在的区域;
[0011]按照与所述差异对应的调整策略对至少两个所述中间图像进行调整,得到目标图像;
[0012]将至少两个目标图像进行拼接,得到目标文本图像,以用于文字识别。
[0013]可选地,获取文本行图像,包括:
[0014]基于所述文本行图像四边的斜率,确定所述文本行图像是否为第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行的矩形图像;
[0015]若所述文本行图像为第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行的矩形图像,则截取所述文本行检测框内的图像,得到文本行图像;
[0016]若所述文本行图像为第一组对边与图像坐标系中的X轴之间的夹角不为0且第二
组对边与所述图像坐标系中的Y轴之间的夹角不为0的矩形图像,则将所述文本行图像进行旋转,以使旋转后的文本行图像的第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行,截取所述文本行检测框内的图像,得到文本行图像;
[0017]若所述文本行图像为除矩形外的四边形图像,则确定所述四边形图像的最小外包矩形图像,旋转所述最小外包矩形图像,以使旋转后的最小外包矩形图像的第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行,截取所述文本行检测框内的图像,得到文本行图像。
[0018]可选地,将所述文本行图像进行分割,得到至少两个文字图像,包括:
[0019]对所述文本行图像进行色彩空间转化处理,得到转化图像;
[0020]提取所述转化图像的边缘特征,得到边缘强度图;
[0021]将所述边缘强度图进行二值化处理,得到第一二值化图像;
[0022]确定所述第一二值化图像中文本区域及背景区域,并将所述文本区域赋值为第一数值,将所述背景区域赋值为第二数值,得到直方图;
[0023]按照所述直方图中各像素位置的对应的数值,对所述直方图进行分割,得到至少两个文字图像。
[0024]可选地,分别生成每个文字图像对应的掩码图像,包括:
[0025]基于所述文本行图像,计算分割阈值;
[0026]针对每个文字图像,按照所述分割阈值,对所述文本行图像进行第二二值化处理,得到第二二值化图像;
[0027]水平扫描所述第二二值化图像的每行像素,对每行像素进行背景色转换,得到第一中间图像;
[0028]垂直扫描所述第一中间图像的每列像素,对每列像素进行背景色转换,得到第二中间图像;
[0029]计算所述文本行图像的背景色平均值;
[0030]基于所述背景色平均值确定所述第二中间图像中的文字区域和背景区域,得到文字图像对应的掩码图像。
[0031]可选地,基于每个文字图像对应的掩码图像,确定至少两个文字图像之间的差异是否超过预设阈值,包括:
[0032]基于每个所述文字图像对应的掩码图像,确定每个文字图像中文字的行高度信息和字体高度信息;
[0033]基于至少两个文字图像中文字的行高度信息确定行高度差异数据;
[0034]基于至少两个文字图像中文字的字体高度信息确定字体高度差异数据;
[0035]若任一所述行高度差异数据大于预设第一阈值,和/或,任一所述字体高度差异数据大于预设第二阈值,确定至少两个文字图像之间的差异超过预设阈值。
[0036]可选地,确定每个文字图像中文字的行高度信息和字体高度信息,包括:
[0037]确定所述文字图像中垂直方向首次出现像素值为第一预设掩码值的像素点的纵坐标,将所述纵坐标确定为所述文字图像中文字的行高度信息;
[0038]针对每个文字图像,确定所述文字图像中像素值为第一预设掩码值的像素最高位置与像素最低位置之间的高度差,将所述高度差确定为所述文字图像中文字的字体高度信
息。
[0039]可选地,基于所述掩码图像中文字所在的区域,截取对应的文字图像中相应区域的中间图像,包括:
[0040]在所述掩码图像中确定每个掩码值为预设第一掩码值的像素最高位置与像素最低位置之间的文字所在的掩码区域,在与所述掩码图像对应的文字图像中,截取与所述掩码区域对应的像素区域中的中间图像。
[0041]可选地,按照与所述差异对应的调整策略对至少两个所述中间图像进行调整,得到目标图像,包括:
[0042]若任一行高度差异数据大于预设第一阈值,将至少两个所述中间图像调整成一行,得到目标图像;
[0043]和/或,
[0044]若任一字体高度差异数据大于预设第二阈值,将每个目标图像调整为相同大小,得到目标图像。
[0045]第二方面,本申请提供了一种图像处理装置,包括:
[0046]获取模块,用于获取文本行图像,将所述文本行图像进行分割,得到至少两个文字图像;
[0047]生成模块,用于分别生成每个文字图像对应的掩码图像;
[0048]第一确定模块,用于基于每个文字图像对应的掩码图像,确定至少两个文字图像之间的差异是否超过预设阈值;
[0049]截取模块,用于若至少两个文字图像之间的差异超过预设阈值,基于所述掩码图像中文字所在的区域,截取对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,包括:获取文本行图像,将所述文本行图像进行分割,得到至少两个文字图像;分别生成每个所述文字图像对应的掩码图像;基于每个所述文字图像对应的所述掩码图像,确定至少两个所述文字图像之间的差异是否超过预设阈值;若至少两个所述文字图像之间的差异超过预设阈值,基于所述掩码图像中文字所在的区域,截取对应的文字图像中相应区域的中间图像,所述中间图像包括所述文字图像中文字对应的像素点所在的区域;按照与所述差异对应的调整策略对至少两个所述中间图像进行调整,得到目标图像;将至少两个所述目标图像进行拼接,得到目标文本图像,以用于文字识别。2.根据权利要求1所述的图像处理方法,其特征在于,获取文本行图像,包括:获取所述文本行检测框四个顶点的坐标;基于所述文本行检测框四个顶点的坐标,计算所述文本行图像四边的斜率;基于所述文本行图像四边的斜率,确定所述文本行图像是否为第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行的矩形图像;若所述文本行图像为第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行的矩形图像,则截取所述文本行检测框内的图像,得到所述文本行图像;若所述文本行图像为第一组对边与图像坐标系中的X轴之间的夹角不为0且第二组对边与所述图像坐标系中的Y轴之间的夹角不为0的矩形图像,则将所述文本行图像进行旋转,以使旋转后的文本行图像的第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行,截取所述文本行检测框内的图像,得到所述文本行图像;若所述文本行图像为除矩形外的四边形图像,则确定所述四边形图像的最小外包矩形图像,旋转所述最小外包矩形图像,以使旋转后的最小外包矩形图像的第一组对边与图像坐标系中的X轴平行且第二组对边与所述图像坐标系中的Y轴平行,截取所述文本行检测框内的图像,得到所述文本行图像。3.根据权利要求1所述的图像处理方法,其特征在于,将所述文本行图像进行分割,得到至少两个文字图像,包括:对所述文本行图像进行色彩空间转化处理,得到转化图像;提取所述转化图像的边缘特征,得到边缘强度图;将所述边缘强度图进行二值化处理,得到第一二值化图像;确定所述第一二值化图像中文本区域及背景区域,并将所述文本区域赋值为第一数值,将所述背景区域赋值为第二数值,得到直方图;按照所述直方图中各像素位置的对应的数值,对所述直方图进行分割,得到至少两个所述文字图像。4.根据权利要求1所述的图像处理方法,其特征在于,分别生成每个文字图像对应的掩码图像,包括:基于所述文本行图像,计算分割阈值;针对每个所述文字图像,按照所述分割阈值,对所述文本行图像进行第二二值化处理,
得到第二二值化图像;水平扫描所述第二二值化图像的每行像素,对每行像素进行背景色转换,得到第一中间图像;垂直扫描所述第一中间图像的每列像素,对每列像素进行背景色转换,得到第二中间图像;计算所述文本行图像的背景色平均值;基于所述背景色平均值确定所述第二中间图像中的文字区域和背景区域,得到所述文字图像对应的掩码图像。5.根据...

【专利技术属性】
技术研发人员:刘楠
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1