字符大小识别方法、装置、电子设备制造方法及图纸

技术编号:38815983 阅读:19 留言:0更新日期:2023-09-15 19:55
本申请公开了一种字符大小识别方法、装置,属于文本图像处理技术领域。所述方法包括:对目标图像进行文本行检测,获取检测到的文本行的文本行位置信息,并根据所述文本行位置信息,获取所述文本行的原始文本行图像;对所述原始文本行图像进行相对尺度变换,得到第一变换文本行图像;再根据预先训练的字符大小识别模型匹配的输入图像高度和宽度,对所述第一变换文本行图像进行图像处理,得到第二变换文本行图像;以所述第二变换文本行图像作为所述字符大小识别模型的输入。本申请实施例公开的字符大小识别方法和装置,解决了现有技术中无法提供文档图像中字符大小信息的问题。提供文档图像中字符大小信息的问题。提供文档图像中字符大小信息的问题。

【技术实现步骤摘要】
字符大小识别方法、装置、电子设备


[0001]本申请涉及文本图像处理
,特别是涉及字符大小识别方法、装置、电子设备,以及计算机可读存储介质。

技术介绍

[0002]文档作为信息记录、传递和存储的重要载体,在日常生活中占有非常重要的地位。将纸质文档通过拍照、扫描等手段进行数字化处理,是文档存储和利用的重要技术手段。例如,通过对文档图像进行文本行检测,获取文档图像中的文本行信息,之后,进一步对每个文本行中的字符信息进行提取,用于后续文档版面分析、图像版面还原、文档内容处理等操作。
[0003]现有技术中,在对文档图像进行处理时,文本检测与文本识别方法在处理文本图像后只能提供文本坐标与内容信息,无法提供文档图像中字符大小信息。而文档图像中字符大小信息,可以为图像版面还原提供额外信息。
[0004]可见,现有技术中需要提供一种字符大小识别方法。

技术实现思路

[0005]本申请实施例提供一种字符大小识别方法及装置、电子设备,用于解决现有技术中无法提供文本图像中字符大小信息的问题。
[0006]第一方面,本申请实施例提供了一种字符大小识别方法,包括:
[0007]对目标图像进行文本行检测,获取检测到的文本行的文本行位置信息;
[0008]根据所述文本行位置信息,获取所述文本行的原始文本行图像;
[0009]对所述原始文本行图像进行相对尺度变换,得到第一变换文本行图像;
[0010]根据预先训练的字符大小识别模型匹配的输入图像高度和宽度,对所述第一变换文本行图像进行图像处理,得到第二变换文本行图像;
[0011]以所述第二变换文本行图像作为所述字符大小识别模型的输入,通过所述字符大小识别模型对所述第二变换文本行图像进行文字大小分类识别,得到相应所述文本行匹配的字符大小类别。
[0012]第二方面,本申请实施例提供了一种字符大小识别装置,包括:
[0013]文本行检测模块,用于对目标图像进行文本行检测,获取检测到的文本行的文本行位置信息;
[0014]原始文本行图像获取模块,用于根据所述文本行位置信息,获取所述文本行的原始文本行图像;
[0015]第一图像变换模块,用于对所述原始文本行图像进行相对尺度变换,得到第一变换文本行图像;
[0016]第二图像变换模块,用于根据预先训练的字符大小识别模型匹配的输入图像高度和宽度,对所述第一变换文本行图像进行图像处理,得到第二变换文本行图像;
[0017]文本行字符大小识别模块,用于以所述第二变换文本行图像作为所述字符大小识别模型的输入,通过所述字符大小识别模型对所述第二变换文本行图像进行文字大小分类识别,得到相应所述文本行匹配的字符大小类别。
[0018]第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的字符大小识别方法。
[0019]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的字符大小识别方法的步骤。
[0020]本申请实施例公开的字符大小识别方法,通过对目标图像进行文本行检测,获取检测到的文本行的文本行位置信息,并根据所述文本行位置信息,获取所述文本行的原始文本行图像;之后,对所述原始文本行图像进行相对尺度变换,得到第一变换文本行图像;再根据预先训练的字符大小识别模型匹配的输入图像高度和宽度,对所述第一变换文本行图像进行图像处理,得到第二变换文本行图像;最后,以所述第二变换文本行图像作为所述字符大小识别模型的输入,解决了现有技术中无法提供文档图像中字符大小信息的问题。
[0021]本申请实施例公开的字符大小识别方法,通过对文档图像中的文本行图像进行相对尺度变换,并结合神经网络模型对文本行图像中的字符大小进行识别,能够获取文本行图像中字符的相对大小信息,从而为文本识别结果的获取和运用提供额外的参考信息。
[0022]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0023]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]图1是本申请实施例的字符大小识别方法流程图;
[0025]图2是本申请实施例中的目标图像示意图;
[0026]图3是图2所示的目标图像的文本行检测结果示意图;
[0027]图4是基于图3的文本行检测结果得到的一个原始文本行图像示意图;
[0028]图5是基于图4中的原始文本行图像生成的第一变换文本行图像示意图;
[0029]图6是基于图5中的第一变换文本行图像生成的第二变换文本行图像示意图;
[0030]图7是藏文文本行示意图;
[0031]图8是藏文的基准字符示意图;
[0032]图9是本申请一个实施例中字符大小识别装置结构示意图;
[0033]图10示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
[0034]图11示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036]本申请实施例公开的一种字符大小识别方法,如图1所示,所述方法包括:步骤110至步骤150。
[0037]步骤110,对目标图像进行文本行检测,获取检测到的文本行的文本行位置信息。
[0038]本申请的实施例中,所述目标图像可以为中文文档、英文文档、藏文文档等多种语言的文档图像。例如,所述目标图像可以为图2所示的中文文档图像。
[0039]可选的,可以采用现有技术中文本检测网络检测目标图像中的文本行,获取检测到的文本行的文本行位置信息。
[0040]当目标图像中包括多个文本行时,通过执行本步骤,可以检测到多个文本行,并获取每个文本行各自对应的文本行位置信息。
[0041]可选的,所述文本检测网络为基于语义分割的神经网络。语义分割是对图像中的每一个像素进行分类。例如,可以通过预先标注文本图像的文本行像素和背景像素,得到标注像素类别的训练样本,并基于训练样本训练文本检测网络。这样,训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符大小识别方法,其特征在于,包括:对目标图像进行文本行检测,获取检测到的文本行的文本行位置信息;根据所述文本行位置信息,获取所述文本行的原始文本行图像;对所述原始文本行图像进行相对尺度变换,得到第一变换文本行图像;根据预先训练的字符大小识别模型匹配的输入图像高度和宽度,对所述第一变换文本行图像进行图像处理,得到第二变换文本行图像;以所述第二变换文本行图像作为所述字符大小识别模型的输入,通过所述字符大小识别模型对所述第二变换文本行图像进行文字大小分类识别,得到相应所述文本行匹配的字符大小类别。2.根据权利要求1所述的方法,其特征在于,所述对所述原始文本行图像进行相对尺度变换,得到第一变换文本行图像,包括:获取所述原始文本行图像的第一像素高度;获取用于训练所述字符大小识别模型的文本行样本图像中字符的第二像素高度;根据所述第一像素高度和所述第二像素高度,确定图像缩放比例;根据所述图像缩放比例对所述原始文本行图像进行尺度变换,得到所述原始文本行图像对应的第一变换文本行图像。3.根据权利要求2所述的方法,其特征在于,所述获取所述原始文本行图像的第一像素高度,包括:分别获取各所述原始文本行图像的像素高度;将最大的所述像素高度,作为每个所述原始文本行图像的第一像素高度。4.根据权利要求2所述的方法,其特征在于,所述获取用于训练所述字符大小识别模型的文本行样本图像中字符的第二像素高度,包括:针对用于训练所述字符大小识别模型的不同字体的每个文本行样本图像,分别获取每个字体对应的所述文本行样本图像中包括的字符的最大像素高度;将最小的所述最大像素高度,作为第二像素高度。5.根据权利要求1所述的方法,其特征在于,所述根据预先训练的字符大小识别模型匹配的输入图像高度和宽度,对所述第一变换文本行图像进行图像处理,得到第二变换文本行图像,包括:对所述第一变换文本行图像进行高度填补和宽度截长补短处理,得到第二变换文本行图像,使得所述第二变换文本行图像的高度和宽度分别等于预先训练的字符大小识别模型匹配的输入图像高度和宽度。6.根据权利要求1至5任一项所述的方法,其特征在于,所述字符大小识别模型通过以下方法训练:获取目标语言字符的匹配预设字体及各所述字符大小类别的文本行图像;以所述文...

【专利技术属性】
技术研发人员:韦秋华周航刘正珍
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1