文档类型图片的识别方法、装置及存储介质制造方法及图纸

技术编号:26846217 阅读:20 留言:0更新日期:2020-12-25 13:09
本公开涉及一种文档类型图片的识别方法、装置及存储介质,以避免图片底层特征对文档类型图片的识别造成干扰,达到提升文档类型图片的识别准确率的目的。该方法包括:将目标图片输入文字定位检测模型,得到所述文字定位检测模型输出的所述目标图片中的文字框信息;根据所述文字框信息,计算所述目标图片中文字区域的大小;若所述文字区域在所述目标图片中的占比大于或等于预设阈值,则确定所述目标图片为文档类型图片。

【技术实现步骤摘要】
文档类型图片的识别方法、装置及存储介质
本公开涉及图像识别
,尤其涉及一种文档类型图片的识别方法、装置及存储介质。
技术介绍
图像识别是指利用计算机对图像/图片进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。图像识别技术是应用深度学习算法的一种实践应用。相关技术中,采用通用的监督学习图像分类方法对图像进行识别分类,具体地,先利用收集到的各种类型的图片作为训练样本,并为每一训练样本设置标签,然后利用带标签的训练样本训练得到二分类器,接着通过训练好的二分类器对待识别的图片进行识别并分类。由于采用这种方式训练得到的分类器会学习到图片底层特征,如纹理特征、颜色特征、形状特征等等,因此分类器会将学习到的图片底层特征作为图片分类的一个判断指标。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种文档类型图片的识别方法、装置及存储介质,以避免图片底层特征对文档类型图片的识别造成干扰,达到提升文档类型图片的识别准确率的目的。根据本公开实施例的第一方面,提供一种文档类型图片的识别方法,包括:将目标图片输入文字定位检测模型,得到所述文字定位检测模型输出的所述目标图片中的文字框信息;根据所述文字框信息,计算所述目标图片中文字区域的大小;若所述文字区域在所述目标图片中的占比大于或等于预设阈值,则确定所述目标图片为文档类型图片。可选地,所述目标图片包括多个文字框,其中,每个所述文字框信息包括四个顶点坐标;所述根据所述文字框信息,计算所述目标图片中文字区域的大小,包括:针对每一所述文字框,根据该文字框的四个顶点坐标计算该文字框的面积;计算所述目标图片中所有所述文字框的面积之和,得到所述文字区域的面积值,所述面积值用于表征所述文字区域的大小。可选地,所述文字区域在所述目标图片中的占比为所述文字区域的面积值与所述目标图片的面积值之比。可选地,所述目标图片包括多个文字框,每个所述文字框信息包括所述文字框的轮廓信息;所述根据所述文字框信息,计算所述目标图片中文字区域的大小,包括:针对每一所述文字框,将该文字框对应的轮廓内每一像素点的灰度值设置为目标灰度值;计算所述多个文字框内灰度值为所述目标灰度值的像素点总个数,得到所述文字区域的像素点个数,所述像素点个数用于表征所述文字区域的大小。可选地,所述文字区域在所述目标图片中的占比为所述文字区域的像素点个数与所述目标图片的像素点个数之比。可选地,所述目标图片包括待制作故事相册的目标图片,所述方法还包括:将所述文档类型图片过滤,并根据过滤后的非文档类型图片制作所述故事相册。根据本公开实施例的第二方面,提供一种文档类型图片的识别装置,包括:输入模块,被配置为将目标图片输入文字定位检测模型,得到所述文字定位检测模型输出的所述目标图片中的文字框信息;计算模块,被配置为根据所述文字框信息,计算所述目标图片中文字区域的大小;确定模块,被配置为若所述文字区域在所述目标图片中的占比大于或等于预设阈值,则确定所述目标图片为文档类型图片。可选地,所述目标图片包括多个文字框,其中,每个所述文字框信息包括四个顶点坐标;所述计算模块包括:第一计算子模块,被配置为针对每一所述文字框,根据该文字框的四个顶点坐标计算该文字框的面积;计算所述目标图片中所有所述文字框的面积之和,得到所述文字区域的面积值,所述面积值用于表征所述文字区域的大小。可选地,所述文字区域在所述目标图片中的占比为所述文字区域的面积值与所述目标图片的面积值之比。可选地,所述目标图片包括多个文字框,每个所述文字框信息包括所述文字框的轮廓信息;所述计算模块包括:第二计算子模块,被配置为针对每一所述文字框,将该文字框对应的轮廓内每一像素点的灰度值设置为目标灰度值;计算所述多个文字框内灰度值为所述目标灰度值的像素点总个数,得到所述文字区域的像素点个数,所述像素点个数用于表征所述文字区域的大小。可选地,所述文字区域在所述目标图片中的占比为所述文字区域的像素点个数与所述目标图片的像素点个数之比。可选地,所述目标图片包括待制作故事相册的目标图片,所述装置还包括:制作模块,被配置为将所述文档类型图片过滤,并根据过滤后的非文档类型图片制作所述故事相册。根据本公开实施例的第三方面,提供一种文档类型图片的识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的所述可执行指令执行如上述第一方面中任一项所述的方法。根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的文档类型图片的识别方法的步骤。本公开的实施例提供的技术方案可以包括以下有益效果:通过将目标图片输入文字定位检测模型,得到文字定位检测模型输出的该目标图片中的文字框信息。根据得到的文字框信息,可以计算出目标图片中文字区域的大小。当该文字区域在目标图片中的占比大于或等于预设阈值时,可以确定该目标图片为文档类型图片。这种方式与相关技术相比较,因不再利用大量的图片样本训练二分类器来识别图片为文档类型图片还是非文档类型图片,所以可以避免将二分类器学习到的图片底层特征作为图片分类的一个判断指标而导致分类不准确的问题。因此,采用这种方式可以更加准确的识别文档类型图片。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种文档类型图片的识别方法的流程图。图2是根据一示例性实施例示出的另一种文档类型图片的识别方法的流程图。图3是根据一示例性实施例示出的一张待识别图片。图4a是根据一示例性实施例示出的一种文字框信息示意图。图4b是根据一示例性实施例示出的一种填充文字框后的示意图。图5是根据一示例性实施例示出的一种确定文字区域大小的方法的流程图。图6是根据一示例性实施例示出的另一种确定文字区域大小的方法的流程图。图7是根据一示例性实施例示出的一种文档类型图片的识别装置的框图。图8是根据一示例性实施例示出的另一种用于文档类型图片的识别的装置的框图。图9是根据一示例性实施例示出的再一种用于文档类型图片的识别的装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。相关技术中,采用如图1所本文档来自技高网...

【技术保护点】
1.一种文档类型图片的识别方法,其特征在于,包括:/n将目标图片输入文字定位检测模型,得到所述文字定位检测模型输出的所述目标图片中的文字框信息;/n根据所述文字框信息,计算所述目标图片中文字区域的大小;/n若所述文字区域在所述目标图片中的占比大于或等于预设阈值,则确定所述目标图片为文档类型图片。/n

【技术特征摘要】
1.一种文档类型图片的识别方法,其特征在于,包括:
将目标图片输入文字定位检测模型,得到所述文字定位检测模型输出的所述目标图片中的文字框信息;
根据所述文字框信息,计算所述目标图片中文字区域的大小;
若所述文字区域在所述目标图片中的占比大于或等于预设阈值,则确定所述目标图片为文档类型图片。


2.根据权利要求1所述的方法,其特征在于,所述目标图片包括多个文字框,其中,每个所述文字框信息包括四个顶点坐标;
所述根据所述文字框信息,计算所述目标图片中文字区域的大小,包括:
针对每一所述文字框,根据该文字框的四个顶点坐标计算该文字框的面积;
计算所述目标图片中所有所述文字框的面积之和,得到所述文字区域的面积值,所述面积值用于表征所述文字区域的大小。


3.根据权利要求2所述的方法,其特征在于,所述文字区域在所述目标图片中的占比为所述文字区域的面积值与所述目标图片的面积值之比。


4.根据权利要求1所述的方法,其特征在于,所述目标图片包括多个文字框,每个所述文字框信息包括所述文字框的轮廓信息;
所述根据所述文字框信息,计算所述目标图片中文字区域的大小,包括:
针对每一所述文字框,将该文字框对应的轮廓内每一像素点的灰度值设置为目标灰度值;
计算所述多个文字框内灰度值为所述目标灰度值的像素点总个数,得到所述文字区域的像素点个数,所述像素点个数用于表征所述文字区域的大小。


5.根据权利要求4...

【专利技术属性】
技术研发人员:姚海
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1