汉字定位方法及装置、存储介质和电子设备制造方法及图纸

技术编号:21004485 阅读:25 留言:0更新日期:2019-04-30 21:37
本发明专利技术公开了一种汉字定位方法及装置、存储介质和电子设备,涉及计算机技术领域。该汉字定位方法包括:基于预设背景图片数据集和预设汉字表构建目标数量个训练样本;其中,各所述训练样本中标注有汉字位于背景图片的区域;获取深度学习模型的模型配置参数文件和均值文件;对所述训练样本进行迁移学习迭代并基于所述模型配置参数文件和均值文件得到网络权值;获取目标图片,并基于所述网络权值将所述目标图片在网络中进行前向传播,以获得目标预测值作为所述目标图片的汉字在所述目标图片中的预测区域。本公开可以通过深度学习的方式确定图片上汉字的位置,并且处理过程耗时较少。

Chinese Character Location Method and Device, Storage Media and Electronic Equipment

【技术实现步骤摘要】
汉字定位方法及装置、存储介质和电子设备
本公开涉及计算机
,具体而言,涉及一种汉字定位方法、汉字定位装置、存储介质和电子设备。
技术介绍
在工作和生活中,汉字是人们获知信息的主要途径,而在很多情况下,汉字往往出现在图片上,用于对图片进行注释或标识其他内容。如何快速地从图片中提取汉字已成为人们获知信息的关键,在此过程中需要确定汉字在图片中的位置。目前,一方面,图片上可能存在对汉字造成混淆的其他内容,如一些绘画线条、污点等;另一方面,汉字的颜色可能与图片背景的颜色相似;再一方面,汉字的字体和尺寸可能不相同,光照条件(汉字的明暗程度)也可能不同。因此,在图片上对汉字进行定位较为困难。随着计算机技术的发展,出现了一些可以对汉字进行定位的方案,例如,基于连通分量对字符进行识别的算法、采用多次投影(例如,水平投影和垂直投影)的方法对字符进行定位,等等。然而,这些方案的处理速度较慢,针对一张图片,处理时间可能在3秒,无法满足实时处理的需求。另外,针对采用连通域进行汉字定位的方法,当汉字笔画有重合时,会出现定位结果不准确的情况。鉴于此,需要一种汉字定位方法、汉字定位装置、存储介质和电子设备。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种汉字定位方法、汉字定位装置、存储介质和电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种汉字定位方法,包括:基于预设背景图片数据集和预设汉字表构建目标数量个训练样本;其中,各所述训练样本中标注有汉字位于背景图片的区域;获取深度学习模型的模型配置参数文件和均值文件;对所述训练样本进行迁移学习迭代并基于所述模型配置参数文件和均值文件得到网络权值;获取目标图片,并基于所述网络权值将所述目标图片在网络中进行前向传播,以获得目标预测值作为所述目标图片的汉字在所述目标图片中的预测区域。在本公开的一种示例性实施例中,所述汉字定位方法还包括:对所述预测区域进行非极大值抑制,以确定所述目标图片中汉字对应的区域。在本公开的一种示例性实施例中,所述汉字定位方法还包括:在所述目标图片中标识汉字对应的区域。在本公开的一种示例性实施例中,基于预设背景图片数据集和预设汉字表构建目标数量个训练样本:从预设背景图片数据集中获取目标数量个背景图片样本;从预设汉字表中获取目标数量个汉字样本组;分别将所述背景图片样本与所述汉字样本组进行叠加以构建目标数量个训练样本。在本公开的一种示例性实施例中,从预设背景图片数据集中获取目标数量个背景图片样本包括:获取所述预设背景图片数据集中各背景图片的路径;基于所述路径生成目标数量个随机数;根据所述随机数确定对应的背景图片作为背景图片样本;获取所述背景图片样本。在本公开的一种示例性实施例中,所述汉字样本组中包含字体随机并且/或者颜色随机的多个汉字。根据本公开的一个方面,提供一种汉字定位装置,包括:训练样本构建模块,用于基于预设背景图片数据集和预设汉字表构建目标数量个训练样本;其中,各所述训练样本中标注有汉字位于背景图片的区域;文件获取模块,用于获取深度学习模型的模型配置参数文件和均值文件;网络权值得到模块,用于对所述训练样本进行迁移学习迭代并基于所述模型配置参数文件和均值文件得到网络权值;预测区域获得模块,用于获取目标图片,并基于所述网络权值将所述目标图片在网络中进行前向传播,以获得目标预测值作为所述目标图片的汉字在所述目标图片中的预测区域。在本公开的一种示例性实施例中,所述汉字定位装置还包括:汉字区域确定模块,用于对所述预测区域进行非极大值抑制,以确定所述目标图片中汉字对应的区域。在本公开的一种示例性实施例中,所述汉字定位装置还包括:汉字区域标识模块,用于在所述目标图片中标识汉字对应的区域。在本公开的一种示例性实施例中,所述训练样本构建模块包括:背景图片样本获取子模块,用于从预设背景图片数据集中获取目标数量个背景图片样本;汉字样本组获取子模块,用于从预设汉字表中获取目标数量个汉字样本组;图片汉字叠加子模块,用于分别将所述背景图片样本与所述汉字样本组进行叠加以构建目标数量个训练样本。在本公开的一种示例性实施例中,所述背景图片样本获取子模块包括:图片路径获取单元,用于获取所述预设背景图片数据集中各背景图片的路径;随机数生成单元,用于基于所述路径生成目标数量个随机数;背景图片确定单元,用于根据所述随机数确定对应的背景图片作为背景图片样本;背景图片样本获取单元,用于获取所述背景图片样本。在本公开的一种示例性实施例中,所述汉字样本组中包含字体随机并且/或者颜色随机的多个汉字。根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的汉字定位方法。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的汉字定位方法。在本公开的一些实施例所提供的技术方案中,基于背景图片数据集和预设汉字表构建训练样本,对训练样本进行迁移学习得到网络权值,基于网络权值将目标图片在网络中进行向前传播,以获得目标预测值作为目标图片的汉字在目标图片中的预测位置,本方案可以通过深度学习的方式在图片上对汉字进行定位,在进行模型训练后,直接可以确定出汉字在图片的预测位置,整个过程花费的时间较少,可以满足实时处理的需求。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示意性示出了根据本公开的示例性实施方式的汉字定位方法的流程图;图2示意性示出了根据本公开的示例性实施方式的训练样本的效果图;图3示出了根据本公开的示例性实施方式的非极大值抑制前后的效果对比的示意图;图4示意性示出了确定图片中汉字对应的区域的一个实施例的效果图;图5示意性示出了根据本公开的示例性实施方式的汉字定位装置的方框图;图6示意性示出了根据本公开的示例性实施方式的汉字定位装置的另一方框图;图7示意性示出了根据本公开的示例性实施方式的汉字定位装置的又一方框图;图8示意性示出了根据本公开的示例性实施方式的训练样本构建模块的方框图;图9示意性示出了根据本公开的示例性实施方式的背景图片样本获取子模块的方框图;图10示出了根据本公开的示例性实施方式的存储介质的示意图;以及图11示意性示出了根据本公开的示例性实施方式的电子设备的方框图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一本文档来自技高网...

【技术保护点】
1.一种汉字定位方法,其特征在于,包括:基于预设背景图片数据集和预设汉字表构建目标数量个训练样本;其中,各所述训练样本中标注有汉字位于背景图片的区域;获取深度学习模型的模型配置参数文件和均值文件;对所述训练样本进行迁移学习迭代并基于所述模型配置参数文件和均值文件得到网络权值;获取目标图片,并基于所述网络权值将所述目标图片在网络中进行前向传播,以获得目标预测值作为所述目标图片的汉字在所述目标图片中的预测区域。

【技术特征摘要】
1.一种汉字定位方法,其特征在于,包括:基于预设背景图片数据集和预设汉字表构建目标数量个训练样本;其中,各所述训练样本中标注有汉字位于背景图片的区域;获取深度学习模型的模型配置参数文件和均值文件;对所述训练样本进行迁移学习迭代并基于所述模型配置参数文件和均值文件得到网络权值;获取目标图片,并基于所述网络权值将所述目标图片在网络中进行前向传播,以获得目标预测值作为所述目标图片的汉字在所述目标图片中的预测区域。2.根据权利要求1所述的汉字定位方法,其特征在于,所述汉字定位方法还包括:对所述预测区域进行非极大值抑制,以确定所述目标图片中汉字对应的区域。3.根据权利要求2所述的汉字定位方法,其特征在于,所述汉字定位方法还包括:在所述目标图片中标识汉字对应的区域。4.根据权利要求1所述的汉字定位方法,其特征在于,基于预设背景图片数据集和预设汉字表构建目标数量个训练样本:从预设背景图片数据集中获取目标数量个背景图片样本;从预设汉字表中获取目标数量个汉字样本组;分别将所述背景图片样本与所述汉字样本组进行叠加以构建目标数量个训练样本。5.根据权利要求4所述的汉字定位方法,其特征在于,从预设背景图片数据集中获取目标数量个背景图片样本包括:获取所述预设背景图片数据集中各背景图片的路径;基于所述路径生成目标数量个随机数;根据所述随机数确定对应的背景图片作为背景图片样本;获取所述背景图片样本。6.根据权利要求4或5所述的汉字定位方法,其特征在于,所述汉字样本组中包含字体随机并且/或者颜色随机的多个汉字。7.一种汉字定位装置,其特征在于,包括:训练样本构建模块,用于基于预设背景图片数据集和预设汉字表构建目标数量个训练样本;其中,各所述训练样本中标注有汉字位于背景图片的区域;文件获取模块,用于获取深度学习模型的模型配置参数文件和均值文件;网络权值得到模块,用于对所述训练样本进行迁移学...

【专利技术属性】
技术研发人员:安山陈宇车广富麻晓珍翁志
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1