多字体样本合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:26971264 阅读:20 留言:0更新日期:2021-01-06 00:02
本申请提供一种多字体样本合成方法、装置、电子设备和存储介质,用以提升语料质量、有效模拟真实样本,节省样本合成时间和模型训练时间。多字体样本合成方法,包括:获取原始语料图像,提取原始语料图像中的语料样本;根据预设字符集,为语料样本配置字体;根据语料样本和字体,设置画布;在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。

【技术实现步骤摘要】
多字体样本合成方法、装置、电子设备和存储介质
本申请涉及计算机
,具体而言,涉及一种多字体样本合成方法、装置、电子设备和存储介质。
技术介绍
随着图像处理技术的不断发展,用于文本识别的训练样本合成方法,可以替代真实样本、广泛应用于文本识别模型训练。目前业内多采用一张图片上一段文字使用同一字体、并随机旋转的方法,合成图像训练样本。目前常见的一张图片上一段文字仅使用一种字体的样本合成技术中,存在以下缺点:一、一张图片上不同字符可能使用不同字体、且整体需要按一定角度旋转。当前技术在生成多字体字符时,无法使各字符排成一行且保持统一角度旋转,因此无法有效模拟真实样本。二、无法对字符灵活指定字体,导致样本多样性和灵活性受限。如某点阵字体仅支持中文字符,如想通过新闻语料生成样本,则特殊符号无法正常显示,行业内的常用做法是使用支持大部分字符的字体(如宋体),或将不支持的字符删除,这种做法会降低合成样本的多样性;另外,行驶证中的地址中,中文和数字使用不同字体,现有技术无法很好地模拟真实样本。三、不同字体的样本需分开合成,合成时间成本高;同时导致样本数量多,训练时间长。
技术实现思路
本申请实施例的目的在于提供一种多字体样本合成方法、装置、电子设备和存储介质,用以提升语料质量、有效模拟真实样本,节省样本合成时间和模型训练时间。第一方面,本专利技术实施例提供一种多字体样本合成方法,包括:获取原始语料图像,提取原始语料图像中的语料样本;根据预设字符集,为语料样本配置字体;根据语料样本和字体,设置画布;在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。在可选的实施方式中,根据预设字符集,为语料样本配置字体,包括:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。在可选的实施方式中,根据语料样本和字体,设置画布,包括:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。在可选的实施方式中,在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片,包括:获取语料样本的旋转角度数据;根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点;计算字符串的匹配点数据;根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。第二方面,本专利技术实施例提供一种多字体样本合成装置,包括:第一获取模块,用于获取原始语料图像,提取原始语料图像中的语料样本;第一配置模块,用于根据预设字符集,为语料样本配置字体;第一设置模块,用于根据语料样本和字体,设置画布;第一合成模块,用于在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。在可选的实施方式中,第一配置模块还用于:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。在可选的实施方式中,第一设置模块还用于:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。在可选的实施方式中,第一合成模块还用于:获取语料样本的旋转角度数据;根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点;计算字符串的匹配点数据;根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。第三方面,本专利技术实施例提供一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行如前述实施方式中任一项的方法。第四方面,本专利技术实施例提供一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得电子设备执行前述实施方式中任一项的方法。本申请实施例提供的一种多字体样本合成方法、装置、电子设备和存储介质,其语料合成过程中,使用不同字体生成文字,并拼接为一行。具有以下特性:1.使用不同字体合成不同字符,然后拼接成一行,并保持统一旋转角度、合成在一张图片上,从而与单字体文字排成一行的情况保持一致,贴近真实样本,从而提升模型准确性;2.字体可定义对应的专有字符集,使得在一张图片中,不同字符可以使用不同字体并能完整显示,也可以对特定的字符指定字体,从而提升样本多样性和灵活性;3.不同字体可以在一个样本中合成,节省样本合成时间,同时减少样本数量,进而减少模型训练时间。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种电子设备的结构示意图;图2为本申请实施例提供的一种多字体样本合成方法的流程图;图3为本申请实施例提供的一种样本图示;图4为本申请实施例提供的另一种样本图示;图5为本申请实施例提供的一种多字体样本合成装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行。于一实施例中,电子设备1可以是手机、笔记本电脑等设备,电子设备1可以具有图像拾取组件,如摄像头。于一实施例中,由于语料存在随机旋转角度,使用不同字体生成文字存在拼接难点。可以通过预先定义各字体支持的字符集,实现一行文字中使用多种字体。之后通过计算前后字符的相对位置,依次将文字绘制在画布上,使一行语料保持统一旋转角度。如图2所示,其为本申请实施例提供的一种多字体样本合成方法的流程图,该方法可由图1所示的电子设备1来执行,以实现通过预先定义各字体支持的字符集,实现一行文字中使用多种字体。之后通过计算前后字符的相对位置,依次将文字绘制在画布上,使一行语料保持统一旋转角度。该方法包括如下步骤:步骤201:获取原始语料图像,提取原始语料图像中的语料样本。在本步骤中,原始语料图像上可以是图像拾取组件获取的带有手写或打印文字的图片。步骤202:根据预设字符集,为语料样本配置字体。在本步骤中,在合成样本前,确定各字体支持的字符,定义相应的预定义字符集。根据预设字体集合,确定字体支持的字符,在配置文件中设置单个语料使用的字体组合,如楷体和Arial字体组合。根据字体支持的字符,生成预设字符集。提取语料样本中的字符串,判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。于一实施例中,对字体集合F中的各字体fj∈F,j=1,2,3…,存在相应的预定本文档来自技高网...

【技术保护点】
1.一种多字体样本合成方法,其特征在于,包括:/n获取原始语料图像,提取所述原始语料图像中的语料样本;/n根据预设字符集,为所述语料样本配置字体;/n根据所述语料样本和所述字体,设置画布;/n在所述画布上将所述语料样本中的文字按照预设角度进行拼接,合成语料字体图片。/n

【技术特征摘要】
1.一种多字体样本合成方法,其特征在于,包括:
获取原始语料图像,提取所述原始语料图像中的语料样本;
根据预设字符集,为所述语料样本配置字体;
根据所述语料样本和所述字体,设置画布;
在所述画布上将所述语料样本中的文字按照预设角度进行拼接,合成语料字体图片。


2.根据权利要求1所述的方法,其特征在于,所述根据预设字符集,为所述语料样本配置字体,包括:
根据预设字体集合,确定字体支持的字符;
根据所述字体支持的所述字符,生成预设字符集;
提取所述语料样本中的字符串;
判断所述字符串中的字符是否存在于所述预设字符集,若是则生成字符与字体的配置关系。


3.根据权利要求2所述的方法,其特征在于,所述根据所述语料样本和所述字体,设置画布,包括:
根据所述语料样本中的字符串,计算所述字符串使用目标字体时的维度数据;
根据所述维度数据和预设放大规则,生成画布数据。


4.根据权利要求3所述的方法,其特征在于,所述在所述画布上将所述语料样本中的文字按照预设角度进行拼接,合成语料字体图片,包括:
获取所述语料样本的旋转角度数据;
根据所述旋转角度数据和预设角度定点条件,确定所述语料样本的旋转起始点;
计算所述字符串的匹配点数据;
根据所述匹配点数据将所述字符串与所述旋转起始点匹配,将所述字符串写入画布。


5.一种多字体样本合成装置,其特征在于,包括:
第一获取模块,用于获取原始语料图像,提取所述原始语料图像中的语料样本;

【专利技术属性】
技术研发人员:张舒怡田强唐林玉
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1