多字体样本合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：26971264 阅读：20 留言：0更新日期：2021-01-06 00:02

本申请提供一种多字体样本合成方法、装置、电子设备和存储介质，用以提升语料质量、有效模拟真实样本，节省样本合成时间和模型训练时间。多字体样本合成方法，包括：获取原始语料图像，提取原始语料图像中的语料样本；根据预设字符集，为语料样本配置字体；根据语料样本和字体，设置画布；在画布上将语料样本中的文字按照预设角度进行拼接，合成语料字体图片。

全部详细技术资料下载

【技术实现步骤摘要】
多字体样本合成方法、装置、电子设备和存储介质
本申请涉及计算机
，具体而言，涉及一种多字体样本合成方法、装置、电子设备和存储介质。
技术介绍
随着图像处理技术的不断发展，用于文本识别的训练样本合成方法，可以替代真实样本、广泛应用于文本识别模型训练。目前业内多采用一张图片上一段文字使用同一字体、并随机旋转的方法，合成图像训练样本。目前常见的一张图片上一段文字仅使用一种字体的样本合成技术中，存在以下缺点：一、一张图片上不同字符可能使用不同字体、且整体需要按一定角度旋转。当前技术在生成多字体字符时，无法使各字符排成一行且保持统一角度旋转，因此无法有效模拟真实样本。二、无法对字符灵活指定字体，导致样本多样性和灵活性受限。如某点阵字体仅支持中文字符，如想通过新闻语料生成样本，则特殊符号无法正常显示，行业内的常用做法是使用支持大部分字符的字体(如宋体)，或将不支持的字符删除，这种做法会降低合成样本的多样性；另外，行驶证中的地址中，中文和数字使用不同字体，现有技术无法很好地模拟真实样本。三、不同字体的样本需分开合成，合成时间成本高；同时导致样本数量多，训练时间长。
技术实现思路
本申请实施例的目的在于提供一种多字体样本合成方法、装置、电子设备和存储介质，用以提升语料质量、有效模拟真实样本，节省样本合成时间和模型训练时间。第一方面，本专利技术实施例提供一种多字体样本合成方法，包括：获取原始语料图像，提取原始语料图像中的语料样本；根据预设字符集，为语料样本配置字体；根据语料样本...

【技术保护点】
1.一种多字体样本合成方法，其特征在于，包括：/n获取原始语料图像，提取所述原始语料图像中的语料样本；/n根据预设字符集，为所述语料样本配置字体；/n根据所述语料样本和所述字体，设置画布；/n在所述画布上将所述语料样本中的文字按照预设角度进行拼接，合成语料字体图片。/n

【技术特征摘要】
1.一种多字体样本合成方法，其特征在于，包括：
获取原始语料图像，提取所述原始语料图像中的语料样本；
根据预设字符集，为所述语料样本配置字体；
根据所述语料样本和所述字体，设置画布；
在所述画布上将所述语料样本中的文字按照预设角度进行拼接，合成语料字体图片。

2.根据权利要求1所述的方法，其特征在于，所述根据预设字符集，为所述语料样本配置字体，包括：
根据预设字体集合，确定字体支持的字符；
根据所述字体支持的所述字符，生成预设字符集；
提取所述语料样本中的字符串；
判断所述字符串中的字符是否存在于所述预设字符集，若是则生成字符与字体的配置关系。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语料样本和所述字体，设置画布，包括：
根据所述语料样本中的字符串，计算所述字符串使用目标字体时的维度数据；
根据所述维度数据和预设放大规则，生成画布数据。

4.根据权利要求3所述的方法，其特征在于，所述在所述画布上将所述语料样本中的文字按照预设角度进行拼接，合成语料字体图片，包括：
获取所述语料样本的旋转角度数据；
根据所述旋转角度数据和预设角度定点条件，确定所述语料样本的旋转起始点；
计算所述字符串的匹配点数据；
根据所述匹配点数据将所述字符串与所述旋转起始点匹配，将所述字符串写入画布。

5.一种多字体样本合成装置，其特征在于，包括：
第一获取模块，用于获取原始语料图像，提取所述原始语料图像中的语料样本；

【专利技术属性】
技术研发人员：张舒怡，田强，唐林玉，
申请(专利权)人：阳光保险集团股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人