【技术实现步骤摘要】
语料合成方法、装置、电子设备和存储介质
本申请涉及计算机
,具体而言,涉及一种语料合成方法、装置、电子设备和存储介质。
技术介绍
近年来OCR技术(OpticalCharacterRecognition,光学字符识别)已在各种场景下广泛应用,文本识别是其中最重要的一项应用。文本识别通常基于真实图像样本或合成图像样本训练识别模型,由于模型训练所需样本数量大,而真实样本标注成本过高。现有的方式通过编写程序来定义合成的语料、字体、背景和数量等参数,然后合成图像样本;然而实际应用中、通过编写程序来定义合成参数存在以下问题:1.基础、字体、语料和效果多采用编写程序的方式实现,不同程序模块写定各项参数如合成的图像样本的大小、字体文件、背景文件、字典文件等通用的配置,导致程序代码臃肿;2.对于不同类型的语料如从海量语料文件中随机抽取字符、或从指定内容范围的特殊语料文件抽取词组,需要编写不同的程序模块来实现,代码结构重复、具体代码实现又不一样、不够灵活;3.对于符合一定规则的语料,如:日期、身份证号、金 ...
【技术保护点】
1.一种语料合成方法,其特征在于,包括:/n建立资源文件夹,所述资源文件夹中包含资源文件;/n建立配置文件夹,所述配置文件夹中包含配置文件;/n获取语料配置参数,于所述配置文件夹中获取与所述配置参数匹配的配置文件,并调用所述资源文件合成语料样本。/n
【技术特征摘要】
1.一种语料合成方法,其特征在于,包括:
建立资源文件夹,所述资源文件夹中包含资源文件;
建立配置文件夹,所述配置文件夹中包含配置文件;
获取语料配置参数,于所述配置文件夹中获取与所述配置参数匹配的配置文件,并调用所述资源文件合成语料样本。
2.根据权利要求1所述的方法,其特征在于,所述资源文件包括字体文件、背景文件、语料文件和/或字典文件;其中,
所述字体文件包括合成所述语料样本的字体文件;
所述背景文件包括合成所述语料样本的图像文件;
所述语料文件包括放置到所述图像文件中的文字内容;
所述字典文件包括合成所述语料样本的字符范围。
3.根据权利要求1所述的方法,其特征在于,所述配置文件包含基础配置文件、语料配置文件、字体配置文件和/或效果配置文件;其中,
所述基础配置文件包括图像类型、图像大小、所述资源文件的路径和/或存放目标路径;
所述语料配置文件包括普通语料、特殊语料和/或正则表达式语料;
所述字体配置文件包括中文字体和/或外文字体;
所述效果配置文件包括加粗、旋转和/或模糊。
4.根据权利要求3所述的方法,其特征在于,所述配置文件包括正则表达式语料;所述获取语料配置参数,于所述配置文件夹中获取与所述配置参数匹配的配置文件,并调用所述资源文件合成语料样本,包括:
定义所需的正则表达式;
将正则表达式转换为不同正则模式集合,其中,所述正则模式集合包含字符范围集合和次数范围;
遍历所述正则模式集合中的各个元素,依次根据规定的字符范围集合和次数范围随机选取整数,从相应的字符范围集合中有放回随机抽取整数个字符,加入字符集合;
将不同部分的字符集合拼接组成完整字符串;
根据所述语料配置参数调用所述字体配置文件和效果配置文件,与所述完整字符串合成语料样本。
5.一种语料合成装置,其特征在于,包括:
第一建立模块,用于建立资源文件夹,所述资源文件夹中包含资源文件;
第二建立模块...
【专利技术属性】
技术研发人员:唐林玉,田强,张舒怡,
申请(专利权)人:阳光保险集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。