一种汉字数据集构造方法、系统及介质技术方案

技术编号:28422271 阅读:19 留言:0更新日期:2021-05-11 18:30
本发明专利技术公开了一种汉字数据集构造方法,包括:设定数据标准和循环项;根据所述数据标准获取第一数据和第二数据;对所述第一数据执行第一动作,得到第一数据模板;根据所述第二数据对所述第一数据模板执行模糊化动作,得到第二数据模板;根据所述循环项对所述第二数据模板执行循环处理,得到第三数据模板;本发明专利技术能够对汉字数据集的各方面进行重新构造,并完善了汉字数据集中汉字的各种字体及适应环境,提高了汉字数据集的真实度和适用范围,进而保证了深度学习算法的学习能力,提高了印刷体汉字识别技术的适用性。

【技术实现步骤摘要】
一种汉字数据集构造方法、系统及介质
本专利技术涉及图文识别
,特别是涉及一种汉字数据集构造方法、系统及介质。
技术介绍
印刷体汉字识别技术主要通过预先构造的汉字数据集作为基础,通过深度学习算法在此汉字数据集中进行训练,进一步实现印刷体汉字识别;现有的构造汉字数据集的方式构造出的汉字数据集的真实度较低、适用范围较小以及针对性较强,进而折损深度算法的学习能力以及降低印刷体汉字识别技术的适用性。
技术实现思路
本专利技术主要解决的是汉字数据集的真实度较低、适用范围较小以及针对性较强,进而折损深度算法的学习能力以及降低印刷体汉字识别技术的适用性的问题。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种汉字数据集构造方法,包括以下步骤:设定数据标准和循环项;根据所述数据标准获取第一数据和第二数据;对所述第一数据执行第一动作,得到第一数据模板;根据所述第二数据对所述第一数据模板执行模糊化动作,得到第二数据模板;根据所述循环项对所述第二数据模板执行循环处理,得到第三数据模板。进一步,所述数据标准包括汉字标准和底纹标准;所述根据所述数据标准获取第一数据和第二数据的步骤进一步包括:根据所述汉字标准获取所述第一数据;根据所述底纹标准获取所述第二数据。进一步,所述第一动作包括:汇总所述第一数据,得到第一准备数据;对所述第一准备数据执行实体化转换动作,得到第一准备模板;设定扫描标准,根据所述扫描标准对所述第一准备模板执行扫描动作和分割动作,生成所述第一数据模板。进一步,所述模糊化动作包括:设定与所述第一数据对应的修改项和修改项阈值;设定像素抖动算法,根据所述像素抖动算法对所述第一数据模板中的第一数据进行处理,得到第二准备模板;配置形态变换函数,根据所述形态变换函数、所述修改项和所述修改项阈值对所述第二准备模板中的第一数据的所述修改项进行处理,得到第三准备模板;设定变换矩阵,根据所述变换矩阵、所述修改项和修改项阈值对所述第三准备模板中的第一数据的所述修改项进行处理,得到第四准备模板;选取任一所述第二数据与所述第四准备模板贴合,得到第五准备模板;获取第三数据,根据所述第三数据对所述第五准备模板执行噪声处理,得到所述第二数据模板。进一步,所述修改项包括尺寸和格式;所述修改项阈值包括尺寸阈值和格式阈值;所述模糊化动作进一步包括:设定所述第一数据模板中的所述第一数据的第一灰度值;根据所述像素抖动算法生成扰动向量;将所述扰动向量与所述第一灰度值相加,得到第二灰度值;将所述第二灰度值替代所述第一灰度值,得到所述第二准备模板;调用所述形态变换函数修改所述第二准备模板中的所述第一数据的所述格式,直至所述格式达到所述格式阈值,得到所述第三准备模板;将所述第二准备模板中的所述第一数据的所述尺寸代入所述变换矩阵,直至所述尺寸达到所述尺寸阈值,得到所述第四准备模板。进一步,所述循环项包括:循环时间段、循环次数和循环次数阈值;所述循环处理包括:每隔所述循环时间段对所述第二数据模板执行所述模糊化动作,同时修改所述循环次数;当所述循环次数达到所述循环次数阈值时,定义被执行所述循环处理的所述第二数据模板为所述第三数据模板。进一步,所述实体化转换动作包括:设定排列格式;配置数据容器;将所述第一准备数据传输至所述数据容器,并按照所述排列格式排列所述第一准备数据;排列所述第一准备数据后,定义所述数据容器为所述第一准备模板。进一步,所述扫描动作包括:根据所述扫描标准捕捉所述第一准备模板,得到与所述第一准备模板匹配的第一扫描模板;所述分割动作包括:设定分割规格;将所述第一扫描模板中的所述第一准备数据按照所述分割规格进行分割,得到与所述第一扫描模板对应的所述第一数据模板。本专利技术还提供一种汉字数据集构造系统,包括:初始化模块、数据获取模块、主处理模块和次处理模块;所述初始化模块用于设定数据标准和循环项;所述数据获取模块用于根据所述数据标准获取第一数据和第二数据;所述主处理模块用于对所述第一数据执行第一动作,得到第一数据模板;所述主处理模块通过所述第二数据对所述第一数据模板执行模糊化动作,得到第二数据模板;所述次处理模块用于根据所述循环项对所述第二数据模板执行循环处理,得到第三数据模板。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述汉字数据集构造方法的步骤。本专利技术的有益效果是:1、本专利技术所述的汉字数据集构造方法,可以实现对汉字数据集的各方面进行重新构造,并完善了汉字数据集中汉字的各种字体及适应环境,提高了汉字数据集的真实度和适用范围,进而保证了深度学习算法的学习能力,提高了印刷体汉字识别技术的适用性。2、本专利技术所述的汉字数据集构造系统,可以通过初始化模块、数据获取模块、主处理模块和次处理模块的相互配合,进而实现对汉字数据集的各方面进行重新构造,并完善了汉字数据集中汉字的各种字体及适应环境,提高了汉字数据集的真实度和适用范围,进而保证了深度学习算法的学习能力,提高了印刷体汉字识别技术的适用性。3、本专利技术所述的计算机可读存储介质,可以实现引导初始化模块、数据获取模块、主处理模块和次处理模块进行配合,进而实现对汉字数据集的各方面进行重新构造,并完善了汉字数据集中汉字的各种字体及适应环境,提高了汉字数据集的真实度和适用范围,进而保证了深度学习算法的学习能力,提高了印刷体汉字识别技术的适用性,且有效的增加了所述汉字数据集构造方法的可操作性。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例1所述的汉字数据集构造方法的流程图;图2是本专利技术实施例2所述的汉字数据集构造系统的架构图。具体实施方式下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。在本专利技术的描述中,需要说明的是,本专利技术所描述的实施例是本专利技术一部分实施例,而不是全部的实施例;基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”“第四”“主”“次”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“实体化转换动作”“扫描动作”“噪声处理”“分割动作”“第一动作”“变换矩阵”本文档来自技高网...

【技术保护点】
1.一种汉字数据集构造方法,其特征在于,包括以下步骤:/n设定数据标准和循环项;/n根据所述数据标准获取第一数据和第二数据;/n对所述第一数据执行第一动作,得到第一数据模板;根据所述第二数据对所述第一数据模板执行模糊化动作,得到第二数据模板;/n根据所述循环项对所述第二数据模板执行循环处理,得到第三数据模板。/n

【技术特征摘要】
1.一种汉字数据集构造方法,其特征在于,包括以下步骤:
设定数据标准和循环项;
根据所述数据标准获取第一数据和第二数据;
对所述第一数据执行第一动作,得到第一数据模板;根据所述第二数据对所述第一数据模板执行模糊化动作,得到第二数据模板;
根据所述循环项对所述第二数据模板执行循环处理,得到第三数据模板。


2.根据权利要求1中所述的汉字数据集构造方法,其特征在于:所述数据标准包括汉字标准和底纹标准;
所述根据所述数据标准获取第一数据和第二数据的步骤进一步包括:根据所述汉字标准获取所述第一数据;根据所述底纹标准获取所述第二数据。


3.根据权利要求1中所述的汉字数据集构造方法,其特征在于:所述第一动作包括:
汇总所述第一数据,得到第一准备数据;对所述第一准备数据执行实体化转换动作,得到第一准备模板;设定扫描标准,根据所述扫描标准对所述第一准备模板执行扫描动作和分割动作,生成所述第一数据模板。


4.根据权利要求1中所述的汉字数据集构造方法,其特征在于:所述模糊化动作包括:
设定与所述第一数据对应的修改项和修改项阈值;
设定像素抖动算法,根据所述像素抖动算法对所述第一数据模板中的第一数据进行处理,得到第二准备模板;
配置形态变换函数,根据所述形态变换函数、所述修改项和所述修改项阈值对所述第二准备模板中的第一数据的所述修改项进行处理,得到第三准备模板;
设定变换矩阵,根据所述变换矩阵、所述修改项和修改项阈值对所述第三准备模板中的第一数据的所述修改项进行处理,得到第四准备模板;
选取任一所述第二数据与所述第四准备模板贴合,得到第五准备模板;
获取第三数据,根据所述第三数据对所述第五准备模板执行噪声处理,得到所述第二数据模板。


5.根据权利要求4中所述的汉字数据集构造方法,其特征在于:所述修改项包括尺寸和格式;所述修改项阈值包括尺寸阈值和格式阈值;所述模糊化动作进一步包括:
设定所述第一数据模板中的所述第一数据的第一灰度值;根据所述像素抖动算法生成扰动向量;将所述扰动向量与所述第一灰度值相加,得到第二灰度值;将所述第二灰度值替代所述第一灰...

【专利技术属性】
技术研发人员:胡焱赵亚欧索春宝牛鹏
申请(专利权)人:浪潮金融信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1