字体分类预测方法及系统技术方案

技术编号:27879885 阅读:26 留言:0更新日期:2021-03-31 01:12
本发明专利技术公开了一种字体分类预测方法及系统,所述方法包括以下步骤:S1,数据集准备,即收集并转化多种字体的样本,通过字符分割网络得到单个字符图片,确定每个字符的最小外接矩形,作为单个标准的样本;S2,数据采样,先选定N类样本中的1类作为基准样本集,通过模板匹配计算剩余N‑1类样本集和基准样本集的相似度,选择前M个样本作为一个批大小,循环采样训练;S3,确定网络结构、网络参数和损失函数,样本输入网络进行训练;S4,网络模型验证及测试,得到预测分类结果。根据本发明专利技术的方法,具有应用前景广泛、网络泛化能力更强的优势。

【技术实现步骤摘要】
字体分类预测方法及系统
本专利技术涉及字体分类
,尤其是涉及一种字体分类预测方法及系统。
技术介绍
目前,由于中文字体的分类标准没有体系,且应用场景不多,现阶段的字体分类技术主要用深度学习算法解决古字体分类问题,但在现有技术中,存在对应字体的样本不够广泛、难以获取且无实际应用背景的问题,因此,上述技术存在改进空间。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出一种字体分类预测方法,所述字体分类预测方法,具有应用前景广泛、网络泛化能力更强的优势。本专利技术还提出了一种具有上述字体分类预测方法的系统。根据本专利技术实施例的字体分类预测方法,包括以下步骤:S1,数据集准备,即收集并转化多种字体的样本,通过字符分割网络得到单个字符图片,确定每个字符的最小外接矩形,作为单个标准的样本;S2,对N类样本进行数据采样,即选定N类样本中的1类作为基准样本,通过模板匹配计算剩余N-1类样本集和基准样本集的相似度,选择前M个样本作为一个批大小,循环采样训练;S3,确定网络结构、网络参数和损失函数,输入样本进行网络训练;S4,网络验证及测试,得到预测分类结果。根据本专利技术的字体分类预测方法,具有应用前景广泛、网络泛化能力更强的优势。根据本专利技术一个实施例的字体分类预测方法,在步骤S1中,多种字体包括:宋体、仿宋、楷体和黑体。根据本专利技术一个实施例的字体分类预测方法,在步骤S2中,对N类样本进行数据采样的方式为在线采样方式。根据本专利技术一个实施例的字体分类预测方法,在步骤S3中,网络结构采用卷积神经网络,卷积神经网络由卷积层、池化层以及全连接层组成。根据本专利技术一个实施例的字体分类预测方法,采用深度学习算法对卷积神经网络进行训练。根据本专利技术一个实施例的字体分类预测方法,在步骤S3中,损失函数为L2-softmax损失函数,损失函数的公式如下:其中f(xi)为网络输出的特征向量,满足以下约束:其中参数α有两种设置方式,一是在训练过程中设置α为固定值,二是通过训练获得。根据本专利技术的第二方面的字体分类预测系统,设采用了如第一方面任一种所述的字体分类预测方法,所述字体分类预测系统包括:数据收集模块,所述数据收集模块用于收集并转化多种字体的样本,通过字符分割网络得到单个字符样本;数据采样模块,所述数据采样模块可对N类样本进行数据采样,选定N类样本中的1类作为基准样本,通过模板匹配计算N-1类样本和基准样本的相似度,选择前M个样本作为一个批大小,循环采样训练;网络结构模块,所述网络结构模块可实现网络参数和损失函数的约束,样本参数可输入至所述网络结构模块中;网络验证及测试模块,所述网络验证及测试模块可对样本参数进行网络验证及测试,得到预测结果。根据本专利技术的第二方面的字体分类预测系统,所述系统与上述的字体分类预测方法相对于现有技术所具有的优势相同,在此不再赘述。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术实施例的字体分类预测方法的流程图;图2是根据本专利技术实施例的字体分类预测系统的结构示意图。附图标记:100-字体分类预测系统,1-数据收集模块,2-数据采样模块,3-网络结构模块,4-网络验证及测试模块。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。下面参考图1和图2描述根据本专利技术实施例的字体分类预测方法。如图1所示,根据本专利技术实施例的字体分类预测方法,可以包括以下步骤:S1,数据集准备,即收集并转化多种字体的样本,通过字符分割网络得到单个字符图片,确定字体的最小外接对应区域;S2,对N类样本进行数据采样,即选定N类样本中的1类作为基准样本,通过模板匹配计算N-1类样本和基准样本的相似度,并进行样本匹配,得到样本参数;例如,在一个具体的实施例中,设定一个批次的数量为200,则每一类样本为50个,即共四类样本。进一步地,将随机选择其中的一类作为基准样本,通过模板匹配计算基准样本与其他三类样本之间的相似度。进一步地,选择前M个样本作为一个批大小,送入网络训练,和传统的随机采样相比,步骤S2中的采样方式能够提高字体风格差异较小的字的分类准确率。S3,确定网络结构、网络参数和损失函数,输入样本参数;S4,对样本参数进行网络验证及测试,得到预测结果。根据本专利技术的字体分类预测方法,应用前景广泛;通过模板匹配算法进行辅助采样,有利于提升网络的泛化能力。根据本专利技术一个实施例的字体分类预测方法,在步骤S1中,多种字体可以包括:宋体、仿宋、楷体和黑体。进一步地,在数据集准备的过程中,首先需要保证每一类样本数大体比例相同;其次,将文档的截图或各种打印文档拍摄形成的照片;再次,通过字符分割网络得到单个字符图片;最终,得到字体的最小外接对应的区域。需要说明的是,字体的种类不限于上述四种。根据本专利技术一个实施例的字体分类预测方法,在步骤S2中,对N类样本进行数据采样的方式包括:在线采样方式,需要说明的是,对N类样本进行数据采样也可以采用边训练边采样的方式。进一步地,在一个具体的实施例中,在线采样方式的具体过程如下:首先,确定网络训练的批大小,例如,可以设置batchsize=200;其次,随机选择一类字体中的20个样本,利用模板匹配算法,对每一个样本去匹配剩余几类字体中最接近的前10个样本;最后,当总数达到300时结束采样,随机选取其中200个样本作为一个批大小,输入网络进行训练。根据本专利技术一个实施例的字体分类预测方法,在步骤S3中,网络结构采用卷积神经网络。具体地,卷积神经网络由卷积层、池化层以及全连接层组成,具体地,卷积层可以设置多个。根据本专利技术一个实施例的字体分类预测方法,采用深度学习算法对卷积神经网络进行训练。根据本专利技术一个实施例的字体分类预测方法,在步骤S3中,损失函数为L2-softmax损失函数,本文档来自技高网...

【技术保护点】
1.一种字体分类预测方法,其特征在于,包括以下步骤:/nS1,数据集准备,即收集并转化多种字体的样本,通过字符分割网络得到单个字符图片,确定每个字符的最小外接矩形,作为单个标准的样本;/nS2,对N类样本进行数据采样,选定N类样本中的1类作为基准样本,通过模板匹配计算剩余N-1类样本集和基准样本集的相似度,选择前M个样本作为一个批大小,循环采样训练;/nS3,确定网络结构、网络参数和损失函数,输入样本进行网络训练;/nS4,网络验证及测试,得到预测分类结果。/n

【技术特征摘要】
1.一种字体分类预测方法,其特征在于,包括以下步骤:
S1,数据集准备,即收集并转化多种字体的样本,通过字符分割网络得到单个字符图片,确定每个字符的最小外接矩形,作为单个标准的样本;
S2,对N类样本进行数据采样,选定N类样本中的1类作为基准样本,通过模板匹配计算剩余N-1类样本集和基准样本集的相似度,选择前M个样本作为一个批大小,循环采样训练;
S3,确定网络结构、网络参数和损失函数,输入样本进行网络训练;
S4,网络验证及测试,得到预测分类结果。


2.根据权利要求1所述的字体分类预测方法,其特征在于,在步骤S1中,多种字体包括:宋体、仿宋、楷体和黑体。


3.根据权利要求1所述的字体分类预测方法,其特征在于,在步骤S2中,对N类样本进行数据采样的方式为在线采样方式。


4.根据权利要求1所述的字体分类预测方法,其特征在于,在步骤S3中,网络结构采用卷积神经网络,卷积神经网络由卷积层、池化层以及全连接层组成。


5.根据权利要求4所述的字体分类预测方法,其特征在于,采用深度学习算法对卷积神经网络进行训练。

...

【专利技术属性】
技术研发人员:田辉刘其开
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1