一种字形处理方法、系统、设备和介质技术方案

技术编号:23605513 阅读:40 留言:0更新日期:2020-03-28 06:24
本发明专利技术提出一种字形处理方法、系统、设备和介质,包括:训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布;本发明专利技术通过字形重构修正模型训练,可有效提高字形编码向量的准确性。

A font processing method, system, equipment and medium

【技术实现步骤摘要】
一种字形处理方法、系统、设备和介质
本专利技术涉及图形识别领域,尤其涉及一种字形处理方法、系统、设备和介质。
技术介绍
传统的基于计数的字嵌入向量维数大,具有稀疏性。而基于预测模型的方法可以生成稠密向量,能用较小的维数表示字,而且可以使语义相似的字之间具有较小的距离。目前,基于预测模型的方法有Word2vec、Glove等,但是除语义之外,字形也可以帮助我们理解字义,特别是像中文一样的象形文字,而目前基于字形的嵌入向量的生成方法还不是特别多,因此,我们需要一种方法,能使用稠密向量较好地对字形进行编码。
技术实现思路
鉴于以上现有技术存在的问题,本专利技术提出一种字形处理方法、系统、设备和介质,主要解决字嵌入缺乏字形信息的问题。为了实现上述目的及其他目的,本专利技术采用的技术方案如下。一种字形处理方法,包括:训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布。<br>可选地,根据所本文档来自技高网...

【技术保护点】
1.一种字形处理方法,其特征在于,包括:/n训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布。/n

【技术特征摘要】
20191024 CN 20191101840231.一种字形处理方法,其特征在于,包括:
训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布。


2.根据权利要求1所述的字形处理方法,其特征在于,根据所述字形编码向量创建字形生成模型,通过字形生成模型对所述字形编码向量进行验证。


3.根据权利要求2所述的字形处理方法,其特征在于,所述字形编码向量包括均值向量、协方差向量。


4.根据权利要求3所述的字形处理方法,其特征在于,根据所述样本编码先验分布预设用于采样的分布,具体为均值向量和协方差向量,进行采样,获取采样向量;将所述采样向量乘以所述协方差向量后加到所述均值向量上,获取对应的字形编码向量。


5.根据权利要求1所述的字形处理方法,其特征在于,获取字形的多维图像信息,并创建所述字形训练集。


6.根据权利要求5所述的字形处理方法,其特征在于,所述多维图像信息包括字体、笔画粗细、旋转角度。


7.根据权利要求1所述的字形处理方法,其特征在于,所述编码模型输出向量的分布服从正态分布。


8.根据权利要求1所述的字形处理方法,其特征在于,通过神经网络对所述文字图形样本提取图像特征,建立所述图像特征与所述字形编码向量的映射关系,进而创建初始的编码模型。


9.根据权利要求8所述的字形处理方法,其特征在于,所述神经网络包括卷积神经网络。


10.根据权利要求2所述的字形处理方法,其特征在于,通过反卷积神经网络建立所述字形编码向量与文字图像的映射关系,进而创建字形生成模型。


11.根据权利要求2所述的字形处理方法,其特征在于,通过所述字形生成模型对所述字形编码向量进行采样,输出对应的字形重构图像。


12.根据权利要求8所述的字形处理方法,其特征在于,预设所述字形训练集的所述样本编码先验分布,计算所述样本编码先验分布与所述编码模型输出向量的分布之间的散度;
获取所述样本的期望分布,并根据所述期望分布和所述散度构建目标函数;
对所述初始的编码模型进行训练,当所述目标函数达到最小值时,获取训练完成的所述编码模型。


13.根据权利要求11所述的字形处理方法,其特征在于,构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的所述文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。


14.根据权利要求11所述的字形处理方法,其特征在于,通过所述字形生成模型接收随机噪声,根据所述随机噪声和所述字形编码向量获取对应的所述字形重构图像。


15.根据权利要求2所述的字形处理方法,其特征在于,对所述字形编码向量进行特征分类和/或特征聚类。


16.根据权利要求15所述的字形处理方法,其特征在于,所述特征分类包括:
对所述字形训练集进行分类,获取多个样本类别;
通过所述字形生成模型预测输出图像样本属于某一所述样本类别的概率;
根据所述概率将对应的所述字形编码向量进行分类。


17.根据权利要求15所述的字形处理方法,其特征在于,所述特征聚类包括:获取所述字形重构图像对应的类别特征;
获取所述类别特征的聚类中心;
计算所述类别特征与所述聚类中心的n-范数;
根据所述n-范数的值对所述字形重构图像对应的所述字形编码向量进行聚类。


18.根据权利要求15所述的字形处理方法,其特征在于,根据所述...

【专利技术属性】
技术研发人员:周曦姚志强李继伟郝东杜晓薇
申请(专利权)人:云从科技集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1