【技术实现步骤摘要】
基于深度堆叠网络的结构信息指导的中文字库生成方法
本专利技术属于计算机图形与图像处理、人工智能和深度学习
,涉及中文文字处理技术,尤其涉及一种基于深度堆叠网络的结构信息指导的手写体中文字库自动生成方法,利用中文汉字结构信息等先验知识和深度神经网络,学习书写风格并生成完整的中文字库。
技术介绍
个性化字体使得信息传播更加生动、直观。相比于规范的印刷字体,越多越多的人希望在电子移动设备中使用个性化字体,尤其是手写体字体,来进行沟通和交流。一方面,个性化字体能将文本渲染为特有的书写风格,更加灵活地表达书写者的风格和感情;另一方面,个性化字体的视觉效果使得书写者在各种社交网络媒体中受到更多的关注。目前来说,手写体中文字库的生成仍然是一件费时费力的工作。主要的原因包括:1)中文汉字结构复杂,即使是同一个汉字,不同书写者的书写风格差异大;2)英语或拉丁语字符集只包含极少量的字符,但是中文字符数量庞大,例如,最常用的GB2312字符集合包含6763个汉字;3)当前在电子设备上可用的手写字体大部分是商业字体,它们由专业的字体设计师设计,每个字符都需要精细的调整。因此,对于普 ...
【技术保护点】
1.一种手写体中文字库的自动生成方法,其特征是,基于深度堆叠网络和结构信息指导,通过书写轨迹合成阶段和字体风格渲染阶段,首先从用户书写的少量手写体汉字对书写风格进行学习,从而合成未书写汉字的书写轨迹;并渲染为目标的手写体风格;再生成具备该用户书写风格的完整的GB2312中文手写体字库文件;其中:第一阶段进行书写轨迹合成,包括:将每个手写体汉字字符表示为一系列拆分好笔画的书写轨迹;构造一个基于卷积神经网络的多级模型作为骨架变形网络;通过骨架变形网络将书写轨迹从参考字体风格迁移到目标字体风格;第二阶段进行字体风格渲染,包括:构建基于生成对抗网络的深度卷积神经网络模型作为风格渲染 ...
【技术特征摘要】
1.一种手写体中文字库的自动生成方法,其特征是,基于深度堆叠网络和结构信息指导,通过书写轨迹合成阶段和字体风格渲染阶段,首先从用户书写的少量手写体汉字对书写风格进行学习,从而合成未书写汉字的书写轨迹;并渲染为目标的手写体风格;再生成具备该用户书写风格的完整的GB2312中文手写体字库文件;其中:第一阶段进行书写轨迹合成,包括:将每个手写体汉字字符表示为一系列拆分好笔画的书写轨迹;构造一个基于卷积神经网络的多级模型作为骨架变形网络;通过骨架变形网络将书写轨迹从参考字体风格迁移到目标字体风格;第二阶段进行字体风格渲染,包括:构建基于生成对抗网络的深度卷积神经网络模型作为风格渲染网络;通过风格渲染网络,将合成的骨架图像恢复汉字形状细节,尤其是针对字符的轮廓边缘恢复汉字形状细节。2.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,第一阶段进行书写轨迹合成具体包括如下步骤:第一步,获取指定输入字符集合的汉字图像;第二步,将汉字图像进行切分,获得多个单个汉字图像;并将单个汉字图像的大小归一化到设定尺寸;第三步,利用汉字笔画自动提取方法和/或人工标注方法获得每个汉字的笔画书写轨迹;第四步,基于非均匀采样算法,对于每个汉字每个笔画,采样相同数目的骨架点坐标,建立参考风格和目标风格书写轨迹线上点的对应关系,将单像素宽度的骨架图像合成为一定宽度的汉字骨架图像;第五步,通过对骨架变形网络学习,得到从参考风格骨架到目标风格骨架的变换关系;对于用户未书写的汉字,通过第五步得到的变换关系,合成未书写汉字的笔画轨迹,得到汉字骨架图像;第二阶段进行字体风格渲染具体包括如下步骤:第六步,根据第五步得到的汉字骨架图像,采用风格渲染网络,恢复笔画轮廓线上风格细节,自动生成用户未书写的其他所有汉字的字形图像;第七步,将第二步中的用户书写的指定字符集合的汉字图像和第六步得到的汉字图像结合,得到GB2312字库汉字的图像集合。3.如权利要求2所述的手写体中文字库的自动生成方法,其特征是,对第七步得到的汉字的图像集合进行矢量化操作,生成具备用户书写风格的GB2312中文手写体的计算机字库文件。4.如权利要求2所述的手写体中文字库的自动生成方法,其特征是,第一步具体通过用户书写指定输入字符集合的汉字,并转换成汉字图片;或通过在手机或平板的应用程序上书写汉字;由此获取指定输入字符集合的汉字图片;所述指定输入字符集合包括能覆盖GB2312字库中出现的所有类型的笔画和部件的775个汉字。5.如权利要求2所述的手写体中文字库的自动生成方法,其特征是,第二步具体将单个汉字图像归一化为尺寸320×320。6.如权利要求2所述的手写体中文字库的自动生成方法,其特征是,第三步所述汉字笔画自动提取方法具体采用一致性点集漂移算法自动提取汉字骨架,将字体给定汉字图像的骨架点与已经拆分好的参考字体对应汉字的骨架点进行非刚性点集注册,得到拆分好的每个笔画轨迹信息,即为骨架线上的点坐标。7.如权利要求2所述的手写体中文字库的自动生成方法,其特征是,第四步所述非均匀采样算法,具体执行如下操作:1)对得到的每个汉字的笔画书写轨迹采样多个点,使得笔画的端点、转折点和其他笔画的交叉点均包括在采样点集合中;2)将采样的多个点连接成单像素的骨架线,并渲染为一定宽度的骨架图像;对收集的不同书写风格的字体分别提取骨架,进行采样,计算平均骨架信息,作为骨架变形网络的参考字体风格;所述第五步得到从参考风格骨架到目标风格骨架的变换关系,具体是:建立骨架变形网络的骨架流场SFF,通过每个笔画固定的采样...
【专利技术属性】
技术研发人员:连宙辉,江月,唐英敏,肖建国,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。