一种基于藏经典文献中多样性字体的计算机表达方法技术

技术编号：24498666 阅读：76 留言：0更新日期：2020-06-13 04:06

本发明专利技术公开了一种基于藏经典文献中多样性字体的计算机表达方法，属于藏文信息处理技术领域，本发明专利技术首先收集藏经典文献的原材料，根据文献版面布局进行藏文字分割，根据字体全局特征和局部特征对分割的藏文字进行字体风格分类，获取文献中不同风格的字体集，进而根据作者的偏好建立偏态分布模型，实现计算机的多样性表达，实现经典文献中多样性字体的计算机化。本发明专利技术解决了用计算机字体来表达经典藏文文献中多样性字体的问题，实现计算机字体的多样性表达，实现经典文献中多样性字体的计算机化。

A computer expression method based on the diversity of fonts in Tibetan Classical Literature

全部详细技术资料下载

【技术实现步骤摘要】
一种基于藏经典文献中多样性字体的计算机表达方法
本专利技术涉及一种基于藏经典文献中多样性字体的计算机表达方法，属于藏文信息处理

技术介绍
藏文有一千多年的历史，流传下来大量经典文献。如敦煌古藏文文献、《大藏经》为代表的佛教典籍等这些文献无论从历史、政治、宗教、文化等角度均有重要的价值。目前对这些文献的保存方式有两种：扫描成数字图像保存，它保留了原版文献的细节，但是这种保存方式需要处理的数据量巨大，且不能实现基本的计算机文字信息处理功能；保存成电子文档，计算机生成统一的字体之后，这些文献成为可编辑、共享电子文档。计算机字体的使用，丢失了原版文献中具有文化背景和历史意义的特色字体，丧失了字体的多样性和字形的美感。目前，北京大学计算机科学技术研究所提出风格学习算法自动生成大规模手写字体；清华大学提出了Style-AwareAuto-Encoder,SA-VAE框架，仅仅通过观察一个或者少数样本来生成不同风格的汉字。这些方式生成的计算机手写字体，只还原了用户书写的一种字体，仍然没有实现手写字体的多样性和离散性。r>专利技术本文档来自技高网...

【技术保护点】
1.一种基于藏经典文献中多样性字体的计算机表达方法，其特征在于，所述方法包括以下步骤：/nStep1、收集、归纳、整理要研究的藏经典文献的原始影印资料；/nStep2、将整理的藏文经典文献原始影印资料扫描到计算机，生成文稿图像材料；/nStep3、对文稿图像做去噪声、去边框、倾斜等处理；/nStep4、根据文稿图像的行列布局情况进行不同的算法分割，分割成单一的藏文字符图像；/nStep5、提取文稿图像中不同风格的字体；/nStep6、根据经文中产生不同风格的字体的特点，建立多样性表达模型；/nStep7、将从文稿中提取的N套字体根据用户偏好的不同，建立偏态分布字体模型；/nStep8、根据文稿...

【技术特征摘要】
1.一种基于藏经典文献中多样性字体的计算机表达方法，其特征在于，所述方法包括以下步骤：
Step1、收集、归纳、整理要研究的藏经典文献的原始影印资料；
Step2、将整理的藏文经典文献原始影印资料扫描到计算机，生成文稿图像材料；
Step3、对文稿图像做去噪声、去边框、倾斜等处理；
Step4、根据文稿图像的行列布局情况进行不同的算法分割，分割成单一的藏文字符图像；
Step5、提取文稿图像中不同风格的字体；
Step6、根据经文中产生不同风格的字体的特点，建立多样性表达模型；
Step7、将从文稿中提取的N套字体根据用户偏好的不同，建立偏态分布字体模型；
Step8、根据文稿中字体的多样性和离散性的特点，提出字体多样性表达算法；
Step9、以MicrosoftHimalaya字体的电子版作为经典文献的标准文档，根据偏态分布字体模型，将经典文献中的MicrosoftHimalaya字体逐一替换为文稿中提取出来的多种风格的字体，实现计算机字体多样性表达，生成具有多样性和离散性字体的藏文经典文献。

2.根据权利要求1所述的一种基于藏经典文献中多样性字体的计算机表达方法，其特征在于：
步骤Step4中所述文稿图像的行列布局分为以下三种情况：行列间距明显的情况、行列间有重合但是不粘连的情况、行列间存在粘连的情况。

3.根据权利要求2所述的一种基于藏经典文献中多样性字体的计算机表达方法，其特征在于：所述步骤Step4的具体步骤如下：
Step4.1、对文稿图像进行投影分割，

公式(1)为图像在V(x,y)点的像素值，黑色(前景)像素值为1，白色(背景)像素值为0，然后对图像做行(列)投影处理，统计投影和为0的行(列)，就是行(列)间空隙线，以此坐标作为图像分割点，进行图像的粗分割；
Step4.2、通过步骤Step4.1将文稿中行(列)有明显间隔的部分分割完毕，对于行(列)间无明显间隔的版面采取连通域分割方法，它是通过检查各像素与其相邻像素的连通性，将文本块联通，然后进行字符的分割；
Step4.3、通过步骤Step4.2将文稿中行(列)间有重合但又不粘连的文本块分割完毕，考虑到文稿中行(列)间可能存在粘连的情况，采用改进的滴水法分割图像，首先采用Zhang-Sueng提出的并行细化方法处理粘连字符，只保留图像的拓扑结构，然后确定候选分割点，再通过自组织映射网络确定最终分割路径,实现粘连字符的分割。

4.根据权利要求1所述的一种基于藏经典文献中多样性字体的计算机表达方法，其特征在于：所述步骤Step5的具体步骤如下：
Step5.1、对分割的单一字符进行字符识别；
Step5.2、将文稿中提取的所有字符进行字体分类；
Step5.3、根据已经分类的不同风格的字体，生成字体库文件；
Step5.4、将所有风格的字体装入计算机备用。

5.根据权利要求4所述的一种基于藏经典文献中多样性字体的计算机表达方法，其特征在于：所述步骤Step5.1的具体步骤如下：
Step5.1.1、统一缩放图像；
Step5.1.2、图像灰度化，将所有图像统一转化成灰度图,记为PG；
Step5.1.3、离散余弦变换；
pHash算法通过离散余弦的变化(DiscreteCosineTransform,DCT)把图像从像素域变换成频率域，再保留其频率系数矩阵的左上角区域元素来计算图像的哈希值；DCT变换如下：

其中用x,y表示像素域中某点的坐标，g(x,y)为(x,y)点像素的值，...

【专利技术属性】
技术研发人员：朱倩倩，车文刚，苗晗，廖江福，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人