一种基于汉字的结构和风格的字形生成方法技术

技术编号:15547113 阅读:109 留言:0更新日期:2017-06-05 20:54
本发明专利技术公开了一种基于汉字的结构和风格的字形生成方法,所述基于汉字的结构和风格的字形生成方法基于汉字的编码与描述将汉字字形概括为静态和动态两种形式,以基本笔元、组合笔元和扩展笔元为基本描述单位的汉字字形结构;建立基于字形结构的汉字动态生成模型;建立了基于字形结构的汉字笔画风格生成模型。本发明专利技术与现有的汉字生成技术相比,本发明专利技术提出的动态生成模型,具有实时性和动态性,以及更好的网络存储和网络控制属性,达到了快速生成不同风格的汉字字形的目的,为汉字字形的设计和汉字字形的服务提供了一种新的思路。

A font formation method based on the structure and style of Chinese characters

The invention discloses a structure and style of Chinese characters based on the font generation method, the font generating method based on the structure and style of Chinese characters based on Chinese characters encoding and description will be summarized as static and dynamic Chinese characters shaped in two forms, combined Chinese characters shaped structure element and Expansion pen pen as the basic unit to describe the element the basic element, a pen; dynamic model Chinese characters glyph structure based on; establishing a stroke style Chinese characters shaped structure model based on. Compared with the existing technology of the present invention generates Chinese characters, dynamic model of the present invention, real-time and dynamic, and better network storage and network control attribute, to quickly generate different Chinese characters font style to provide a new idea for the design and Chinese characters font font service Chinese characters.

【技术实现步骤摘要】
一种基于汉字的结构和风格的字形生成方法
本专利技术属于汉字信息处理
,尤其涉及一种基于汉字的结构和风格的字形生成方法。
技术介绍
汉字字形计算系统是信息产业发展的基石,三十年前,为了将汉字输入计算机,国内外计算机学者付出了巨大的劳动,最终在英文单字节编码基础上开发了双字节的汉字信息的表示方法。编码汉字系统产生于汉字进入计算机非常困难的年代,尽管迄今为止,仍然服务着目前包括未来信息技术的发展,但是伴随着网络信息技术的跨越式发展,汉字信息处理的环境已经发生了深刻的变化,传统的编码汉字系统在互联网时代却表现出了诸多不足和没有生机。目前各类计算机系统中的汉字系统是按照一字一码而进行设计的编码汉字系统,只有在计算机中安装了某种字形的字库文件,汉字文档才能被正确使用,如果汉字文档使用了计算机中没有安装的字形库,文档则会显示乱码。编码汉字系统是为信息交换的便利而设计,但随着个性化和数字技术高度发展,这种传统的编码机制已经表现得很不方便。特别是针对中国历代文字、文献的数字化出版问题,目前还不能找到一种有效的解决方案。同时,对于日常汉字的个性化表达,例如,错字字形的表达、手书字形的表达等等都有很大困难。表示方式的不足(1)汉字的笔画和部件难以输入。编码汉字系统中,只有编了码的文字才可输入,中华文化源源流长,目前,很多汉字(特别是古文字)尚没有编码,更不要说汉字的笔画和部件了。(2)汉字笔画难分解。传统编码汉字字形中除了楷体字库中有笔画的分解信息之外,其它汉字笔画分解非常困难。(3)汉字错字难编辑。汉字教学中,错字和不规范字是最基本的教学元素,但目前的编码汉字系统却没有办法实现,不仅影响了数字化汉语教学的发展,也为自然语言的深度计算研究带来了困难。(4)汉字个性化难体现。数字化时代汉字失去了一个非常重要的特征——个性化汉字,尽管可以由字库开发商制作个人字体,但实现起来非常困难。编码方式的不足(1)异体字的编码问题。汉字编码解决了汉字的交换问题和常用汉字的数字化出版问题,但是对异体字和古汉字的编码非常困难,影响了汉字数字化和信息化技术的发展。(2)提笔忘字问题。编码汉字时代,只要输入拼音就可以自动引导出汉字,使得汉字的书写失去了意义。一字一码,整字编码是导致“提笔忘字”现象的一个重要因素。(3)个人字库问题。数字化的时代,很难再见到“见信如面”的问候方式,不管你在你的个人终端上写得多么个性,对方收到的短信或微信,一律都要变成“黒”“宋”“楷”“仿”四张面孔。汉字信息处理技术研究经过几十年的发展,已经开始从宏观走向微观、从通用走向个性化、从规模处理走向精细处理阶段,在这个变化过程中,越来越多的用户对个性化的汉字表达和快速的汉字生成的技术和方法的需求日益增强。研究更加快捷、方便的汉字生成策略越来越受到人们的重视。例如,在云计算环境下,原来的单机文件系统已经扩展到了网络和分布式文件服务系统,信息文档不再是一种静态内容和单一版本,而是具有动态性、时空立体性、多用户性、多安全等级、多媒体性与多版本性的“活”性文档。如何对这些“活”结构化的信息和文档进行动态的表示,是实现汉字信息在云计算服务时代个性化表示的关键。汉字的个性化表示属性有很多方面,但最基本的属性只有两个,一个是汉字结构,另一个是汉字的风格,汉字是汉字结构和笔画风格高度融合的艺术,因此个性化的汉字字形研究不仅要研究汉字的结构,而且还要研究汉字的风格。传统的信息存储方式是以结构化文档的方式(如数据库)进行存储,和此相关的汉字是以标准的信息编码形式进行计算,这一策略的最大缺点是很难实现对汉字的结构和风格进行独立的计算,从结构上分析,汉字不同于英文字母,不仅数量巨大,而且结构复杂,生产一套汉字字库周期长、任务重,实现个性化表示几乎不可能。从风格上分析,汉字笔画的书写变化多端,很难用统一的形式化方法去表达。近年来,研究学者一方面从笔画分解、汉字生成、和笔画生成等方面进行研究分析,另一方面也从汉字的编码、和汉字的描述技术等方面进行了研究。汉字自动化生成技术的主要目的一方面是为了解决大量汉字字形的快速生成问题,另一方面是为了解决个性化的计算机书写问题。综观目前常用的汉字字形自动化生技术,汉字的生成技术概括起来主要分为两类,一类是基于汉字编码的静态生成方法,另一类是基于汉字描述的动态生成方法。汉字的静态生成方法,是基于现代汉字固定的编码属性,以固定的汉字结构对汉字的笔画和结构进行构造的汉字计算模型。1)基于部件的拼字方法部件拼字就是利用汉字是由偏旁部首组成的特点,通过设计少量的汉字笔画和部件,拼成整个汉字的方法。尽管部件拼字的结果是一种新字形的动态组合,但由于笔画结构的可变性较差,因此也属于静态的汉字生成方法。2)笔画组字方法是基于不同汉字中笔画风格的不同而分别设计不同的笔画来组成不同字体的设计方法。3)系列字生成法就是将一种风格的字根据需要做成从粗到细的一系列字库,以适应正文、大小标题等不同应用。系列字的风格相同,只是笔画的粗细不同。可以先做出最粗和最细两款字,然后自动生成中间粗细的字。上述三种方法固然可以实现部分字形的自动化生成,但基本上都是针对某一字体而言,并且对生成的部件和笔画的依赖性较大,例如:黑体字可以生成不同的黑变体,隶书体可以生成隶变体,并且在生成质量和数量上还需要做很大的改进,很多技术和方法都还处于实验研究阶段。基于描述汉字的动态生成方法编码是复杂对象的简单表示,编码汉字的主要目的是为了信息交换,不适合汉字字形的动态组合和生成,因此才出现了目前汉字字形设计效率低下和个性化的汉字难以实现等问题,为了解决这一问题,一些研究学者开始在编吗汉字之外通过定义汉字的结构和生成规则,来动态的生成汉字,为了和编码汉字的生成方法相区别,目前主要的动态汉字生成方法有以下几种:1)基于汉字部件和笔画描述的动态组字方法基于汉字部件和笔画描述的动态组字方法是针对表示信息的汉字数量巨大,汉字的机器组字、组词效率较低等问题而出现的使用特殊标签将汉字的不同部件和笔画进行表示的方法。代表性的主要有香港浸会大学提出的HanGlyph、美国加州大学伯克利分校提出的基于笔画和汉字部件的字形描述语言CDL(CharacterDescriptionlanguage)等等。如果将部件描述进一步的细化,就是笔画描述,这方面HanGlyph和CDL做得非常好,兼顾了部件和笔画两种描述方法的组合,将汉字分为控制点、骨架和轮廓等三个层次结构,特别受到了汉字学者的重视,并从多个方面进行了扩展,SCML(StructuralCharacterModelingLanguage)就是在CDL的基础上提出的一种将字形和结构融合起来进行综合描述的方法。以组字为目的的汉字部件和笔画的描述,绝大部分使用数字标签对汉字的结构进行标记,其主要目的是要实现汉字智能输入、和文档的智能识别。其特点是将汉字的整体结构描述向前推进了一步,在笔画分解、识别和计算方面显然要优于用整字为单位的字词描述方案。2)以罕用字的表示为目的的汉字字形的笔段描述,笔段描述是将汉字部件描述继续细化的描述方法,这里的笔段是笔画的子集,它可以是笔画或笔画的一部分。在笔段描述方面,在基于笔段的汉字形式化描述方面做了很深的研究工作,提出了基于笔段网格的生僻字、本文档来自技高网...
一种基于汉字的结构和风格的字形生成方法

【技术保护点】
一种基于汉字的结构和风格的字形生成方法,其特征在于,所述基于汉字的结构和风格的字形生成方法基于汉字的编码与描述将汉字字形概括为静态和动态两种形式,以基本笔元、组合笔元和扩展笔元为基本描述单位的汉字字形结构;建立基于字形结构的汉字动态生成模型;建立了基于字形结构的汉字笔画风格生成模型。

【技术特征摘要】
1.一种基于汉字的结构和风格的字形生成方法,其特征在于,所述基于汉字的结构和风格的字形生成方法基于汉字的编码与描述将汉字字形概括为静态和动态两种形式,以基本笔元、组合笔元和扩展笔元为基本描述单位的汉字字形结构;建立基于字形结构的汉字动态生成模型;建立了基于字形结构的汉字笔画风格生成模型。2.如权利要求1所述的基于汉字的结构和风格的字形生成方法,其特征在于,所述将汉字字形分解成结构和风格两个层次,结构层用于服务器端汉字字形结构的存储,风格层用于在客户端各类汉字笔画的生成。3.如权利要求1所述的基于汉字的结构和风格的字形生成方法,其特征在于,笔元是汉字笔画的特征点之间、特征点与驻点之间或驻点与驻点之间的一个有方向的线段;设T(vs,ve)是汉字笔画的两个特征点,vz1,vz2…vzn是其中n个驻点,则汉字的笔元表示为:Y(vzi,vzj);如果用笔元Y来表示汉字的笔画,则有:T(vs,ve)=Y(vz1,vz2)+Y(vz2,vz3)+……+Y(vzi,vzj)其中,i,j∈{1,2,3,…,n};汉字的笔元集合是特征点集合的一个子集,每一个汉字笔画中的驻点是随机的或不确定的,为动态。4.如权利要求1所述的基于汉字的结构和风格的字形生成方法,其特征在于,汉字的基本笔元是和组成汉字的基本笔画相对应的笔元,笔元只有两个特征点,表达式表示为:S12=(x1,y1,x2,y2);除了基本笔元以外,其它的笔画或部件的组合称之为组合笔元,表达式表示...

【专利技术属性】
技术研发人员:栗青生张莉徐强肖建国张解放刘泉
申请(专利权)人:浙江传媒学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1