当前位置: 首页 > 专利查询>萧忠义专利>正文

普适压缩曲线微型超大汉字库技术制造技术

技术编号:2857693 阅读:214 留言:0更新日期:2012-04-11 18:40
普适压缩曲线微型超大汉字库技术是一种汉字输出技术,属中文信息处理技术领域。它提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称为字素,从中筛选出全部形状互异的笔画后逐个放大,用BEZIER二次函数描绘放大后的笔画轮廓,以轮廓笔画来形成字素,并由字素合成汉字,依照GB18030-2000中汉字顺序来制作汉字库。以256×256点阵作汉字、字素、笔画的制作环境。用汉字修补技术来美化汉字。

【技术实现步骤摘要】

“普适压缩曲线微型超大汉字库”技术是一种汉字输出技术,它属于中文信息处理

技术介绍
随着信息化的飞速发展,我国各行各业都已经广泛地在计算机上应用汉字库。但是,人们发现多年来市面上流行的曲线汉字库除宋体和黑体字数较全外,其它字体都只含数千字,致使在外交、外贸、航空、海运、公安、金融工作以及日常人们的办公室系统、手机短信中有许多人名、地名和文献资料的用字都不能正确处理,经常出现错别字、缺字和字形不美的现象,给社会在政治、经济、军事、文化、教育、科研等方方面面都造成了越来越多的麻烦甚至是不可弥补的损失。中国社会和国际上都在迫切呼唤着能支持电脑和各种微型电子产品的大容量汉字库产品的出现。“普适压缩曲线微型超大汉字库技术”正是这种应运而生的字库技术,它可以包含有宋、仿宋、楷、黑等各种字体,每种字体都完全是以国家标准GB18030-2000(即国际标准ISO/IEC 10646)为依据来制作的,分别都是真正地包含有27484个汉字。由于此标准是综合了中国、日本、韩国所有信息交换用汉字,故以它为依据制作的“普适压缩曲线微型超大汉字库”就具有世界通用性,从而填补了国际软件市场中的一项空白。待其实现后,中、日、韩国的汉字再也不需进行繁简体转换的操作,再也不会出现常用十来种字体字数含量相差悬殊的现象;再也不会出现同一种字体存在几种不同风格的现象;更不会有字形不美的情况产生。也就是说,“普适压缩曲线微型超大汉字库技术”实施成功后,不仅对我国的信息产业稳固发展起到了奠基作用,而且也将为世界其它使用汉字国家的信息产业发展起到促进作用。“普适压缩曲线微型超大汉字库技术”可以普遍适用于社会各行各业,如办公室自动化、通用软件、各种输出设备、印刷出版业、外交、外贸、航空、海运、公安、金融、中文信息处理系统等需要应用超大汉字库的领域内。我们的目标是让所有需要汉字的地方都能应用“普适压缩曲线微型超大汉字库技术”,故其社会经济效益将不可估量。
技术实现思路
通过对数万汉字的分析,我们发现汉字是字素位置的有序集合。换句话说,从结构上看,汉字是由字素按嵌套方式结构组合而成的。字素是经对汉字的结构进行统计分析后抽选出来的一些组字元素,利用它们就能完整地组配出所有汉字。字素中有的是构成汉字的最基本的笔画,如“一、丨、丿、乙、乀、○、 丶”共八类笔画,而每类笔画又可分为好几种(如“折”就有“乛、亅、乚、乙、ㄅ、ㄣ、ㄑ、ㄥ、”等二十来种);字素中有的是由这些笔画组成的常见的偏傍部首,如“氵、扌、竹、艹、宀、广、亻、衤、阝、忄、覀”等;有的字素可以独立成字,如“日、月、山、虫、金、木、火、土、大、小、人、口、手、心”;还有的字素是其它一些笔形结构,统称之为字素。由于汉字可以看成是一个平面图形,故只要在平面图形中相应的位置上填入恰当的字素,就可以产生有关汉字。例如,把字素“口、八”分别填入平面图形的上部和下部,便可形成一个“只”字;把字素“口、八”分别填入平面图形的左边和右边,便可形成一个“叭”字;“太”字就是“丶”嵌在“大”内;而“中”字是“丨”穿过“口”;“叉”字是字素“丶”嵌在“又”中;“尤”字是字素“丶”嵌在“尢”右上角。注意这里使用了“位置”两个字,说明单纯地用字素进行线性组合来形成汉字是不完备的。因此,用嵌套结构观点看汉字,必须把每个汉字看成是若干个字素及其所在位置有序集合的结果。总之,本技术提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称之为字素,并按照汉字具有的嵌套结构理论特性用字素来合成汉字,再以GB18030-2000中汉字顺序为依据来制作一种字体的汉字库。各种字体中每个汉字平均由3至4个字素组成。由上述汉字库形成原理可知本字库技术与市面上流行的曲线汉字库技术是完全不同的(他们都是以整个汉字形体来形成汉字库的)。在形成汉字之后,便可依照国家标准GB18030-2000(即国际标准ISO/IEC 10646)的汉字排列顺序为依据来制作汉字库,它可以包含有宋体、仿宋、黑、楷、圆、隶书、魏碑、综艺、琥珀、行书、姚体、彩云、报宋、标宋、粗黑、粗圆及其它各种字体,每种字体分别都包含有27484个汉字,其十六进制编号为3400至4DB7,4E00至9FA5。汉字字素是按字素形状用若干个笔画依据其在字素中相应位置逐个放置而成的。每种字体中字素个数大都互异,最少的单线体字素个数为1024个,最多的字体字素个数不足8192个。各种字体的每个字素平均由8至10个笔画组成。笔画最多的字素为20个笔画,笔画最少的字素为1个笔画。注意,对于大多数偏旁部首来说,一定要有数个形状相似的字素与之对应,才能满足对汉字的美观性的要求。分析GB18030-2000编码汉字集中所有汉字,从中筛选出同一字体中所有汉字的全部形状互异的笔画(包括形状相同而长短或高低不同、形状相同而粗细不一、形状相同而倾斜度不同的笔画在内),将这些笔画逐个进行放大,再用BEZIER二次曲线函数来描绘经放大后的笔画的轮廓。这样形成的笔画是一空心笔画(轮廓笔画),用此空心笔画来形成字素及汉字,其效果远比描绘整个汉字的轮廓要精细得多。显然,字形的美观度也更胜一筹。注意,这些形状互异的笔画不一定是一种完整的通常所指的“笔画”,它可以是其中的一小部分,如“起笔笔锋”或“收笔笔锋”,也可以是“笔身”。每种字体中笔画个数大都互异,最少的单线体笔画个数为64个,魏碑字体694个笔画,最多的字体笔画个数可有812个。各种字体的每个笔画平均为96至128个字节。汉字、字素、笔画制作范围可以在256×256点阵至1024×1024点阵中,点阵过大是完全没有必要的。为了节省存储单元,提高字库压缩比,加快汉字形成速度,最好是采用256×256点阵来作为汉字、字素、笔画制作环境。每个字素、笔画在汉字中的“位置”用其左上角坐标(X,Y)、宽度(W)、高度(H)来表示。根据上面一种字体汉字库形成原理,可知同一CJK号具有相同的造字信息,使得几种字体能够共用这些信息,这样可以进一步减少汉字库的存储空间,形成了一种有独特风格的汉字库压缩技术,这就为大汉字库的微型化奠定了坚实的基础。因为,在包含宋仿楷黑四种字体,每种字体各含20902个汉字情况下,“普适压缩曲线微型超大汉字库”所需存储容量还不到2MB。然而,华天曲线汉字库所需存储容量为4MB;市面上流行的曲线汉字库所需存储容量大都在32MB以上。所以,“普适压缩曲线微型超大汉字库”是世界上存储容量最小的曲线汉字库。目前市面上流行的曲线汉字库在字形美观上的不足之处是当把汉字压缩到16×16点阵时,字形的美观度就不如16×16点阵汉字库中的汉字。因为它们没有西文字库中用以确保其美观性的微量压缩(hinting)技术。而我们的“普适压缩曲线微型超大汉字库技术”却有自己独创的汉字修补技术来对字素和汉字进行美化,使得汉字在16×16点阵时也照样美观。此修补技术采用的是增加特殊笔画或字素来分别修补字素或汉字的不足。每个特殊笔画或字素在汉字中的“位置”也是用其左上角坐标(X,Y)、,宽度(W)、高度(H)来表示。由于目前市面上流行的曲线汉字库是通过描绘整个汉字的轮廓来形成字库的,所以,如果它们也采用汉字修补技术来形成字库的话,则必定会大大地增本文档来自技高网
...

【技术保护点】
普适压缩曲线微型超大汉字库技术,其特征在于:(1)提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称之为字素,并按照汉字具有的嵌套结构理论特性用字素来合成汉字,再以国家标准GB18030-2000中汉字 顺序为依据来制作便可形成一种字体的汉字库。由于同一CJK号具有相同的造字信息,使得几种字体能够共用这些信息,因此可形成迄今为止世界上存储容量最小的曲线汉字库。各种字体中每个汉字平均由3至4个字素组成。(2)汉字字素是按字素形状用若干 个笔画依据其在字素中相应位置逐个放置而成的。每种字体中字素个数大都互异,最少的单线体字素个数为1024个,最多的字体字素个数不足8192个。各种字体的每个字素平均由8至10个笔画组成。笔画最多的字素为20个笔画,笔画最少的字素为1个笔画。对于大多数偏旁部首来说,一定要有数个形状相似的字素与之对应,才能满足对汉字美观性的要求。(3)分析GB18030-2000编码汉字集中所有汉字,从中筛选出同一字体中所有汉字的全部形状互异的笔画(包括形状相同而长短或高低不同、形状相同而 粗细不一、形状相同而倾斜度不同的笔画在内),将这些笔画逐个进行放大,再用BEZIER二次曲线函数来描绘经放大后的笔画的轮廓。这样形成的笔画是一个空心笔画(轮廓笔画),用此空心笔画来形成字素。(4)本技术可省去制造常规曲线汉字库中的两 道工序,即,无须请书法家写出或描字工绘出字库中每一个字;无须将写出的每个字用扫描仪扫入微机中形成汉字字模。这样,与常规曲线汉字库相比,每款字体开发时间可省1.6个人年以上。(5)利用本技术不仅可以制作各种字体,而且在各种字体扩充汉字 时,由于只需增加一些编码组字序列,其笔画和偏旁部首基本上早已存在于原汉字库中,所以相应增加的存储单元甚微。(6)本技术在一些字体做好后,能简单地在同一种字体中进行笔画粗细变换,可以生成多种类似字体。(7)本微型化汉字库的接口 平台是开放式的,所以它可以根据任何需要匹配使用的软硬件条件开发相应的接口。...

【技术特征摘要】
1.普适压缩曲线微型超大汉字库技术,其特征在于(1)提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称之为字素,并按照汉字具有的嵌套结构理论特性用字素来合成汉字,再以国家标准GB18030-2000中汉字顺序为依据来制作便可形成一种字体的汉字库。由于同一CJK号具有相同的造字信息,使得几种字体能够共用这些信息,因此可形成迄今为止世界上存储容量最小的曲线汉字库。各种字体中每个汉字平均由3至4个字素组成。(2)汉字字素是按字素形状用若干个笔画依据其在字素中相应位置逐个放置而成的。每种字体中字素个数大都互异,最少的单线体字素个数为1024个,最多的字体字素个数不足8192个。各种字体的每个字素平均由8至10个笔画组成。笔画最多的字素为20个笔画,笔画最少的字素为1个笔画。对于大多数偏旁部首来说,一定要有数个形状相似的字素与之对应,才能满足对汉字美观性的要求。(3)分析GB18030-2000编码汉字集中所有汉字,从中筛选出同一字体中所有汉字的全部形状互异的笔画(包括形状相同而长短或高低不同、形状相同而粗细不一、形状相同而倾斜度不同的笔画在内),将这些笔画逐个进行放大,再用BEZIER二次曲线函数来描绘经放大后的笔画的轮廓。这样形成的笔画是一个空心笔画(轮廓笔画),用此空心笔画来形成字素。(4)本技术可省去制造常规曲线汉字库中的两道工序,即,无须请书法家写出或描字工绘出字库中每一个字;无须将写出的每个字用扫描仪扫入微机中形成汉字字模。...

【专利技术属性】
技术研发人员:萧忠义萧志春余锦凤
申请(专利权)人:萧忠义萧志春余锦凤
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利