当前位置: 首页 > 专利查询>王力德专利>正文

形元汉字信息处理方法及其键盘技术

技术编号:2893506 阅读:225 留言:0更新日期:2012-04-11 18:40
形元汉字信息处理方法是一项以图论原理为基础,用于编字典、计算机汉字编码输入和计算机手写汉字识别的综合性发明专利技术。发明专利技术将汉字字形中的连通线图(即形元)分为各种类型。以形元拆拼汉字,同时保持部件拼字快速的优点用形元号码字典查字,只记十个号码,三级简码不用记忆。使用全部简码,99%的字只用一至三键即可输入。(*该技术在2007年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于汉字信息处理技术。现国内已有数百种汉字编码方案,大致分三种类型一、容易学习但输入较慢,如拼音码;二、输入较快但难学难记,如部件码;三、难度与速度介于二者之间。目前还没有一种既容易学习,又可快速输入,能取代所有方法成为全国统一编码的方法。部件编码法重码少,码长短,只要背熟部件,拼字迅速,输入快,优点多,但数以百计的人工部件难学、难记、难分类是其致命弱点。某天然部件是否属某码人工部件范围,属何类,与何字母对应,本质上全要靠强制记忆。只适于专业操作人员部件码一般只考虑计算机输入一种用途,故多以字母为代码,中国人对字母顺序远不如对数字顺序熟悉,故不适于编制群众使用的字典,不能使一般人及学生在未接触计算机之前就已掌握汉字编码,因而难以向全社会普及。在中国,如果计算机汉字编码不和字典结合起来,就不可能彻底解决普及问题。美国王安公司的三角编码三百多部件主要靠强制记忆,非专职人员难以掌握。钱码输入速度快,但全部字根基本依靠强制记忆。王永民码在分类和普及上有独到之处,但五笔字形码的部件分类仍难记忆。只知某部件属某区,但部件第二笔多不符合键位规律,故属何键位仍要强制记忆,而且任一天然部件是否属于该码部件仍须逐一记忆。对少于四个字根的汉字,须补一个“末笔和字型交叉识别码”,汉字字型归类有时很困难,该码虽有简单易学的五笔划法,但向真正实用的五笔字型码过渡跳跃性太大。该码输入速度高,主要靠简码和词语码,其它编码法亦能做到,为帮助使用者记部件,四川《大众》汉字输入法造出26个复杂的“模拟汉字”如“ ”等;《汉字十类字元歌决定位电脑输入法》编出八十句之多的歌诀,如“为兼耳旁卫服寻”“革识竖插尹头横”之类。部件编码记忆之难可见一斑。总之,所有部件编码法缺陷产生的原因正如郭平欣,张淞芝著《汉字信息处理技术》一书中所指出的“部件本身太多;有些部件可分可合,造成歧意;部件使用频度相差很大,但频度再低的部件也无法舍去;占全体汉字25%的多拼字更增加拼字的困难。所以用组字部件拼汉字是相当复杂的,至今还不能找到一条非常理想的组字规则”“文字和语言一样是逐步形成的,它具有社会性和历史性,我们很难用形式上的几条法则和规律来强行统一,只能承认它的复杂性。”由此可见,只要采用部件做为汉字“拼形字母”进行编码,其缺陷是无法克服的,这个事实已为数百部件编码法所证实只有跳出部件系统,才能找到理想的组字规则和汉字字形的简明规律。本专利技术的目的就是要找一种既不需要记忆人工部件系统,实际上又以部件拼字的方法。在手写汉字计算机识别方面,目前联机输入识别虽有进展,但对字形规范和笔顺正确的要求较高,难以普遍适用,对已经写在纸上的汉字进行脱机识别则更为困难。实际上现有技术在记录,分析,存贮等手段上已相当先进,但因对汉字字形结构的根本规律未掌握,故未能突破。目前识别汉字的途径之一是结构分析法,它以五百个汉字部件为基础,以结构运算符表示部件间的位置关系,用这种形式文法来分析汉字,如赢=亡 口 (月 贝 凡)蘅=艹 (行 (_ 田 大))(见陈明远著《语言文字的信息处理》)这种方法之所以未能在识别手写汉字方面有较大突破其原因与部件编码法一样,在于部件本身形式复杂,变化多,数量多,分析部件的难度并不低于分析汉字本身。部件是文字学概念,不是数学概念,不便于计算机处理。邮政编码的识别也未完全成功,所以对人手写编码数字要求工整,否则难以识别。综上,汉字编码与手写汉字识别困难的焦点全在于未能找到适合于数学处理的简明的汉字字形规律。为此本专利技术对汉字字形进行了研究,在字根与笔划这两级之间发现了“连通线图”这一级结构,汉字中的连通线图就是笔划相连通形成的线条图形,如“一乙人口手开”等,也可以看做连通电路,每个字根和汉字都是由一个或几个连通线图组成的。如设=丶 几又连=车丶 木=木耳=耳由此可见,连通线图正是汉字的纯形元件。本专利技术谓之“形元”,它与西文字母都是连通线图,都是字根与单字的拼形字母,所以真正与西文字母对应的同级结构应该是形元。而汉字的字根是历史上形成的兼有形、音、义属性的元件,并非纯形元件。所以形状复杂,数量巨大,界限模糊,它应该对应于西文字根,不宜做为“拼形字母”。连通线图在数学处理上比连,散错杂的字根要容易得多。分析连通线图最有力的数学工具是现代数学分枝-图论。本专利技术运用图论及图论在物理学中的应用-电路图,对连通线图分析如下连通线图可分为“回路”和“树”两部分,回路即如“口”之类的闭合路径,从连通线图中取出回路剩下的部分叫“树”树电路与汉字笔形的对应大致如下图论概念电路概念汉字笔形两个端点的边直电路直笔(一丨丿 )二叉树弯折电路折拐( _厂弓)三叉树三支路的节点电路丁字形连接笔形四叉树四支路的节点电路四叉笔形(十力)五叉树五支路的节点电路五叉笔形(大)六叉树六支路的节点电路六叉笔形(木)从图论观点看,电路图和文字都是线图,线图分类形式能概括连通图的所有变化,支路、节点、回路能描述任何复杂电路,所以直、曲、丁、叉、框也能拼出所有字根和汉字,这就是形元原理的科学依据。从纯形概念出发,一个汉字可分为离散结构和连通线图两个基本层次,连通线图服从图论规律,由连通线图组成的离散结构服从更高一级规律(见16页“数理字形学”),这就是汉字字形(不搀杂任何字义字音属性)的简明规律。用形元分析汉字最为直观,凡连接在一起的笔画就组成一个连通线图。人们一眼就能看出汉字中的连通线图及直、曲、丁、叉、框等结构形态特征。运用连通线图原理建立的形元编码系统有以下优点分类严密科学性强,直、曲、丁、叉、框组成一个从简单到复杂的递进系统。每类定义简单明确,某形元属何类,一眼可知,决无歧义,彻底解决了部件编码的分类困难。任何部件都可由形元拼出,所以没有必要硬性规定人工部件范围,从而彻底解决了部件编码逐一记忆的最大困难。形元分类灵活,类别可多可少,可分可合,可用字母做代码,也可用数字做代码,所以可编字典。记忆量极少,规则简单,直观性强,学习容易,适于所有初学者。因各部件都有固定号码,实际上仍是以部件拼字,保持了部件编码拼字迅速的优点。从字典码向计算机输入码过渡自然简单,只要会查字典,在字典码前加一个音码即能输入汉字,不加音码亦可输入,若在学校中普及该字典,学生从小熟知形元号码,将来就能做到人人都可以不经培训直接输入汉字,使汉字输入和西文输入一样方便,“不学就会”。形元码第一、二方案主要采用音形结合码,用汉语拼音第一个字母做为音码,即使遇到生字,也能通过模糊键顺利输入,如果不愿用音码,也可用纯形码,只用十个数字键即可输入,第三方案主要采用纯形码输入。形元码采用三级简码,一级简码字直接标示在键面上。一键输入,二,三级简码字自动显示,不用硬记,初学者亦可使用,重码很少,且能以命令方式消除全部重码,实现无重码输入。形元码兼有词汇码,词语码,专用简码,能高速输入,适合各种专业人员使用。所以形元码是一种既容易学习,又能高速输入。适于各种用户的编码方法,它是本专利技术向全国统一编码努力的一种尝试。在手写汉字识别方面,本专利技术以形元为基础,以本专利技术的数理字形学为形式文法,便于计算机处理,由于该法以形元为基础,且与笔顺无关,所以即使字形不规范,笔顺不正确,但只要图形基本特征不变就能识别。由于该法由计算机根据程序对本文档来自技高网...

【技术保护点】
一种形元汉字信息处理方法,其特征是运用图论原理将汉字字形中的连通线图进行分类而形成的汉字编码体系。

【技术特征摘要】

【专利技术属性】
技术研发人员:王力德
申请(专利权)人:王力德
类型:发明
国别省市:65[中国|新疆]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1