当前位置: 首页 > 专利查询>江荻专利>正文

一种汉语声韵音位汉字编码方法技术

技术编号:2892606 阅读:220 留言:0更新日期:2012-04-11 18:40
汉语声韵音位编码将声位和韵位作为编码码应用,又将同一声位或韵位切分为不同的结构音位形式。汉字切分按字形二分或二分取小方式进行。高频字采用无重码、全码方式输入,动态方式下不必记忆高频字种而实施盲打输入。二码和三码低码字也无重码。词语编码在任何情况下均为全码方式。(*该技术在2012年保护过期,可自由使用*)

【技术实现步骤摘要】
专利说明 本专利技术涉及一种音形汉语字词输入技术及其键盘设计。 现有音码设计均以汉语字词或汉字部件表现的语音作为编码码元,所用的语音表示法是1958年制定的拼音方案。拼音方案的核心是音素化拼音字母表示法(《拼音方案》第一部分),其理论基础是西方现代音位学理论。《拼音方案》同时吸收了中国传统的声母、韵母以及声调概念,并用音素化字母建立了字母组合式声韵母表示法(《拼音方案》第二、三部分)。这两种表示法就是汉语键盘输入拼音音码的元表示法。拼音音码方案采用拉丁字母符号,并与国际通用的标准小键盘键位符号保持一致,具有一定的大众基础。不足之处是以西方音位理论为基础的音素化拼音字母全拼或纯拼音码方案的码元单位缺乏汉民族认知心理基础,其音素字母单位与汉民族几千年语言运用中形成的语音单位不一致,这就给方案的易学、易用、易记造成难以逾越的障碍。而以拼音字母组合形式构成的声母和韵母双拼、简拼或三拼音码方案虽具有一定的实用性,但缺乏支撑理论。声母和韵母甚至不是现代语言学中的任何一级语言单位。这给今后国家标准键盘表示法的制定、规范应用和理论建设均造成困难。 分析字形是对汉字客观属性的发掘,但本编码方案更重视发掘作为主体的人对作为客体图形符号特征的汉字客体的心理感知过程。汉字认知心理有以下特点 A模糊性。中外学者对字母图形和汉字图形的知觉研究证明,在字形识别过程中存在局部特征和完形特征的认知差别。人们往往依据从字形获取的大体轮廓(完形特征)模糊印象而进行识别。就汉字论,首尾笔画、外框、偏旁等反映轮廓的完形特征在局部特征(如中间部件和精细笔画)得到清晰的辩认之前已经得到提取。阅读中,汉字处在语句大字符串情景中,视觉迅速扫描和心理迅即感知都充分说明人们心理对字形的模糊识别过程。 B二分性。这项性质一直很少直接的充分研究,但相关研究成果已十分丰硕。二分性的重要基础是聚合性概念,汉字以形声字为主,据研究,在国家颁布的《现代汉语通用字表》的7000汉字中,形声结构的字共5636字,占80%强。形声字由形符与声符构成,各种形符或声符具有共同的特征,在人们认知心理中形符与声符构成汉字的两个聚合类,因此识别汉字时很大程度上以二合及二分的识别模式进行。另外,哲学上的二元辩证观及逻辑上的二分性均支持汉字字形的二分观念。 C习惯性。习惯性是一种经验,是模糊性和二分性在实践中的反映。如民间对同音姓氏的辩析弓-长-张;立-早-章;古-月-胡;言-午-许。俗语源字有“人言为信;羊大为美;贝乏为贬;三人为众;立女为妾”等等。行话或黑语有“丘八为兵”等等。 本专利技术的目的在于避免上述现有技术中的不足之处而提供一种通用标准键盘上输入汉语字词的方法满足人们按语音盲打输入的要求。 本专利技术依据声韵音位学理论及其方法而建立,主要是将汉语字词语音(音节)分为声位和韵位(及调位),编码中将声位和韵位作为编码码元应用。 一、支撑理论 汉语声韵音位理论是基于历时和共时语言系统所存在的客观语言单位而提出的。汉语音位系统必须建立在汉民族对语言单位归纳的认知基础上,真实反映出音位在汉民族语言心理上具有的客观真实性、可感知性和可识别性。为此我们提出了汉语的三大音位类声位、韵位和调位。下面列出声位和韵位,并用通行的拉丁字母来表示(也可用其它符号形式表示)。 声位符号(括号内为国际音标) bpdtgk z c zh[t s] ch[t s'] j[t ] q[t '] f s sh[ s] r[z ] x[ ] h mn l 韵位符号(括号内为国际音标) iuü aiaua (o)uo eieüe -i[ ]/[ ] er[ ] aiuai eiuei aoiao ouiou anianuanüan en[ n] in uen[u n] ün angianguang eng[ η] ing ueng[u η] (ongiong 三、码元设计 汉语声韵音位具有特定的组合关系,见下表 为了增加区别性码元,离散同音现象和均衡键位负载量,可根据声韵音位组合关系将同一声位或韵位分为不同的结构音位形式元音位和变音位以及代音位。变音位采用在元音位前后加特殊符合来表示,本编码在元音位前后加“-”表示。 1.凡与u或u起首读音形式和ü或ü起首读音形式韵位组合的声位,取变声位作为码元,反之则取元声位作为码元。 2.凡与非u或u起首读音形式和非ü或ü起首读音形式韵位组合的零声位(即仅有韵位形式的音节),取韵位起始的拉丁字母符号作为代声位。 3.凡与u或u起首读音形式韵位组合的零声位,取拉丁字母W作为代声位。 4.凡与ü或ü起首读音形式韵位组合的零声位,取拉丁字母符号y作为代声位。本项同时要满足第一条的规则。 5.凡与咝音声位(即z、c、s、zh、ch、sh、r、i、q、x)组合的i韵位,取变韵位作为码元。本编码以-i形式表示。 6.几个特殊的自成音节的声位(如普通话m、n,广州话η等),取其本身作为变音位形式码元。 因此,本编码现有作为码元的元声位、变声位及代声位共计48个,声位与韵位的组合规律见下表 三、键位设计 考虑到汉语中方音的现实存在,本编码按方音差别将音位码设计为普通话方案、南北通用方案和粤方言方案及其它方言方案。键盘设计见附图,附图说明图1是声韵音位键位分布图(通用版);图2是声韵音位键位分布图(北方版)。 在普通话方案中,本专利技术巧妙地将具有互补关系的韵位排列在同一键位上,如ong和ueng,ia和ua,ve和uei等,将视觉符形相近的韵位排列在同一键位上,如vn和un,van和uan等,将读音相近的放在同一键位上,如o和uo,-m和-n等。同时还将卷舌音元声位与相应的非卷舌音元声位安排在同一键位上,或者卷舌音变声位与非卷舌音元声位排在同一键位上,既便于记忆,又易与通用版衔接,如sh和s-,ch和c-,zh和z-,s与sh-,c与ch-,z与zh-。此外,本编码还遵操作者击键规律研究的最新成果,将高频与低频键位调到最佳状态。 四、汉字部件类 从字形上分析,所有汉字均由部件构成,其结构如下 独体型汉字以笔画作为部件,其部件类型为 名称横(提)竖(竖勾)撇捺(点)折 形式 一 丨亅 丿 丶 乙  独体型汉字以起始笔画作为起笔部件,结束笔画作为末笔部件。 笔画在且仅在独体型汉字类作为部件。具有歧义的部件“-”在独体型汉字类定为部件“-”(横,hen),在非独体型汉字类定为“-”(壹,yi)。 本编码将成字部件和非成字可读部件作为取码信息源,除个别特殊部件赋予可读音外,其他不可读部件均不成为信息源部件。 五、汉字切分原则 1.基本原则(二分原则) 所有汉字均按字型切分成两个部件。起笔笔画所在部件叫起笔部件,末笔笔画所在部件叫末笔部件。 2.成字原则(或可读原则) 切分出的各部件要成字或成可本文档来自技高网...

【技术保护点】
一种汉语声韵音位汉字编码方法,其主要特征是将汉字字词语音(音节)分为声位和韵位(及调位),编码中将声位和韵位作为编码码元应用,将同一声位或韵位切分为不同的结构音位形式:元音位、变音位、代音位,即同一音位在不同条件下可切分为两个或多个的变音位形式,对声位和韵位(及调位)可进一步作多层次变音位形式切分。

【技术特征摘要】

【专利技术属性】
技术研发人员:江荻
申请(专利权)人:江荻
类型:发明
国别省市:81[中国|广州]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1