当前位置: 首页 > 专利查询>王欣专利>正文

新型汉语信息ASCII码制造技术

技术编号:12338407 阅读:72 留言:0更新日期:2015-11-18 11:13
本发明专利技术是一种新型汉语信息编码方案,属于中文信息处理领域,本发明专利技术用26个拉丁字母和一个标点符号(:)对汉语语素、词、词组等汉语信息进行ASCII编码,从而提高了计算机的汉语信息处理的工作效率,并降低了计算机进行汉语信息处理的难度和出错的概率,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

【技术实现步骤摘要】
【专利说明】 说明书 (一)
本专利技术是一种汉语信息编码技术方案,属于中文信息处理
(二)
技术介绍
本专利技术的
技术介绍
是中华人民共和国国家标准GB2312-1980《信息交换用汉字编 码字符集?基本集》 (三)
技术实现思路
国家标准GB2312-1980《信息交换用汉字编码字符集?基本集》是计算机系统内部 处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节 表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为"1", 英文字母的机代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如在一些大中 型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用 这种汉字内部标识方法,而必须考虑设计其他形式的标识信息。 国家标准GB2312-1980《信息交换用汉字编码字符集?基本集》只规定了汉字的 编码,而汉语自然语言理解研究则需要对更多的汉语信息例如汉语语素、汉语词、汉语语素 的义位、汉语词的义位进行编码以提高信息处理的效率和避免错误,本专利技术的目的是脱离 汉字,另辟蹊径,以《汉语拼音方案》为基础,直接用ASCII码对汉语信息进行编码。 汉语的声母编码 汉语声母的编码 《汉语拼音方案》中规定汉语拼音中有声母b、p、m、f、zh、ch、sh等21个声母,本 专利技术以《汉语拼音方案》的声母作为声码。 汉语韵母的编码 《汉语拼音方案》中规定汉语拼音中有韵母a、o、e、i、u等35个韵母,本专利技术以《汉 语拼音方案》的韵母作为韵码,因ASCII字符集中无U这个字母的编码,我的解决方式是按 照U = u :的方式编码,所以《汉语拼音方案》的4个韵母U、Ue、Uan、Un分别以U = u :、Ue =u :e、Uan = u :an、Un = u :n的方式编码,其余韵母不作变更,作为韵码。 汉语声调的编码《汉语拼音方案》中规定声调符号为:阴平(_)阳平(/)上声(V)去声(\),声调 符号标在音节的主要母音上,轻声不标,汉语声调有字母式、数字式和符号式3种标调方 式,《汉语拼音方案》采用的是符号式,符号式标调的缺点是将声调符号和韵母复合在一 起,增加了计算机处理汉语信息的难度,数字式标调的缺点是不符合国际惯例,我的解决 方式是用5个拉丁字母符号L g、I、6、y分别表示阴平、阳平、上声、去声、轻声5个声 调,声调标在韵母之后,因ASCII字符集中没有这5个拉丁字母符号,我认为调码可以用 S^a:、S=e:、i=i:、6=o:、V=y:的方式进行编码。 汉语信息的编码 汉字不是汉语的语言单位,语素、词和词组是汉语的语言单位,这是一个语言学常 识,如果我们不首先将汉语的自身规律研究清楚,则汉语信息的编码也就没有科学性可言。 汉语词、语素和词组的区分众说纷纭,吕叔湘先生说过,任何对汉语词、语素和词组的区分 做过一番思索的人都认为这是个很困难的问题,我认为语素是最小的、有意义的、没有词性 的语言单位,词是有意义的、有词性的语言单位,词组是有意义的、没有词性的、可以单独作 为一个句子成分的语言单位,而词性是词所独有的语法性质,词根据词性不同而被划分为 不同的词类。 常用现代汉语词的编码 国家汉办汉语水平考试部和北京语言学院汉语水平考试中心研制的《汉语水平词 汇与汉字等级大纲》收现代常用词8822个,《现代汉语词典》收词65000条,计算机必须像 人脑一样优先处理现代常用词才能提高效率,所以汉语词的编码首先要进行常用现代词的 编码。绝大部分单音节汉语词、少部分双音节和多音节词都有同音词,为区分同音词,我选 定a、e、n、〇、u、w、x、z 8个拉丁字母作为现代汉语常用词编码字母,根据大纲排查,现代汉 语常用词"世"的同音词最多,有7个同音词,根据笔画数多寡和相同笔画数第一笔横竖撇 点折的顺序排列,分别是"市"、"式"、"试"、"事"、"视"、"是"、"室",根据数学上的抽屉定理, 每个现代汉语常用词在调码后加一个现代汉语常用词编码字母,则不会重码,常用现代汉 语词可以按照以下公式编码:现代汉语常用词的编码=声码+韵码+调码+现代汉语常用 词编码字母,现代汉语常用词编码字母的作用是区别现代汉语常用词的同音词,如有的现 代汉语常用词没有同音词则不加现代汉语常用词编码字母。 现代汉语非常用词的编码 现代汉语非常用词的编码可以按照以下公式编码:现代汉语非常用词的编码=声 码+韵码+调码+现代汉语非常用词编码字母,现代汉语非常用词编码字母是aa、ae、an、 ao、au、aw、ax、az等64个拉丁字母组合,现代汉语非常用词编码字母的作用是区别现代汉 语非常用词的同音词,如有的现代汉语非常用词没有同音词则不加现代汉语非常用词编码 字母,如有的现代汉语非常用词的同音词的数量超过64个,可以增加aaa、aae、aao、aau、 aaw、aax、aaz等字母组合作为现代汉语非常用词编码字母。 汉语文言常用词的编码 自五四运动以来,文言文已退出历史舞台,但是很多古代文献都是用文言文记录 的,很多汉语词在古代和现代虽然都是用同一个汉字表示,但是表示的意义其实是不一样 的,例如"豆"古代表示盛食物用的器具,现代汉语"豆"的词义是大豆,大豆在古代不叫豆, 而叫菽,为了汉语自然语言理解研究的需要,必须将汉语文言词与现代汉语词分开编码。文 言词在英语中译为the classical Chinese word,所以汉语文言常用词可以按照以下公式 编码:汉语文言常用词的编码=声码+韵码+调码+c+汉语文言词常用编码字母,汉语文言 词常用编码字母是由a、e、n、〇、u、w、x,z 8个拉丁字母构成,汉语文言常用词编码字母的 作用是区别汉语文言常用词的同音词,如有的汉语文言常用词无同音词则不加汉语文言常 用词编码字母。汉语文言非常用词的编码 汉语文言非常用词的编码可以按照以下公式编码:汉语文言非常用词的编码=声 码+韵码+调码+C+汉语文言非常用词编码字母,汉语文言非常用词编码字母是由aa、ae、an、ao、au、aw、ax、az等64个拉丁字母组合构成的,汉语文言非常用词编码字母的作用是 区别汉语文言非常用词的同音词,如有的汉语文言非常用词无同音词则可以不加汉语文言 词非常用编码字母,如有的汉语文言非常用词的同音词的数量超过64个,则可以增加aaa、 aae、aao、aau、aaw、aax、aaz等拉丁字母组合作为汉语文言词编码字母。 汉语方言词的编码 随着国家推广普通话,方言的使用范围越来越小,但是方言也存储着很多汉语信 息,为了汉语自然语言理解研究的需要,有必要对汉语方言词进行编码,方言在英语中是用 dialect这个词表示的,所以汉语文言词可以按照以下公式编码:汉语方言词的编码=d+ : +声码+韵码+调码+汉语方目词编码字母,汉语方目词编码字母是由a、e、n、〇、u、w、x、z 8个拉丁字母构成,汉语方言词编码字母的作用是区别汉语方言词的同音词,如有的汉语方 言词无同音词则可以不加汉语方言词编码字母,如汉语方言词的同音词的数量超过8个, 可以增加aa、ae、ao、au、an、aw、ax、az等拉丁字母组合作为汉语方言词编码字母。 兄弟民族词的本文档来自技高网...

【技术保护点】
本专利技术是一种新型汉语信息编码方案,属于中文信息处理领域,其特征是:用26个拉丁字母和一个标点符号(:)对汉语语素、词、词组等汉语信息进行ASCII编码,从而提高了计算机汉语信息处理的工作效率,并降低了计算机进行汉语信息处理的难度和出错的概率,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

【技术特征摘要】

【专利技术属性】
技术研发人员:王欣
申请(专利权)人:王欣
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1