当前位置: 首页 > 专利查询>王欣专利>正文

新型汉语普通话信息ASCII码制造技术

技术编号:13745947 阅读:67 留言:0更新日期:2016-09-23 23:29
本发明专利技术是一种汉语普通话信息编码技术方案,属于中文信息处理领域,本发明专利技术用26个拉丁字母和一个标点符号(:)对语素、词、词组等汉语普通话信息进行ASCII编码,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

【技术实现步骤摘要】
(一)
本专利技术是一种汉语普通话信息编码技术方案,属于中文信息处理
(二)
技术介绍
本专利技术的
技术介绍
是中华人民共和国国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》和《新型汉语信息ASCII码》(三)
技术实现思路
国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部标识方法,而必须考虑设计其他形式的标识信息。国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只规定了汉字的编码,为了中文信息处理技术发展的需要,必须要对语素、词、语素的义位、词的义位等汉语普通话信息进行编码来拓展中文信息处理技术的广度和深度,本编码的独特性在于另辟蹊径以《汉语拼音方案》为基础,直接用ASCII码对汉语普通话信息进行编码。《新型汉语信息ASCII码》(申请号或专利号201510442110.8)是本人2015年7月24日申请的专利技术专利,该申请在31卷46期2015年11月18日专利公报上予以发布,这项专利的编码方法存在一些瑕疵,例如对古汉语词和方言词等汉语信息进行编码,没有考虑到古汉语和方言与汉语普通话的巨大差异,还有将外来词、非语素汉字等汉语信息单独编码,编码方式过于繁琐,所以有必要专利技术新的、简便的编码方法来实现直接用ASCII码对汉语普通话信息进行编码。汉语声母的编码《汉语拼音方案》中规定汉语拼音中有声母“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等21个声母,本专利技术以《汉语拼音方案》的声母作为声码。汉语韵母的编码《汉语拼音方案》中规定汉语拼音中有韵母“a”、“o”、“e”、“i”、“u”等35个韵母,本专利技术以《汉语拼音方案》的韵母作为韵码,因ASCII字符集中无ü这个字母的编码,我的解决办法是按照“ü”=u:的方式编码,所以《汉语拼音方案》的4个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=u:、“üe”=u:e、“üan”=u:an、“ün”=u:n的方式编码,其余韵母不作变更,作为韵码。汉语声调的编码《汉语拼音方案》中规定声调符号为:阴平(-)阳平(/)上声(v)去声(\\),声调符号标在音节的主要母音上,轻声不标,汉语声调有字母式、数字式和符号式3种标调方式,《汉语拼音方案》采用的是符号式,符号式标调的缺点是将声调符号和韵母复合在一起,增加了计算机处理汉语普通话信息的难度,数字式标调的缺点是不符合国际惯例,我的解决办法是用5个拉丁字母符号分别表示阴平、阳平、上声、去声、轻声5个声调,声调标在韵母之后,因ASCII字符集中没有这5个拉丁字母符号,我认为调码可以用的方式进行编码。汉语普通话常用词的编码汉字不是汉语的语言单位,语素、词和词组是汉语的语言单位,这是一个语言学常识,如果我们不首先将汉语的自身规律研究清楚,则汉语普通话信息的编码也就没有科学性可言。汉
语词、语素和词组的区分众说纷纭,吕叔湘先生说过,任何对汉语词、语素和词组的区分做过一番思索的人都认为这是个很困难的问题,我认为语素是最小的、有意义的、没有词性的语言单位,词是有意义的、有词性的语言单位,词组是有意义的、没有词性的、可以单独作为一个句子成分的语言单位,词性是词所独有的语法性质,词根据词性不同而被划分为不同的词类。国家汉办汉语水平考试部和北京语言学院汉语水平考试中心研制的《汉语水平词汇与汉字等级大纲》收汉语普通话常用词8822个,《现代汉语词典》收汉语普通话词65000多条,计算机必须像人脑一样优先处理常用词才能提高效率,所以汉语普通话汉语信息的编码首先要进行常用词的编码。在汉语普通话中绝大部分单音节汉语词、少部分双音节和多音节词都有同音词,为区分同音词,我选定a、e、n、o、u、w、x、z这8个拉丁字母作为汉语普通话常用词编码字母,根据《汉语水平词汇与汉字等级大纲》大纲排查,汉语普通话常用词“世”的同音词最多,有7个同音词,根据笔画数多寡和相同笔画数第一笔横竖撇点折的顺序排列,分别是“市”、“式”、“试”、“事”、“视”、“是”、“室”,根据数学上的抽屉定理,每个同音词在调码后加一个编码字母,则不会重码,所以汉语普通话常用词可以按照以下公式编码:汉语普通话常用词的编码=声码+韵码+调码+汉语普通话常用词编码字母,汉语普通话常用词编码字母的作用是区别汉语普通话常用词的同音词,如有的汉语普通话常用词没有同音词,可省略汉语普通话常用词编码字母。汉语普通话非常用词的编码汉语普通话非常用词的编码可以按照以下公式编码:汉语普通话非常用词的编码=声码+韵码+调码+汉语普通话非常用词编码字母,汉语普通话非常用词编码字母是aa、ae、an、ao、au、aw、ax、az等64个拉丁字母组合,汉语普通话非常用词编码字母的作用是区别汉语普通话非常用词的同音词,如有的汉语普通话非常用词没有同音词可省略汉语普通话非常用词编码字母,如有的汉语普通话非常用词的同音词的数量超过64个,可以增加aaa、aae、aao、aau、aaw、aax、aaz等字母组合作为汉语普通话非常用词编码字母。汉语普通话常用词的义位编码义位是由语汇形式表示的、独立的、概括的、固定的语义单位,语汇形式包括语素、词和词组,英语中使用的是sememe这一术语,义位与义项是有区别又有联系的概念,词典学家将用于书面的、收录在词典之中的每个词和词组的每个义项都开列了条目,这些义项就成了语义学家研究的义位,严格地讲义位是属于语义学的范畴,义项是属于词典学的范畴,词典的编纂可以有不同的编纂原则,如历史原则、逻辑原则和使用频率原则,因而在不同的词典中义项的排列顺序不是固定不变的,本专利技术中义位的排序采用历史原则,使用历史原则最大的优点是可以保持义位排序的稳定,义位历史原则排序方法是以每个汉语普通话语素、词、词组的义位在国家语委现代汉语语料库中出现的时间顺序来为每个义位排序,在语料库中出现时间早的义位排在前面,在语料库中出现时间晚的义位排在后面,国家语委现代汉语语料库1991年12月立项,1998年底建成,为避免新的语料加入造成义位排序变更,可以规定以1998年12月31日为界,在1998年12月31日以后加入的新语料不得影响以前义位的排序,新语料中的义位必须排在老语料义位的后面。词大多有2个或2个以上的义位,为了中文信息技术发展的需要,必须要对汉语普通话常用词的义位进行编码,为区分汉语普通话中文常用词不同的义位,我选定b、d、f、h、i、k、l、t这8个拉丁字母+字母s作为汉语普通话常用词义位的编码字母,字母s为英语义位sememe的简写,为避免拼读错误,字母s和声母之间用:隔开,有的汉语普通话常用词(例如:“爱情”)没有声母,则字母s和这些词的韵母之间用:隔开,如有的汉语普通话常用词的义位超过8个,则采用b、d、f、h、i、k、l、t 8个拉丁字母+ss+:来进行编码,如本文档来自技高网
...

【技术保护点】
本专利技术是一种汉语普通话信息编码技术方案,属于中文信息处理领域,其特征是:用26个拉丁字母和一个标点符号(:)对语素、词、词组等汉语普通话信息进行ASCII编码,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

【技术特征摘要】
1.本发明是一种汉语普通话信息编码技术方案,属于中文信息处理领域,其特征是:用26个拉丁字母和一个标点符号(:)对语素、词、词组等汉语普通话信息进...

【专利技术属性】
技术研发人员:王欣
申请(专利权)人:王欣
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1