当前位置: 首页 > 专利查询>王欣专利>正文

汉语普通话信息ASCⅡ体系码制造技术

技术编号:14530423 阅读:74 留言:0更新日期:2017-02-02 13:04
本发明专利技术是一种汉语普通话信息编码技术方案,属于中文信息处理技术领域,本发明专利技术用ASCII码对汉语普通话语素、汉语普通话词、汉语普通话语素和词的义位、汉语普通话自由词组的义丛、汉语普通话句子的表述等汉语普通话信息进行编码,并将这些编码联系为一个编码体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

【技术实现步骤摘要】
(一)
本专利技术是一种汉语普通话计算机信息编码技术方案,属于中文信息处理
(二)
技术介绍
本专利技术的
技术介绍
是中华人民共和国国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》、《新型汉语信息ASCII码》和《新型汉语普通话信息ASCII码》。(三)
技术实现思路
国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部标识方法,而必须考虑设计其他形式的标识信息。国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只规定了汉字的编码,为了中文信息处理技术发展的需要,必须要对语素、词、语素的义位、词的义位等汉语普通话信息进行编码来拓展中文信息处理技术的广度和深度,本编码的独特性在于另辟蹊径以《汉语拼音方案》为基础,直接用ASCII码对汉语普通话信息进行编码。《新型汉语信息ASCII码》(申请号201510442110.8)是本人2015年7月24日申请的专利技术专利,该申请在31卷46期2015年11月18日专利公报上予以发布,这项专利的编码方法存在一些瑕疵,例如:将外来词、非语素汉字等汉语信息单独编码,编码方式过于繁琐,所以有必要专利技术新的、简便的编码方法来实现直接用ASCII码对汉语普通话信息进行编码。《新型汉语普通话信息ASCII码》(申请号201610239869.0)是本人2016年4月18日申请的专利技术专利,该专利已通过国家知识产权局的初步审查,目前正由国家知识产权局进行实质审查,该专利的编码方法没有对汉语普通话自由词组的义丛和汉语普通话句子的表述等汉语普通话语义信息进行编码的方法,所以还需要改进调整以便进一步完善中文信息处理技术的编码体系,进一步拓展中文信息处理技术的广度和深度。汉语声母的编码《汉语拼音方案》中规定汉语拼音中有声母“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等21个声母,本专利技术以《汉语拼音方案》的声母作为声码。汉语韵母的编码《汉语拼音方案》中规定汉语拼音中有韵母“a”、“o”、“e”、“i”、“u”等35个韵母,本专利技术以《汉语拼音方案》的韵母作为韵码,因ASCII字符集中无ü这个字母的编码,我的解决办法是按照“ü”=u:的方式编码,所以《汉语拼音方案》的4个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=u:、“üe”=u:e、“üan”=u:an、“ün”=u:n的方式编码,其余韵母不作变更,作为韵码。汉语声调的编码《汉语拼音方案》中规定声调符号为:阴平(-)阳平(/)上声(v)去声(\\),声调符号标在音节的主要母音上,轻声不标,这种标调方法的缺点是将声调符号和韵母复合在一起,增加了计算机处理汉语普通话信息的难度,我的解决办法是用5个拉丁字母符号分别表示阴平、阳平、上声、去声、轻声这5个声调,声调标在韵母之后,因ASCII字符集中没有这5个拉丁字母符号,我认为调码可以用的方法进行编码。汉语普通话词编码汉字不是汉语的语言单位,语素、词和词组是汉语的语言单位,这是一个语言学常识,如果我们不首先将汉语的自身规律研究清楚,则汉语普通话信息的编码也就没有科学性可言。汉语词、语素和词组的区分众说纷纭,吕叔湘先生说过,任何对汉语词、语素和词组的区分做过一番思索的人都认为这是个很困难的问题,我认为语素是最小的、有意义的、没有词性的语言单位,词是有意义的、有词性的语言单位,词组是有意义的、没有词性的、可以单独作为一个句子成分的语言单位,词性是词所独有的语法性质,词根据词性不同而被划分为不同的词类。汉语词汉语普通话词可以简单地分为单音节汉语词、双音节汉语词和多音节汉语词,除个别特殊的汉语单音节词外(例如:“嗲”没有同音词),一般每个汉语单音节词都有数量不等的同音词,汉语双音节词和多音节词的同音词则少得多,我的解决方案是:首先将汉语普通话词的所有同音词用汉字区分开来,按照区分同音词的汉字的笔画数多寡(笔画数少的在前,笔画数多的在后)和相同笔画数第一字第一笔笔形横竖撇点折的顺序排列(第一字第一笔笔形相同的则按次笔笔形横竖撇点折的顺序排序,以此类推),根据数学上的抽屉定理,每个同音词在调码后加一个编码后缀,则不会重码,所以汉语普通话词可以按照以下公式编码:汉语普通话词编码=声码+韵码+调码+汉语普通话词编码后缀,汉语普通话词编码后缀的作用是区别汉语普通话词的同音词,如有的汉语普通话词没有同音词,可省略汉语普通话词编码后缀,为区分汉语普通话词不同的同音词,我选择a、e、n、o、u、w、x、z这8个拉丁字母,作为汉语普通话词编码后缀,如同音词数量超过8个则可以用aa、ae、an、ao、au、aw、ax、az等拉丁字母组合作为汉语普通话词编码后缀来区别同音词,如同音词的数量超过72个则可以用aaa、aae、aao、aau、aaw、aax、aaz等拉丁字母组合作为汉语普通话词编码后缀来区别同音词。拉丁词的编码在汉语普通话中,有一类包含拉丁字母和阿拉伯数字的词,例如:CT、HSK、110、114、C4ISR、MP3等,我们可以把这类词称之为拉丁词,这类词已广泛用于汉语普通话的口语和出版物中,已成为汉语词汇的一部分,对于这类词我们不用添加编码前缀或编码后缀,直接引用即可,例如:“CT”这个汉语少数词的就是CT,“MP3”这个拉丁词的编码是MP3。汉语普通话词义位编码义位是由语汇形式表示的、独立的、概括的、固定的语义单位,语汇形式包括语素、词和固定词组,英语中使用的是sememe这一术语,义位与义项是有区别又有联系的概念,词典学家将用于书面的、收录在词典之中的每个语素、词和固定词组的每个义项都开列了条目,这些义项就成了语义学家研究的义位,严格地讲义位是属于语义学的范畴,义项是属于词典学的范畴,义位与义项还是有区别的,例如:“察”是一个汉语普通话词,在《现代汉语词典》中共有2个义项:①仔细看;调查:观~②词性:名词,词义:姓,在这2个义项中,第1个义项中的“察”是语素,所以这个义项可以被认为是语素“察”的义位,但是不能被视为汉语普通话词“察”的义位。义位的排列可以有不同的原则,如使用频率原则、逻辑原则和历史原则,很难用一个原则将所有的汉语普通话语素、词和固定词组的义位进行排序,本专利技术中语素、词和固定词组义位的排序主要采用使用频率原则,采用使用频率原则的优点是可以提高计算机处理汉语普通话信息的效率,优先从汉语普通话义位数据库中选择出汉语普通话语素、词和固定词组最常用的义位,当采用使用频率原则无法为一部分汉语普通话语素、词和固定词组的义位进行排序时,可以适用逻辑原则,当逻辑原则也不能适用时,可以适用历史原则。义位历史原则排序方法是以分析每个汉语普通话语素、词、固定词组的义位在国家语委现代汉语语料库中出现的时间顺序来为每个义位排序,在语料库中出现时间早的义位排在前面,在语料库中出现时间晚的义位排在本文档来自技高网...

【技术保护点】
本专利技术是一种汉语普通话信息编码技术方案,属于中文信息处理技术领域,其特征是:用ASCII码对汉语普通话语素、汉语普通话词、汉语普通话语素和词的义位、汉语普通话自由词组的义丛、汉语普通话句子的表述等汉语普通话信息进行编码,并将这些编码联系为一个编码体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

【技术特征摘要】
1.本发明是一种汉语普通话信息编码技术方案,属于中文信息处理技术领域,其特征是:用ASCII码对汉语普通话语素、汉语普通话词、汉语普通话语素和词的义位、汉语普通话自由词组的义丛、汉语普通话句子...

【专利技术属性】
技术研发人员:王欣
申请(专利权)人:王欣
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1