当前位置: 首页 > 专利查询>苗玉水专利>正文

汉语语音码全拼和简拼汉语全息信息处理方法技术

技术编号:8271385 阅读:422 留言:0更新日期:2013-01-31 03:36
本发明专利技术是一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,属于计算机汉字汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对汉语信息进行全息处理,能够与ASCCII码100%兼容。本发明专利技术能广泛应用于汉语信息处理、图书出版、汉语教学、农村地区扫盲、对外汉语教学、汉语语音合成和识别、各种格式的计算机文件和网页汉语信息显示、信息搜索、汉语编程,具有汉语合义的各种用于登陆互联网站点的网络域名的标识、商标的标识等领域。本发明专利技术采用的汉语语音码可以直接用于表达汉语信息,特别是为不识或不习惯汉字的人学习、了解、掌握、表达汉语信息和汉语普通话提供了极大的便利。

【技术实现步骤摘要】
本专利技术申请的技术是一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,该信息处理的方法属于计算机汉字汉语信息处理
它用且仅用26个拉丁字母以词为单位对汉语信息进行全息处理,能够与ASCCII码100%兼容。该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、标准西文键盘键入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识等方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法。二、
技术介绍
二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。众所周知,计算机主要是通过处理128个ASCII码符号的方法来进行字符信息处理的,由于26个拉丁字母在ASCII码符集内,因此,使用以英文为代表的,以26个拉丁字母为码元的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。在第一次世界大战之前世界上只有60个国家用26个拉丁字母来拼写表达本国的语言信息,而第二次世界大战后使用26个字母来拼写表达本国语言信息的国家已经达到了 120个,其实这也反映了我们这个星球上的大多数国家在这个问题上的价值取向。由于我国长期来一直未能专利技术出用且仅用26个字母全息拼写表达汉语信息的技术,因此与世界极大多数国家不同,我国记录汉语语言信息仍然使用的是方块表意汉字,它不是一种拼音文字,这就给计算机的汉语和汉字信息处理带来很大的麻烦。尽管1958年中国中央人民政府颁布了《汉语拼音方案》作为表达汉语信息另一种辅助手段,但是由于受到当时历史条件的局限,从现代计算机对信息处理技术的要求来看,《汉语拼音方案》本身还存在以下几个方面的不足第一拼式太长,第二五个声调没有字母化且不在ASCII码的范围内,第三汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,而是上下排列,第四如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。所有这些都不便于计算机对汉语信息的处理。一个便于计算机对汉语信息进行处理的汉语音节的语音码的理想状况是第一每一个汉语音节必须含有声韵调全部信息,第二任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象。第三整个语音码必须采用26个拉丁字母从左到右一维线性排列,这样一方面能与ASCII码100%兼容,另一方面便于计算机信息处理;第四整个语音码必须方便地与汉语拼音、汉语语音和以词为单位的汉字的转换;第五该语音码本身不需要被转换成汉字或汉语拼音或汉语语音就能够方便地直接表达汉语信息,能够非常容易地被人们拼读成汉语标准语音,从而根据这汉语标准语音理解出它所要表达的汉语信息的意义。为此,众多专家,学者在这方面进行了研究和探索,但是由于汉语是一种有声调的非常特别的语言,要想用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(包含一个轻声)进行编码,而且为了让任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象,每一个音节里还必须隐含一个字母化的隔音节符号,这样就使得该技术方案的难度非常大,这也可能是长期以来这个问题一直没有人有效解决的根本原因,据了解,目前只有历史上的中国的文字改革方案中和目前的微软拼音里用阿拉伯数字表示汉语音节的声调,表示汉语语音音节时采用“声母全拼+韵母全拼+数字表示的声调”的方式,这样做是比目前的汉语拼音声调写在韵母上面有进步,解决了上面提到的《汉语拼音方案》本身还存在以下几个方面的不足中的其中一个不足,即汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,但上面提到的《汉语拼音方案》本身还存在以下其它几个方面的主要不足还是未能解决,从汉语信息的编码技术角度看,其实质是未能专利技术出用且仅用26个码元,特别是用且仅用26个 拉丁字母作为码元对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行编码的技术,更不要说专利技术出由于仅用26个拉丁字母作为码元,汉语按词连写后的音节和音节之间的隔音节技术,并用该技术组成的语音码来进行各种汉语信息的计算机汉语信息处理。
技术实现思路
本专利技术的目的是为了通过提供一种全新的根据汉语语音特点,用且仅用26个拉丁字母对组成每一个汉语单词音节的声母、介母、韵母、声调进行科学合理的编码,在汉语语音码全拼时以词为单位的汉语语音码每一个音节依次按“汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号”的顺序编码,在汉语语音码简拼时汉语单词的每一个音节按照“声码+介码+韵码+调码兼隔音节符号”的顺序,以按词连写的方式进行书写笔书写输入、标准西文键盘键入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识等,从而达到用它来直接处理汉语信息,以克服以上不足的目的。众所周知汉语是通过语言中最小的有意义的能够自由运用的单位——汉语单词来进行信息表达和传递的,汉语单词由若干个音节组成(一般一个音节对应一个汉字,因此我们可以将单独运用的一个汉字看作为一个单音节词,以上以下均同),不管每一个音节有多复杂,它都是由声、韵、调三个部份组成。本专利技术采用世界上通用的26个拉丁字母,按同音同形法则对《汉语拼音方案》中的全部声母、介母、韵母、声调进行上述编码,并以一定的顺序书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输,再按照汉语的组词规律将任意多个音节以词为单位,音节与音节之间不用空格连续书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输就完成了汉语单词的书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输,以这些书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输的汉语单词(包括单音节词汉字)为基础就可以进行上述各种方法的计算机汉语信息处理了。例如我们利用本专利技术的方法分别表示以下汉语单词汉字汉语拼音全拼汉语语音码简拼汉语语音码我们 (women) wovmenowovmno 会(hu丨) huiuhuiu 使用 (shT yong) shivyonguxrvydu 汉语 (han yu) hanuyyvhcuyyv 拉丁文(IadTngwen ) IaadingawenvIaadqawnv将以上单词按照所要表达汉语意思的语序以单词为单位,词与词之间用空格隔开依次书写、标准西文键盘键入、印刷、打印、储存、显示、通讯、传输就可以表达一句汉语句子,该汉语句子可以有以下四种表达方式I、直接用本专利技术方法的全拼汉语语音本文档来自技高网
...

【技术保护点】
一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识的方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法,其特征主要包括以下步骤:步骤A:(一)汉语语音码简拼时所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法:注:括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码,以上以下将下列声、韵、调的对照编码表简称为码表(1).用于表示汉语信息的语音码的声母全部采用一个拉丁字母表示,例如采用如下的辅音拉丁字母表示声码的编码:b:(b)??p:(p)??m:(m)??f:(f)??d:(d)????????t:(t)n:(n)??l:(l)??g:(g)??k:(k)??h:(h)j:(zh),(j)????q:(ch),(q)????x:(sh),(x)??r:(r)z:(z)??c:(c)??s:(s)??y:(y)??w:(w)(2).用于表示汉语信息的语音码用26个字母中的一个拉丁字母来表示介母,例如用y来表示原来汉语拼音单韵母和介母中的(ü),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号,比如采用如下介母的编码:i:(i)??u:(u)??y:(ü)(3).用于表示汉语信息的语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码在简拼时用一个拉丁字母来表示,比如用一个辅音字母表示,例如在汉语语音码简拼时采用如下的韵码的编码:a:(a)???o:(o)???e:(e)????i:(i)????u:(u)????y:(ü)z:(ao)??t:(ai)??c:(an)???s:(ou)???w:(ei)???n:(en)k:(ua)??l:(uo)??g:(ang)??d:(ong)??b:(eng)??q:(ing)p:(ng)er:(er)(无声母韵母)(er用西文键盘键入时分别键入E和R两个键)r:(i)[只与(zh)、(ch)、(sh)相拼](4).用于表示汉语信息的语音码其调码可以用五个拉丁字母表示,也可以用5个阿拉伯数字表示,例如采用如下四个拉丁字母和一个汉语不用的字母v表示调码的编码:a:(?)阴平??e:(/)阳平??v:(∨)上声??u:(\)去声??o:(不标)轻声又例如采用如下5个阿拉伯数字表示调码的编码:1:(?)阴平??2:(/)阳平??3:(∨)上声??4:(\)去声??5:(不标)轻声(二)利用上述编码的汉语信息全息表示采用如下的方法:以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,在汉语语音码全拼时除了ü的表示可以采用一个拉丁字母比如y表示外,声母表示和介母表示以及韵母表示均与汉语拼音方案相同,与汉语拼音方案所不同的是调码采用一个拉丁字母或阿拉伯数字表示,且该调码兼隔音节符号,即汉语语音码每一个音节依次按″汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号″的顺序编码,在汉语语音码简拼时依次按″声码+介码+韵码+调码兼隔音节符号″的顺序编码,无论是全拼和简拼,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,组成单词时,单词的每一个音节既可以全部用全拼或简拼音节组成,也可以将组成词的任意一个音节根据需要采用全拼或简拼混合搭配组成,也即在组成单词的多个音节中有的音节可以是简拼,有的音节可以是全拼,以下以上将汉语语音码全拼和简拼统称为汉语语音码或语音码;当汉语信息处于全拼或简拼语音码状态时,其标点符号的用法同英文的标点符号的用法相同;步骤B:(一)根据需要汉字、汉语拼音、汉语语音码全拼、汉语语音码简拼相互之间可以通过汉字汉语拼音与汉语语音码双向转换模块实现双向转换;(二)汉语语音码全拼、汉语语音码简拼均可以通过相应的模块或方法来进行语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网...

【技术特征摘要】
1. 一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识的方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法,其特征主要包括以下步骤 步骤A : (一)汉语语音码简拼时所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法 注括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码,以上以下将下列声、韵、调的对照编码表简称为码表 (1).用于表示汉语信息的语音码的声母全部采用一个拉丁字母表示,例如采用如下的辅音拉丁字母表示声码的编码b (b) P : (P) m (m) f (f) d (d)t (t)η (η) I (I) g (g) k (k) h (h)j (zh), (j) q (ch), (q) x (sh), (x) r (r)z : (z) c : (c) s (s) y (y) w (w) (2).用于表示汉语信息的语音码用26个字母中的一个拉丁字母来表示介母,例如用y来表示原来汉语拼音单韵母和介母中的(U),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号,比如采用如下介母的编码 i (i) u : (u) y (U) (3).用于表示汉语信息的语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码在简拼时用一个拉丁字母来表示,比如用一个辅音字母表示,例如在汉语语音码简拼时采用如下的韵码的编码a (a) ο (o) e (e) i (i) u (u) y (ii)z (ao) t (ai) c (an) s (ou) w (ei) n (en)k (ua) I (uo) g (ang) d (ong) b (eng) q (ing) P (ng) er (er)(无声母韵母)(er用西文键盘键入时分别键入E和R两个键) r:(i)[只与(zh)、(ch)、(sh)相拼] (4).用于表示汉语信息的语音码其调码可以用五个拉丁字母表示,也可以用5个阿拉伯数字表示,例如采用如下四个拉丁字母和一个汉语不用的字母V表示调码的编码 a ㈠阴平e : (/)阳平V : ( V )上声u :⑴去声ο :(不标)轻声 又例如采用如下5个阿拉伯数字表示调码的编码 1:(_)阴平2:(/)阳平3:(V)上声4:(\)去声5 :(不标)轻声 (二)利用上述编码的汉语信息全息表示采用如下的方法以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,在汉语语音码全拼时除了 U的表示可以采用一个拉丁字母比如I表示夕卜,声母表示和介母表示以及韵母表示均与汉语拼音方案相同,与汉语拼音方案所不同的是调码采用一个拉丁字母或阿拉伯数字表示,且该调码兼隔音节符号,即汉语语音码每一个音节依次按汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号的顺序编码,在汉语语音码简拼时依次按声码+介码+韵码+调码兼隔音节符号的顺序编码,无论是全拼和简拼,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,组成单词时,单词的每一个音节既可以全部用全拼或简拼音节组成,也可以将组成词的任意一个音节根据需要采用全拼或简拼混合搭配组成,也即在组成单词的多个音节中有的音节可以是简拼,有的音节可以是全拼,以下以上将汉语语音码全拼和简拼统称为汉语语音码或语音码; 当汉语信息处于全拼或简拼语音码状态时,其标点符号的用法同英文的标点符号的用法相同; 步骤B : (一)根据需要汉字、汉语拼音、汉语语音码全拼、汉语语音码简拼相互之间可以通过汉字汉语拼音与汉语语音码双向转换模块实现双向转换; (二)汉语语音码全拼、汉语语音码简拼均可以通过相应的模块或方法来进行语音识另IJ、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标与域名统一标识的信息处理; (三)汉语语音码全拼、汉语语音码简拼组成的汉语全息信息可以用一切处理西文的软硬件资源来进行信息处理,比如能够用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入; (四)汉语语音码全拼或简拼可以单独也可以与汉字、汉语拼音、外文、少数民族文字以及全拼或简拼进行对照印刷、打印、储存、显示、通讯、信息传输。2.如权利要求I所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于汉语智能分词采用一种主要基于与英语语法的词法句法及其构词法基本相一致的新型汉语语法分析基础上的计算机或嵌入式可移动设备的汉字文本和与《汉语拼音方案》具有一一对应关系的汉语拼音文本的分词方法,其所用的新型汉语语法主要特点是词法方面将汉语的词类分成名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;句法方面将汉语的句子成份划为主语、谓语、宾语、表语、同位语、定语、状语、补语;将句子的复句分为并列复句和主从复句;主从复句又可以分为主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;将汉语动词时态分为过去时、现在时、现在将来时、过去将来时;汉语动词体式分为一般式、进行式、完成式、完成进行式;建立汉语动词被动语态和谓语动词的虚拟语气;汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词; 将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库,将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库,将汉语的构词法的前缀、中缀、后缀、词根分类列入三级词库; 在分词时总是要利用句子或字符串的断点,从断点左右两侧开始对需要切分的汉字或音节进行匹配切分,对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识,等全部完成切词后再撤消该标识回到原来的字体格式; 所利用断点形成的位置主要包括但不限于句子的起首、句子的结尾、各种标点符号、各种表示数量和序号的阿拉伯数字、各种特种符号、原来汉字或音节中合有的空格、上一级词库分词以后所形成的断点; 分词时第一步先用一级词库里的词和前后缀,对需要分词的整个文本中的汉字或音节进行扫描,把经扫描匹配成功的汉字或音节看作一个需要切分的词进行切分,前后缀匹配成功后,以前后缀为界将包括前后缀在内的所有字符当作一个词切分,有不止一种匹配结果时以产生最少孤立汉字或音节的匹配结果为准; 一级词库分完后,从断点的左右两侧依次分别取四个、两个、三个以及一个没有匹配成功的汉字或音节,然后与二级词库里的词进行匹配,如果所取的汉字或音节匹配成功,并且对同一处理对象从断点的左右两侧进行正向和逆向匹配的结果相同,就认为这是一个成功的匹配结果,如果匹配的结果不相同,产生最少孤立汉字或音节的匹配结果被认为是成功的匹配; 二级词库分完词后,在进一步分词时,首先对照三级词库对未匹配成功的汉字或音节进行前缀、后缀、中缀和词根的匹配判断,如果是前缀的话,向后吸收一个孤立汉字或音节构成一个词并作切分,如果后面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是后缀的话,向前吸收一个孤立汉字或音节构成一个词并作切分,如果前面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是中缀的话则吸收前面和后面各一个字或音节组成一个词,如果吸收后导致前面或后面出现一个孤立的没有匹配的汉字或音节时,则要将这个汉字或音节吸收进这个中缀组成的词,一般组成的词的汉字或音节数不超过四个,如果是词根的话,根据它前面能加字或音节,还是后面能加字或音节,还是前后都能加字或音节的情况,分别采用前缀、后缀、中缀的切词方法进行切词,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统自动将该词存入二级词库; 当用以上三个词库切分完后,句子中仍然出现未匹配成功的汉字或音节串,或者虽然匹配成功但属于三个以上连续孤立的汉字或音节串时,把它们合并在一起组成一个词来切分,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统会根据设定自动或经人工确认后将其存入一级词库; 对最后的分词结果和检查规则还可以进行人工干预修改,对人工干预形成的新词根据词的特点经人工确认后分类存入一级词库或二级词库,各级词库里的词还可以进行人工增删,且词库里的词按高频优先分类排列在前的原则排列,当达到一定阀值时,经人工确认系统可以将二级词库里的词分类提升到一级词库,一级词库里的词分类下降到二级词库,以上以下将该智能分词步骤称为分词模块。3.如权利要求I所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于在汉字或汉语拼音转换成汉语语音码时,汉字先转换成汉语拼音,遇异音同形字时将可能的汉语拼音全部列出,汉语拼音则无须先转换,然后再根据码表先转换成相应的汉语音节语音码串,然后在调用预先储存在计算机系统中的分词模块再进行按词切分; 对已经分过词的汉字和汉语拼音转换成汉语语音码后则不必再进行单词切分,仍以原来的单词为单位进行转换; 当汉语语音码需要转换成汉语拼音时,既可以采用查预先储存在计算机系统中的码表,也可以查通过该码表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后输出相应的汉语拼音; 当汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查预先储存在计算机系统中的语音码与以词为单位的汉字对照表、匹配后输出相应的汉字; 遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定; 当需要将全拼的汉语语音码转换成简拼的汉语语音码时,通过查预先存储在计算机中的码表,将全拼的汉语语音码的声母、介母、韵母换成简拼的汉语语音码的声码、介码和韵码,调码保持不变,或调码用阿拉伯数字或一个拉丁字母表示; 反之当需要将简拼的汉语语音码转换成全拼的汉语语音码时,通过查预先存储在计算机中的码表,将简拼的汉语语音码的声码、介码和韵码换成全拼的汉语语音码的声母、介母、韵母,调码保持不变,或用阿拉伯数字或一个拉丁字母表示; 当需要仅将汉语语音码的调码进行阿拉伯数字表示的调码和拉丁字母表示的调码之间进行双向转换时,根据码表将阿拉伯数字表示的调码转换成拉丁字母表示的调码或根据码表将拉丁字母表示的调码转换成阿拉伯数字表示的调码便可,其它全拼汉语语音码的声母、介母、韵母和简拼汉语语音码的声码、介码和韵码则保持不变; 在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态,以上以下将该步骤的方法称为汉字汉语拼音与汉语语音码双向转换模块。4.如权利要求I所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于当汉语语音码转换成汉语语音时,可以分别采用查汉语语音码中的汉语音节与汉语音节语音合成文件对照表、以词为单位的汉语语音码与汉语单词语音合成文件对照表,还可以通过最大匹配法,采用查以最大语段为单位的汉语语音码串和汉语语段语音合成文件对照表输出相应的汉语语音,当将上述汉语语音码或汉语语音码串所分别对应的音节、单词或语段的语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,通过查汉语语音码或汉语语音码串与相应音节、单词或语段的语音合成 文件对照表,可以分别输出相应的汉语特定人、中国方言、少数民族语言的语音,当合成外语语音时,要进行查以词、词组或短语为单位的汉语语音码和相应外语单词、外语词组或外语短语语音合成文件对照表输出相应的外语单词、外语词组或外语短语的语音,对需要输入汉语每一个音节的声母、介母、韵母和声调信息才能进行汉语语音合成的系统,可以根据码表将汉语语音码转换成汉语拼音声母、介母、韵母和声调的信息后,再输入到汉语语音合成系统中进行汉语语音合成,当对汉语语音码文章中的标点符号和移行号进行语音合成时,我们只要将相应的预先储存在计算机中的汉语的六种点号七种标号和一个移行号的声音文件提取出来,用声音播放软件进行播放便可; 当该语音合成文件是汉语的语音合成文件时,则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音,当该语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、少数民族语言的相应的标点符号或移行号的声音,当输入的是用汉字或汉语拼音表达的汉语信息时,汉字或汉语拼音可以通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块,先转换成全拼或简拼汉语语音码再进行上述汉语、汉语特定人、中国方言、少数民族语言、外语单词、外语词组或外语短语的语音转换; 在汉语语音转换成汉语语音码时,汉语语音识别系统可以依次分别将汉语语段、汉语单词、汉语音节作为识别的基元,通过查找预先储存在计算机中的汉语语段语音模板和汉语语段语音码对照表、汉语单词语音模板和汉语单词语音码对照表、汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语语段语音码、汉语单词语音码、汉语音节语音码,语音连续输入时便依次分别得到连续的汉语语段语音码串、汉语单词语音码串、汉语音节语音码串,对上述得到汉语音节语音码串通过预先储存在计算机系统中的分词模块进行按词切分,对已经分过词的汉语单词语音码串和汉语语段语音码串则不必再进行单词切分,对切分出的单词采取同一单词的音节与音节之间连写,单词与单词之间空格的方式表示,当汉语语音码需要进一步转换成汉字或汉语拼音时,通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块转换输出相应的汉字或汉语拼音,对于汉语语音是带某种方言口音的汉语或某一种中国的方言,只要这种中国的方言的音节或单词或语段分别与汉语音节或单词或语段具有某种对应关系,我们通过以上相类似的方法即通过查找预先储存在计算机中的带某种方言口音的汉语的汉语音节或单词或语段的语音模板与汉语音节或单词或语段语音码对照表,以及具有某种对应关系的方言音节或单词或语段的语音模板和汉语语音音节码或单词或语段对照表,匹配后识别出相应的汉语音节或单词或语段语音码串,就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别,实现该带某种方言口音的汉语或方言与汉语语音码的转换,以上以下将该步骤方法称为汉语语...

【专利技术属性】
技术研发人员:苗玉水
申请(专利权)人:苗玉水
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1