【技术实现步骤摘要】
本专利技术申请的技术是一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,该信息处理的方法属于计算机汉字汉语信息处理
它用且仅用26个拉丁字母以词为单位对汉语信息进行全息处理,能够与ASCCII码100%兼容。该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、标准西文键盘键入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识等方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法。二、
技术介绍
二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。众所周知,计算机主要是通过处理128个ASCII码符号的方法来进行字符信息处理的,由于26个拉丁字母在ASCII码符集内,因此,使用以英文为代表的,以26个拉丁字母为码元的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。在第一次世界大战之前世界上只有60个国家用26个拉丁字母来拼写表达本国的语言信息,而第二次世界大战后使用26个字母来拼写表达本国语言信息的国家已经达到了 120个,其实这也反映了我们这个星球上的大多数国家在这个问题上的价值 ...
【技术保护点】
一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识的方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法,其特征主要包括以下步骤:步骤A:(一)汉语语音码简拼时所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法:注:括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码,以上以下将下列声、韵、调的对照编码表简称为码表(1).用于表示汉语信息的语音码的声母全部采用一个拉丁字母表示,例如采用如下的辅音拉丁字母表示声码的编码:b:(b)??p:( ...
【技术特征摘要】
1. 一种计算机或嵌入式计算机系统汉语语音码全拼和简拼汉语全息信息处理方法,以下将计算机或嵌入式计算机系统简称为计算机或计算机系统,该信息处理的方法包括但不限于汉语全息信息用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入、多样信息输入、印刷、打印、储存、显示、通讯、信息传输、语音识别、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标的标识的方法,它是建立在使用世界通用的计算机或嵌入式计算机系统基础上的方法,该汉语全息信息处理方法所采用的汉语语音码有全拼和简拼两种拼写法,其特征主要包括以下步骤 步骤A : (一)汉语语音码简拼时所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法 注括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码,以上以下将下列声、韵、调的对照编码表简称为码表 (1).用于表示汉语信息的语音码的声母全部采用一个拉丁字母表示,例如采用如下的辅音拉丁字母表示声码的编码b (b) P : (P) m (m) f (f) d (d)t (t)η (η) I (I) g (g) k (k) h (h)j (zh), (j) q (ch), (q) x (sh), (x) r (r)z : (z) c : (c) s (s) y (y) w (w) (2).用于表示汉语信息的语音码用26个字母中的一个拉丁字母来表示介母,例如用y来表示原来汉语拼音单韵母和介母中的(U),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号,比如采用如下介母的编码 i (i) u : (u) y (U) (3).用于表示汉语信息的语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码在简拼时用一个拉丁字母来表示,比如用一个辅音字母表示,例如在汉语语音码简拼时采用如下的韵码的编码a (a) ο (o) e (e) i (i) u (u) y (ii)z (ao) t (ai) c (an) s (ou) w (ei) n (en)k (ua) I (uo) g (ang) d (ong) b (eng) q (ing) P (ng) er (er)(无声母韵母)(er用西文键盘键入时分别键入E和R两个键) r:(i)[只与(zh)、(ch)、(sh)相拼] (4).用于表示汉语信息的语音码其调码可以用五个拉丁字母表示,也可以用5个阿拉伯数字表示,例如采用如下四个拉丁字母和一个汉语不用的字母V表示调码的编码 a ㈠阴平e : (/)阳平V : ( V )上声u :⑴去声ο :(不标)轻声 又例如采用如下5个阿拉伯数字表示调码的编码 1:(_)阴平2:(/)阳平3:(V)上声4:(\)去声5 :(不标)轻声 (二)利用上述编码的汉语信息全息表示采用如下的方法以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,在汉语语音码全拼时除了 U的表示可以采用一个拉丁字母比如I表示夕卜,声母表示和介母表示以及韵母表示均与汉语拼音方案相同,与汉语拼音方案所不同的是调码采用一个拉丁字母或阿拉伯数字表示,且该调码兼隔音节符号,即汉语语音码每一个音节依次按汉语拼音相同的声母+汉语拼音相同的介母+汉语拼音相同的韵母+调码兼隔音节符号的顺序编码,在汉语语音码简拼时依次按声码+介码+韵码+调码兼隔音节符号的顺序编码,无论是全拼和简拼,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,组成单词时,单词的每一个音节既可以全部用全拼或简拼音节组成,也可以将组成词的任意一个音节根据需要采用全拼或简拼混合搭配组成,也即在组成单词的多个音节中有的音节可以是简拼,有的音节可以是全拼,以下以上将汉语语音码全拼和简拼统称为汉语语音码或语音码; 当汉语信息处于全拼或简拼语音码状态时,其标点符号的用法同英文的标点符号的用法相同; 步骤B : (一)根据需要汉字、汉语拼音、汉语语音码全拼、汉语语音码简拼相互之间可以通过汉字汉语拼音与汉语语音码双向转换模块实现双向转换; (二)汉语语音码全拼、汉语语音码简拼均可以通过相应的模块或方法来进行语音识另IJ、语音合成、汉语智能分词、机器翻译、信息搜索、各种计算机文件格式和网页信息表示及显示、与各种网络合法域名前后缀组成网络域名用于登陆相应网站、汉字汉语编程、商标与域名统一标识的信息处理; (三)汉语语音码全拼、汉语语音码简拼组成的汉语全息信息可以用一切处理西文的软硬件资源来进行信息处理,比如能够用能够识别西文的书写笔书写输入、OCR西文光学扫描输入、标准西文键盘键入、西文字母语音识别输入; (四)汉语语音码全拼或简拼可以单独也可以与汉字、汉语拼音、外文、少数民族文字以及全拼或简拼进行对照印刷、打印、储存、显示、通讯、信息传输。2.如权利要求I所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于汉语智能分词采用一种主要基于与英语语法的词法句法及其构词法基本相一致的新型汉语语法分析基础上的计算机或嵌入式可移动设备的汉字文本和与《汉语拼音方案》具有一一对应关系的汉语拼音文本的分词方法,其所用的新型汉语语法主要特点是词法方面将汉语的词类分成名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;句法方面将汉语的句子成份划为主语、谓语、宾语、表语、同位语、定语、状语、补语;将句子的复句分为并列复句和主从复句;主从复句又可以分为主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;将汉语动词时态分为过去时、现在时、现在将来时、过去将来时;汉语动词体式分为一般式、进行式、完成式、完成进行式;建立汉语动词被动语态和谓语动词的虚拟语气;汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词; 将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库,将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库,将汉语的构词法的前缀、中缀、后缀、词根分类列入三级词库; 在分词时总是要利用句子或字符串的断点,从断点左右两侧开始对需要切分的汉字或音节进行匹配切分,对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识,等全部完成切词后再撤消该标识回到原来的字体格式; 所利用断点形成的位置主要包括但不限于句子的起首、句子的结尾、各种标点符号、各种表示数量和序号的阿拉伯数字、各种特种符号、原来汉字或音节中合有的空格、上一级词库分词以后所形成的断点; 分词时第一步先用一级词库里的词和前后缀,对需要分词的整个文本中的汉字或音节进行扫描,把经扫描匹配成功的汉字或音节看作一个需要切分的词进行切分,前后缀匹配成功后,以前后缀为界将包括前后缀在内的所有字符当作一个词切分,有不止一种匹配结果时以产生最少孤立汉字或音节的匹配结果为准; 一级词库分完后,从断点的左右两侧依次分别取四个、两个、三个以及一个没有匹配成功的汉字或音节,然后与二级词库里的词进行匹配,如果所取的汉字或音节匹配成功,并且对同一处理对象从断点的左右两侧进行正向和逆向匹配的结果相同,就认为这是一个成功的匹配结果,如果匹配的结果不相同,产生最少孤立汉字或音节的匹配结果被认为是成功的匹配; 二级词库分完词后,在进一步分词时,首先对照三级词库对未匹配成功的汉字或音节进行前缀、后缀、中缀和词根的匹配判断,如果是前缀的话,向后吸收一个孤立汉字或音节构成一个词并作切分,如果后面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是后缀的话,向前吸收一个孤立汉字或音节构成一个词并作切分,如果前面是两个匹配好的汉字或音节,则与匹配好的这两个汉字或音节结合,按三字词切分;如果是中缀的话则吸收前面和后面各一个字或音节组成一个词,如果吸收后导致前面或后面出现一个孤立的没有匹配的汉字或音节时,则要将这个汉字或音节吸收进这个中缀组成的词,一般组成的词的汉字或音节数不超过四个,如果是词根的话,根据它前面能加字或音节,还是后面能加字或音节,还是前后都能加字或音节的情况,分别采用前缀、后缀、中缀的切词方法进行切词,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统自动将该词存入二级词库; 当用以上三个词库切分完后,句子中仍然出现未匹配成功的汉字或音节串,或者虽然匹配成功但属于三个以上连续孤立的汉字或音节串时,把它们合并在一起组成一个词来切分,以上方法所切分到的词,当在同一篇文档中的不同句子中累计出现次数不少于两次时,系统会根据设定自动或经人工确认后将其存入一级词库; 对最后的分词结果和检查规则还可以进行人工干预修改,对人工干预形成的新词根据词的特点经人工确认后分类存入一级词库或二级词库,各级词库里的词还可以进行人工增删,且词库里的词按高频优先分类排列在前的原则排列,当达到一定阀值时,经人工确认系统可以将二级词库里的词分类提升到一级词库,一级词库里的词分类下降到二级词库,以上以下将该智能分词步骤称为分词模块。3.如权利要求I所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于在汉字或汉语拼音转换成汉语语音码时,汉字先转换成汉语拼音,遇异音同形字时将可能的汉语拼音全部列出,汉语拼音则无须先转换,然后再根据码表先转换成相应的汉语音节语音码串,然后在调用预先储存在计算机系统中的分词模块再进行按词切分; 对已经分过词的汉字和汉语拼音转换成汉语语音码后则不必再进行单词切分,仍以原来的单词为单位进行转换; 当汉语语音码需要转换成汉语拼音时,既可以采用查预先储存在计算机系统中的码表,也可以查通过该码表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后输出相应的汉语拼音; 当汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查预先储存在计算机系统中的语音码与以词为单位的汉字对照表、匹配后输出相应的汉字; 遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定; 当需要将全拼的汉语语音码转换成简拼的汉语语音码时,通过查预先存储在计算机中的码表,将全拼的汉语语音码的声母、介母、韵母换成简拼的汉语语音码的声码、介码和韵码,调码保持不变,或调码用阿拉伯数字或一个拉丁字母表示; 反之当需要将简拼的汉语语音码转换成全拼的汉语语音码时,通过查预先存储在计算机中的码表,将简拼的汉语语音码的声码、介码和韵码换成全拼的汉语语音码的声母、介母、韵母,调码保持不变,或用阿拉伯数字或一个拉丁字母表示; 当需要仅将汉语语音码的调码进行阿拉伯数字表示的调码和拉丁字母表示的调码之间进行双向转换时,根据码表将阿拉伯数字表示的调码转换成拉丁字母表示的调码或根据码表将拉丁字母表示的调码转换成阿拉伯数字表示的调码便可,其它全拼汉语语音码的声母、介母、韵母和简拼汉语语音码的声码、介码和韵码则保持不变; 在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态,以上以下将该步骤的方法称为汉字汉语拼音与汉语语音码双向转换模块。4.如权利要求I所述的计算机或嵌入式计算机系统汉语语音码汉语全息信息处理方法,其进一步特征在于当汉语语音码转换成汉语语音时,可以分别采用查汉语语音码中的汉语音节与汉语音节语音合成文件对照表、以词为单位的汉语语音码与汉语单词语音合成文件对照表,还可以通过最大匹配法,采用查以最大语段为单位的汉语语音码串和汉语语段语音合成文件对照表输出相应的汉语语音,当将上述汉语语音码或汉语语音码串所分别对应的音节、单词或语段的语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,通过查汉语语音码或汉语语音码串与相应音节、单词或语段的语音合成 文件对照表,可以分别输出相应的汉语特定人、中国方言、少数民族语言的语音,当合成外语语音时,要进行查以词、词组或短语为单位的汉语语音码和相应外语单词、外语词组或外语短语语音合成文件对照表输出相应的外语单词、外语词组或外语短语的语音,对需要输入汉语每一个音节的声母、介母、韵母和声调信息才能进行汉语语音合成的系统,可以根据码表将汉语语音码转换成汉语拼音声母、介母、韵母和声调的信息后,再输入到汉语语音合成系统中进行汉语语音合成,当对汉语语音码文章中的标点符号和移行号进行语音合成时,我们只要将相应的预先储存在计算机中的汉语的六种点号七种标号和一个移行号的声音文件提取出来,用声音播放软件进行播放便可; 当该语音合成文件是汉语的语音合成文件时,则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音,当该语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、少数民族语言的相应的标点符号或移行号的声音,当输入的是用汉字或汉语拼音表达的汉语信息时,汉字或汉语拼音可以通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块,先转换成全拼或简拼汉语语音码再进行上述汉语、汉语特定人、中国方言、少数民族语言、外语单词、外语词组或外语短语的语音转换; 在汉语语音转换成汉语语音码时,汉语语音识别系统可以依次分别将汉语语段、汉语单词、汉语音节作为识别的基元,通过查找预先储存在计算机中的汉语语段语音模板和汉语语段语音码对照表、汉语单词语音模板和汉语单词语音码对照表、汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语语段语音码、汉语单词语音码、汉语音节语音码,语音连续输入时便依次分别得到连续的汉语语段语音码串、汉语单词语音码串、汉语音节语音码串,对上述得到汉语音节语音码串通过预先储存在计算机系统中的分词模块进行按词切分,对已经分过词的汉语单词语音码串和汉语语段语音码串则不必再进行单词切分,对切分出的单词采取同一单词的音节与音节之间连写,单词与单词之间空格的方式表示,当汉语语音码需要进一步转换成汉字或汉语拼音时,通过预先储存在计算机系统中的汉字汉语拼音与汉语语音码双向转换模块转换输出相应的汉字或汉语拼音,对于汉语语音是带某种方言口音的汉语或某一种中国的方言,只要这种中国的方言的音节或单词或语段分别与汉语音节或单词或语段具有某种对应关系,我们通过以上相类似的方法即通过查找预先储存在计算机中的带某种方言口音的汉语的汉语音节或单词或语段的语音模板与汉语音节或单词或语段语音码对照表,以及具有某种对应关系的方言音节或单词或语段的语音模板和汉语语音音节码或单词或语段对照表,匹配后识别出相应的汉语音节或单词或语段语音码串,就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别,实现该带某种方言口音的汉语或方言与汉语语音码的转换,以上以下将该步骤方法称为汉语语...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。