一种汉字拼音到盲文ASCII码的转换方法技术

技术编号:31227530 阅读:19 留言:0更新日期:2021-12-08 09:36
本发明专利技术公开了一种汉字拼音到盲文ASCII码的转换方法。汉字拼音转换为盲文ASCII码是汉语盲文计算机翻译系统的核心技术之一。由于每个汉字拼音都有韵母,本发明专利技术还发现了所有韵母的首字符均不同于声母的字符这一客观事实,创新提出一种标志位汉字拼音切分算法,得到每个汉字的声母、韵母、声调。进而,本发明专利技术提出一种三元素汉字拼音匹配盲文ASCII码算法,得到每个汉字的盲文ASCII码。本发明专利技术不仅高效实现了汉字拼音到盲文ASCII码的转换,而且为解决汉语盲文的标调问题提供了重要技术,也为国家通用盲文的数字化奠定基础。用盲文的数字化奠定基础。用盲文的数字化奠定基础。

【技术实现步骤摘要】
一种汉字拼音到盲文ASCII码的转换方法


[0001]本专利技术涉及一种盲文ASCII码转换方法,尤其是一种汉字拼音到盲文ASCII码的转换方法。

技术介绍

[0002]盲文又称为点字,是专门为盲人设计、靠触觉来感知的一种特殊文字,是盲人摸读和书写的文字符号。目前,国际通用的一个盲文点字由三行两列的6个点按一定的规律排列组合而成,有 64种表现形式,称为一“方”。
[0003]中国盲文以中文汉字为基础,以拼音为基础呈现的文字。一个汉字的盲文字由一个声母方、一个韵母方和一个声调方组成,也可以无声母方或无声调方。长期以来,中国大陆的盲文并存有现行盲文和双拼盲文,以现行盲文为主。现行盲文“必要时标调”的规定导致现行盲文的标调率极低,且标调规则随意繁杂,往往掺杂了大量的主观判断,在遇到多音字时,盲人需要猜测声调,大大降低了摸读效率。为了解决现行盲文这一先天缺陷,近年来,我国正在大力推广国家通用盲文。它采用全标调的策略,较好消除声调不明确带来的歧义,方便盲人更加精确地摸读盲文。
[0004]随着计算机技术的发展,盲文的数字化成为必然。盲文ASCII码是国际标准信息交换码ASCII码的子集,取32-95之间的64个与64种盲文点字分别一一对应。盲文ASCII码已成为盲文电脑设备的标准码,广泛用于数字化盲文的软硬件系统。
[0005]在信息时代的今天,无论现行盲文、双拼盲文,还是国家通用盲文,都必须解决汉字盲文数字化问题,建立汉语盲文计算机翻译系统。其中,汉字拼音转换为盲文ASCII码是汉语盲文计算机翻译系统的核心技术之一。计算机算法实现汉字拼音的盲文ASCII码转换关键在于处理拼音和盲文ASCII码之间的映射关系。
[0006]2010年,专利“一种汉语到盲文的自动翻译转换方法”(CN1591414B)指出可以根据盲文的拼法和标调规则将组合后的词块转换为盲文点字,没有公开拼音转换盲文点字的具体方法。2011年,文献“汉字盲文转换系统的设计”(杨潮等)进而指出可以用逐个拼音查找对应的盲文拼音码,组成盲文文本,但是没有说明具体转换算法。2016年,文献“视障汉语转换软件SunBraille的设计实现”(吕先超等)中又进一步提到可通过 split(“,”)函数对拼音串进行切分,得到标调,分别用 1,2,3,4,5 表示阴平、阳平、上声、去声和无声,再设计出相应的拼音到盲文ASCII码的转换词典,将拼音转换为盲文ASCII 码。2017年,专利“一种汉文到盲文的自动高效翻译转换方法”(CN201710550659.8)更进一步提到对汉字拼音串进行音素的识别和分割提取,分为整体认读音节、声母和韵母,利用自建的音素盲文对照表,得到每个音素对应的6位符号性盲文编码。
[0007]文献“汉字盲文转换系统的设计”和文献“视障汉语转换软件SunBraille的设计实现”都不切分声母和韵母,采用逐个拼音查找方法,需要遍历庞大的汉字拼音库和拼音到盲文ASCII码的转换词典,计算量非常大,转换效率低。专利“一种汉文到盲文的自动高效翻译转换方法”采用正向最大匹配算法,对汉字拼音串进行音素的识别和分割提取,以从长到短
的步长将拼音串中的拼音字母与音素盲文对照表中的音素进行逐一匹配,获得是否匹配的结果,初始步长取该拼音串的字母总数;若在最大步长下匹配成功,则终止匹配,若否,则修改步长,以最长声母的两个字母的步长预匹配,当匹配成功后,则对剩余字母直接进行韵母匹配,分为整体认读音节、声母和韵母。虽然正向最大匹配算法比逐个拼音查找方法的计算效率要高,但是难以同时切分出声母、韵母和声调,不利于解决现行盲文的先天缺陷,也不利于国家通用盲文的数字化。

技术实现思路

[0008]为了克服上述现有技术的不足,本专利技术提供了一种汉字拼音到盲文ASCII码的转换方法。
[0009]本专利技术所采用的技术方案。
[0010]一种汉字拼音到盲文ASCII码的转换方法,包括一种标志位汉字拼音切分算法和一种三元素汉字拼音匹配盲文ASCII码算法;对于可能包含声母、韵母和声调的每个汉字拼音字符串,标志位汉字拼音切分算法在所有韵母的首字符均不同于声母的字符这一客观事实上,建立韵母首字符表和声母字符表,从韵母角度寻找标志位Pos,切分出拼音字符串的声母、韵母和声调;进而,分别查找声母、韵母和声调的盲文ASCII码对应字典,三元素汉字拼音匹配盲文ASCII码算法分别得到声母的盲文ASCII码、韵母的盲文ASCII码或声调的盲文ASCII码,按次序组合出汉字的盲文ASCII码。
[0011]所述的一种标志位汉字拼音切分算法,详细步骤包括1)读入一个汉字的拼音字符串;2)如果此拼音字符串为空,在消息窗口提示当前字符返回拼音为空;3)如果此拼音字符串不为空,从拼音字符串的第一位字符开始判断当前字符是否属于韵母首字符表中的字符,若是,则把当前字符位置作为切分声母和韵母的标志位Pos,若不是,则选取此拼音字符串中的下一个字符继续判断,直到找到拼音字符串中韵母的第一个字符为止;4)如果Pos等于0,可以得到此拼音字符串的声母为空,韵母为拼音字符串第一位字符到倒数第二位字符,声调为拼音字符串的最后一位字符;5)如果Pos不等于0,可以得到此拼音字符串的声母为第一位字符到标志位Pos,韵母为标志位Pos到倒数第二位字符,声调为最后一位字符。
[0012]所述的建立韵母首字符表和声母字符表,详细步骤包括1)从汉字拼音的24个韵母a,o,e,i,u,
ü
,ai,ei,uei(ui),ao,ou,iou(iu),ie,
ü
e,er,an,en,in,uen(un),
ü
n,ang,eng, ing,ong中提取得到韵母首字符表,见表1;2)从汉字拼音的23个声母b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch, sh,r,z,c,s,y,w中提取得到声母字符表,见表2;3)对比韵母首字符表和声母字符表,发现所有韵母的首字符均不同于声母的字符,标志位汉字拼音切分算法遍历拼音字符串中的所有字符,找到韵母的首字符,作为切分声母和韵母的标志位Pos。
[0013]表1韵母首字符表。韵母的首字符aoeiu
ü
[0014]表2 声母字符表。
声母的字符bpmfdtnlgkhjqxrzcsyw
[0015]所述的三元素汉字拼音匹配盲文ASCII码算法,详细步骤包括1)如果声母为空,输出空盲文ASCII码;2)如果声母不为空,查找声母盲文ASCII码对应字典,见表3,输出此声母的盲文ASCII码;3)如果韵母为空,输出空盲文ASCII码;4)如果韵母不为空,查找韵母盲文
ASCII码对应字典,见表4,输出此韵母的盲文ASCII码;5)查找声调盲文ASCII码对应字典,见表5,输出此声调的盲文ASCII码;6)按声母盲文ASCII码、韵母盲文ASCII码和声调盲文ASCII码的前后次序,组合出一个汉字的盲文ASCII码。
[0016]表3 声母盲文ASC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种汉字拼音到盲文ASCII码的转换方法,其特征在于:包括一种标志位汉字拼音切分算法和一种三元素汉字拼音匹配盲文ASCII码算法;对于可能包含声母、韵母和声调的每个汉字拼音字符串,标志位汉字拼音切分算法在所有韵母的首字符均不同于声母的字符这一客观事实上,建立韵母首字符表和声母字符表,从韵母角度寻找标志位Pos,切分出拼音字符串的声母、韵母和声调;进而,分别查找声母、韵母和声调的盲文ASCII码对应字典,三元素汉字拼音匹配盲文ASCII码算法分别得到声母的盲文ASCII码、韵母的盲文ASCII码和声调的盲文ASCII码,按次序组合出汉字的盲文ASCII码。2.根据权利要求1所述的一种标志位汉字拼音切分算法,其特征在于:1)读入一个汉字的拼音字符串;2)如果此拼音字符串为空,在消息窗口提示当前字符返回拼音为空;3)如果此拼音字符串不为空,从拼音字符串的第一位字符开始判断当前字符是否属于韵母首字符表中的字符,若是,则把当前字符位置作为切分声母和韵母的标志位Pos,若不是,则选取此拼音字符串中的下一个字符继续判断,直到找到拼音字符串中韵母的第一个字符为止;4)如果Pos等于0,可以得到此拼音字符串的声母为空,韵母为拼音字符串第一位字符到倒数第二位字符,声调为拼音字符串的最后一位字符;5)如果Pos不等于0,可以得到此拼音字符串的声母为第一位字符到标志位Pos,韵母为标志位Pos到倒数第二位字符,声调为最后一位字符。3.根据权利要求1所述的建立韵母首字符表和声母字符表,其特征...

【专利技术属性】
技术研发人员:王丹英杨文珍
申请(专利权)人:杭州交互感知科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1