当前位置: 首页 > 专利查询>微软公司专利>正文

用于对视力受损用户音频输出多字节字符的方法和系统技术方案

技术编号:2990074 阅读:187 留言:0更新日期:2012-04-11 18:40
一种音频输出系统,其消除多字节字符的语音声音中的多义性,从而视力受损的用户可以唯一地确定与输出关联的字。通过采用辅助音频通道该改进型的音频输出系统提供这种多义性消除,该辅助音频通道同时输出一个或多个声音以区分正在主音频通道上输出的字。即,在主通道上音频输出字的语音,并且同时在辅助通道上输出区分声音。二个通道上二种声音的组合无岐义地辨别对听者输出的字。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及数据处理系统,尤其涉及向视力受损用户输出多字节字符。部分上由于难以使用计算机进行工作或进行文字处理,盲人或视力受损者难以成为劳动力。为了把视力受损者纳入到劳动力中,已经开发了对用户用声音输出数据的系统。在这些系统中,计算机把数据存储到文件中,用户可命令计算机在扬声器上用声音输出数据,从而用户可以听见数据。在听多字节语言的数据时,用户使用这样的声音输出系统是困难的。“多字节语言”是这样的语言,其中为了唯一地确定语言中的每个字需要多于一个的字节。换言之,语言中存在多于28(256)个字。多字节语言的字被称为多字节字符。例如中文、日文、朝鲜文等基于汉字的多字节语言大约具有40000个字。在基于汉字的语言中,语法元素被称为“汉字”。术语“语法元素”指的是某给定自然语言中能构成部分讲话的单元。例如,英语语言中的语法元素是单词。就这点而论,每个汉字是类似于英语语言中的单词的高级语言符号。即,自然语言趋于具有三个等级的语言元素。最低的一个等级取决于专用字母表并和口语的语音相关。例如,英语语言中的第一级和最低级语言元素由字母组成。第三级语言元素是最高等级,并包含着那些传递完整创意表达的语言元素。在英语语言中,第三级由句子构成。第二等级的语言元素指的是术语“语法元素”。第二等级是中间等级的语言元素,在英文中,第二级由单词构成。在中文中,第二级由汉字构成。汉字通常由一个或多个偏旁构成。“偏旁”是汉字的一个部分,非常类似于字母是单词的一部分。经常,偏旁本身就是一个汉字。例如,附图说明图1描绘意思是“骑”的汉字102,它由二个偏旁104和106构成。类似地,意思是“钱”的汉字108由二个偏旁110、112构成,而意思是“树”的汉字114由三个偏旁116、118、120构成。对于组成某汉字的各偏旁,通常把其中一个偏旁确定为是部首。部首通常是汉字中最左边的偏旁。然而,当一个偏旁在另一个偏旁的上面时,通常上面的偏旁是部首。此外,当某个汉字由二个偏旁组成并且一个偏旁包围另一个偏旁时,外围的偏旁是部首。例如,汉字102的部首是意思为“马”的偏旁104。汉字108的部首是意思是“金子”或“金属”的偏旁110,而汉字114的部首是意思是“木”的偏旁116。从图1中还可以看出,汉字的部首和该汉字的意思具有紧密的关系。在基于汉字的语言中,大约有210个用来表示该多字节语言中的所有语法元素或所有汉字的偏旁。图2给出中文中最常使用的从1到210编号的偏旁表。为了方便说英语的人使用中文,使用一种周知的被称为“Wade-Giles系统”的中文拼音系统,以把汉字和偏旁变换成它们的语音的英文式表示。例如,参见图1,汉字114的发音是“shu4”。这表示辅音“sh”和“you”中的“u”元音组合。数字“4”表示其发音应采用的特定声调,例如当说话者提问时常常使用升调。不理解中文的人利用Wade-Geles系统可以在语音上发出中文。由于基于汉字的语言中大约有40000个汉字,许多汉字组发音类似,但意思完全不同。这些汉字发音相同是由于它们在语音上相同。例如,下述汉字都发音成“wong”,但每个字具有不同的意思黄王皇蝗徨由于多字节语言中许多字发音雷同,当音频输出系统向视力受损用户输出多字节字符时,固有地存在着多义性的问题,这是由于发音或声音不能唯一地标识某个字,而是对应用于若干字。从而,用户常常不能完全理解音频输出标志哪些字,因此,用户有时难以理解音频输出的含义。当数据是一个相当短的短语的一部分并且用户不能从该短语的语境确定字的意思时,更加以难以推出音频输出的含义。在计算机命令中常会发现这样的短语,用户和计算机交互时常常会遇到它们。从而,多字节语言中固有的多义性阻碍视力受限的用户使用计算机以融入到劳动大军中。由于每个字具有不同的象形表示,有视力的人不具有这样的问题,因为从其象形表示用户可以确定具体的字,并进而确定该具体字的含义。由于有视力的人天天都看到字,这帮助他们加深字的差异和含义,从而记住成千上万个字。但是视力受损的人得不到这样的视觉强化。需要改进用于视力受损的人的多字节字符输出系统,以便把视力受损的人更好地纳入到劳动大军中。提供一种改进型的消除多字节字符的语音的多义性的音频输出系统,从而视力受损的人可以唯一地辨识与输出相关的各个字。通过采用一种辅助音频通道该改进的音频输出系统消除多义性,该辅助音频通道同时输出一个或多个声音,从而辨别从主音频通道输出的字。即,在主通道上输出字的发音,并且同时在辅助通道上输出辨别声音。二个通道上二种声音的组合无岐义地确定向听者输出的字。事实上,本系统对视力受损的听者带来形态的唯一性或清晰性,并使听者加深理解相似发音字之间的含义差异。依据本专利技术的第一方面,提供一种通过多个音频通道向设备的用户无岐义地输出声音的方法。该方法在第一音频通道上输出主声音,当主声音和多种含义有关时主声音试图向用户传递单个含义。几乎在输出主声音的同时,该方法在第二音频通道上输出辅助声音,以消除主声音的多义性,使用户确定单个含义。依据本专利技术的第二方面,在计算机系统中提供一种音频播放文件中包含的某语言的语法元素。该方法读文件以得到语法元素,其中每个语法元素具有一个含义。该方法还音频播放描述语法元素的含义的声音,其中声音既不传递语法元素的视觉特征也不传递语法元素的音频特征。依据本专利技术的第三方面,提供一种输出多字节字符的计算机。该计算机包括声音子系统、辅助存储器和主存储器。声音子系统在主通道和辅助通道上音频播放声音。辅助存储部件包含多字节字符到其语音的交换。和每个多字节字符对应的语音表示说出该多字节字符时的声音。多个多字节是多义性字在于这些多义性字的发音是相同的。主存储器包含一个阅读程序,后者读文件以检索从多个多义性字中选出的一个。该阅读程序还访问上述的变换以得到该选定的多义性字的发音,在声音子系统的主通道上音频播放该选定多义性字的发音,并且在辅助通道上音频播放无岐义的声音以便从多个多义性字中辨别出选定的多义性字。图1描述三个中文字以及它们的组成偏旁。图2描述中文中使用的偏旁。图3概述本专利技术的一种优选实施例所使用的三种多义性消除模式。图4描述本专利技术的一种优选实施例的三种多义性消除模式的例子。图5描述一种适用于实现本专利技术的一种优选实施例的计算机系统。图6A更详细地描述图5的数据库。图6B更详细地描述图5的声音变换表。图6C更详细地描述图5的带含义声音表。图7描述图5中所示的阅读程序所执行的各步骤的流程图。图8A和8B描述在获得要在辅助音频通道上播放的辅助声音时要执行的步骤的流程图。提供一种改进型的音频输出系统,其消除多字节的发音中的多义性,从而视力受损的用户能够唯一性地辨别和输出相关的字。本专利技术的一种优选实施例通过采用辅助音频通道消除多义性,该辅助音频通道同时输出一个或多个辨别从主音频通道输出的某个字的声音。即,在主通道上音频输出某字的发音,并且同时在辅助通道上输出辨别声音。二个通道上的二种声音的组合无岐义地使听者辨别正在输出的字。事实上,本系统对视力受损的听者带来形态的唯一性和清晰性,并使听者加深理解相似发音字之间的含义差异。本改进型的音频输出系统采用二个音频通道,即主通道和辅助通道,以向视觉受损的用户无岐义地输出汉字声音。主通本文档来自技高网...

【技术保护点】
一种在计算机系统中输出多字节字符的方法,该计算机系统具有一个扬声器、一个包含各多字节字符的文件和每个多字节字符对主声音及辅助声音的一种变换,该方法包括以下步骤:访问该文件以检索某个多字节字符;访问该变换以得到该多字节字符的主声音,其 中多字节字符的主声音是该多字节字符的语音,该语音是说出该多字节字符时产生的声音,其中其它多字节字符具有相同语音,从而不能单靠主声音唯一地辨别出该多字节字符;访问该变换以得到该多字节字符的辅助声音,其中辅助声音传递该多字节字符的含义,从而 当用户听主声音和辅助声音时,用户可以把该多字节字符和其它的多字节字符区分开来;以及几乎同时在扬声器上输出主声音和辅助声音,以使用户能够确定该多字节字符。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:彼得KH翁杰弗里M韦特
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利