语音的声调轮廓的转换制造技术

技术编号:3045465 阅读:204 留言:0更新日期:2012-04-11 18:40
提供了一种语音的声调转换。确定可应用到接收语音的音节的声调。确定可应用到收听者的所述声调的声调轮廓,并且接收语音的音节被改变成具有所述被确定的声调轮廓。然后该被改变的语音可以被传递到收听者。

【技术实现步骤摘要】

本专利技术涉及语音的声调轮廓的转换
技术介绍
中文口语中已经记录的方言大约有1500种。中文是一种声调语言。理解中文的不同方言的主要障碍就是单词发音中声调轮廓的不同。尤其是,在声调语言中,每个说出的音节需要声音的特殊调值(pitch)以便被认为是可理解的并且正确的。例如,普通话具有4种声调,加上1个“中性(neutral)”调值。广东话具有更多的声调。这些声调分别被描述为“高(high),平(level)”,“高,升(rising)”,“低(low),降(dipping)”和“高,落(falling)”,以及大家所知道的声调分类平(Ping)、上(Shang)、去(Qu)和入(Ru)。此外,每个声调被分为较高的和较低的声调,分别被称为阴(Yin)和阳(Yang)。例如,平被分为阴平(YinPing)和阳平(YangPing)声调。误发音或误理解声调就完全听不懂中文单词。因此,与英文的调值被用于显示句子含义(例如,显示询问)的受限范围相反,中文将声调用作为每个单词的整体特征。因为声调轮廓的不同,一种方言的说话者很难理解另一种方言的说话者。更具体而言,声调轮廓描述了调值在音节上变化的方式。音节的声调轮廓可以由一组数字描述。这些数字可以描述为音乐谱中的5条水平线。最低的调值被标号为1,下一个最低是2,最高的标为5。例如,/213/的声调轮廓表示了该声调的调值先下然后升。平的声调轮廓是/11/,/22/,/33/,/44/和/55/。落声调轮廓的例子是/51/,/31/。升声调的例子是/13/和/15/。作为使用不同方言的说话者的结果,应用到音节的声调轮廓中的差别的例子,对于阴平声调,来自北京的说话者的声调轮廓将是高平(/55/),而对于阴平声调,来自天津的说话者使用的声调轮廓将是低落的(/21/)。研究显示来自中国不同地区的不同普通话方言之间的理解在50%强到70%弱之间变化。普通话方言之间的平均相关性大约为67%。这意味着即使在不同地区的本地普通话说话者之间,还存在着显著的障碍,其阻止他们完全理解互相说出的语言。原因之一就是声调轮廓的差异。
技术实现思路
根据本专利技术的实施例,接收语音的声调轮廓被修改以便减小收听者感觉到的说话者方言和收听者方言之间的差异。这通过检测或被通知由提供语音的一方使用的方言和接收该语音的一方的方言来完成。该语音可以被分析来识别其包括的一个或多个音节,并且用来确定可应用到通信各方的不同方言的不同声调轮廓。语音中包括的音节以及说话者采用的声调可以例如通过语音识别系统或功能来被识别。根据另外的实施例,包含该音节的单词可以被识别以便识别声调。此外,通过参考声调轮廓表,可应用到收听者的方言的每个音节的声调轮廓可以被识别。然后音节的声调可以从说话者方言的变调为收听者方言的声调。根据本专利技术的更多实施例,会话各方的方言通过分析由通信的每个端点的参与方发音的设定短语的声调轮廓来确定。根据本专利技术的其他实施例,对声调轮廓的修改是基于由端点用户做出的方言选择而实施,或者由参与方的区号(对陆地线路)或者由参与方的位置(对于移动线路)暗示。如这里使用的,至少在应用到否则就相似的音节的发音形式的声调轮廓上,声调语言的方言被理解为不同于该语言的另一种方言。使来自一种方言的声调与另一种的声调一致的语音修改可以使用声调轮廓转换或校正来执行。在语音发送到接收者、接收者邮箱或为随后重放而预先存储之前,可以采用声调轮廓转换。根据本专利技术的另外的实施例,在修改被应用到用户语音之前,可以提示用户是否同意修改。除了电话应用,本专利技术的实施例可以应用于广播应用、或记录的语音。附图说明图1是根据本专利技术实施例的通信系统的框图;图2是根据本专利技术实施例的通信或计算设备或服务器的组件框图;图3是根据本专利技术实施例的用于语音的变调的过程的各个方面的流程图;图4是根据本专利技术实施例的用于语音的变调的过程的其他方面的流程图;图5显示了根据不同实例的中文方言的用于不同声调的声调轮廓。具体实施方案根据本专利技术的实施例,语音可以从根据特定方言的说话者采用的声调轮廓转换成收听者听得懂的另一种声调轮廓。因此,本专利技术的实施例可以促进该语言的不同方言的说话者之间的声调语言的可理解性。现在参考图1,显示了本专利技术的实施例采用的通信系统100的组件。特别地,具有许多通信或计算设备104的通信系统可以通过通信网络108与其他通信系统连接。此外,通信系统100可以包括或者与一个或多个通信服务器112和/或切换器116相关联。例如,通信或计算设备104可以包括传统的有线或无线电话,互联网协议(IP)电话,联网的计算机,个人数字助理(PDA),电视,无线电或任何其他能够传送或接收语音的设备。根据本专利技术的实施例,通信或计算设备104还可以能够分析和记录由用户提供的语音以便进行可能的声调轮廓转换。替换地或附加地,诸如使用通信或计算设备104收集的语音的分析和/或存储可以由服务器112或其他实体执行。根据本专利技术的实施例的服务器112可以包括通信服务器或其他起到提供服务到客户设备的功能的计算机。服务器112的实例包括在网络上布置的PBX、语音邮件、信号处理器或服务器,用于提供这里所述的声调轮廓转换的特定目的。因此,服务器112可以运行来执行或促进通信服务和/或连接功能。此外,服务器112可以执行与本专利技术的声调轮廓转换功能相关的一些或全部处理和/或存储功能。通信网络108可以包括聚合网络,用于在相关联的设备104和/或服务器112之间传送语音和数据。此外,应当理解通信网络108不必限制于任何特定类型的网络。因此,通信网络108可以包括有线或无线以太网、因特网、专用内联网、专用小交换机(PBX)、公共交换电话网(PSTN)、蜂窝或其他无线电话网,电视或无线电广播网,或任何其他能够传送数据(包括语音数据)的网络。此外,可以理解通信网络108不必限制于任何一种网络类型,相反可以包括许多种不同网络和/或网络类型。参考图2,这里所述的用于实现一些或全部的声调轮廓转换的通信或计算设备104或服务器112的组件根据本专利技术的实施例以框图的形式显示。这些组件可以包括能够运行程序指令的处理器204。因此,处理器204可以包括任何通用可编程处理器、数字信号处理器(DSP)或控制器,用于执行应用程序。替换地,处理器204可以包括特别配置的专用集成电路(ASIC)。处理器204通常起到运行程序代码以便实现由通信设备104或服务器112执行的各种功能的作用,所述功能包括这里所述的声调轮廓转换操作。通信设备104或服务器112可以另外地包括与由处理器204进行的程序的执行相联系地使用以及用于数据或程序指令的暂时或长时存储的处理器208。存储器208可以包括可移动或实际上在远端的固态存储驻留,诸如DRAM和SDRAM。当处理器204包括控制器时,存储器208可以集成到处理器204。此外,通信设备104或服务器112可以包括一个或多个用户输入或用于接收用户输入的装置212以及一个或多个用户输出或用于输出的装置216。用户输入212的实例包括键盘、小键盘、触摸屏、触摸板和麦克风。用户输出216的实例包括扬声器、显示屏(包括触摸显示屏)和指示灯。此外,本领域的技术人员可以理解用户输入212可以与用户输出216组合或协同本文档来自技高网
...

【技术保护点】
一种用于语音的声调转换的方法,包括:    接收来自第一用户的包括以第一方言说出的第一音节的语音;    识别包括在所述接收语音中的所述第一音节;    确定所述第一音节的声调轮廓;    根据由第二用户说出的第二方言确定对于所述第一音节的声调轮廓;    修改包括在所述接收语音中的所述第一音节以便建立修改的语音,其中根据由所述第二用户说出的所述第二方言,所述被修改的语音具有对于所述第一音节的所述声调轮廓。

【技术特征摘要】
US 2005-8-26 11/213,1391.一种用于语音的声调转换的方法,包括接收来自第一用户的包括以第一方言说出的第一音节的语音;识别包括在所述接收语音中的所述第一音节;确定所述第一音节的声调轮廓;根据由第二用户说出的第二方言确定对于所述第一音节的声调轮廓;修改包括在所述接收语音中的所述第一音节以便建立修改的语音,其中根据由所述第二用户说出的所述第二方言,所述被修改的语音具有对于所述第一音节的所述声调轮廓。2.如权利要求1所述的方法,进一步包括传递所述修改的语音到所述第二用户。3.如权利要求1所述的方法,进一步包括确定由所述第一用户说出的第一方言;确定由所述第二用户说出的所述第二方言。4.如权利要求3所述的方法,其中所述确定由所述第一用户说出的第一方言以及由第二用户说出的第二方言的步骤包括接收来自所述第一用户和第二用户中的至少一个的指示所述第一和第二方言中的至少一个的信号。5.如权利要求3所述的方法,其中所述确定由所述第一用户和所述第二用户中至少一个说出的方言的步骤包括接收来自所述第一用户和所述第二用户中的至少一个的至少第一单词的发音并确定应用到所述至少第...

【专利技术属性】
技术研发人员:科林巴拉尔科维尚克里斯多夫R詹特尔尼尔海佩沃斯安德鲁W郎
申请(专利权)人:阿瓦雅技术公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1