韵律模仿合成方法和装置制造方法及图纸

技术编号:3046005 阅读:158 留言:0更新日期:2012-04-11 18:40
一种合成可听短语(单词)的方法和装置,包括捕捉发声,所述发声可以是一个单词,并从所述发声提取韵律信息(参数),然后将所述韵律参数应用到合成(标称)单词以产生与发声和标称单词相对应的韵律模仿单词。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音使能通信系统。
技术介绍
许多移动电话(这里指的是包括至少能够执行电话或语音通信功能的数据处理和通信设备)配备语音辅助接口特征,其能够使用户通过说出词句访问一个功能从而调用该功能。一个熟悉的例子就是语音拨号,借此用户向电话说出一个名字或其他预存的词句,那么该电话就通过拨与该名字相关联的号码作出响应。为了验证要被拨的号码或要被调用的功能确实是用户想要的,移动电话可以向用户显示一个确认消息,如果是正确的就允许用户继续进行,或者如果是错误的话就允许用户放弃。可听和/或可视用户接口存在用来与移动电话设备交互。与可视确认和接口相比,可听确认和用户接口允许更加不用手的操作,例如司机可以需要其来希望将他或她的眼睛保持盯着路面而不是看着电话设备。语音识别被用在移动电话中以识别由电话用户说出的短语、单词、声音(这里通常指的是发声)。因此语音识别有时被用在电话本应用中。在一个例子中,电话使用可听确认响应被识别的说出的名字,通过电话扬声器输出再现。该用户在听到重放时接受或拒绝该电话的识别结果。在人类语音中,每个发音具有某些可以被量化的性质,被称为韵律(prosodic)参数,其确定该发音像什么。这些通常被考虑的是音高或音调,语音的元素定时,和重音,通称被表示成能量。语音识别系统使用语音的其他特征,诸如声道(vocal tract)形状,其是非韵律的但是有助于确定说了什么。人类收听者习惯于部分基于语音的韵律参数辨别语音质量。此外,人类说话者在语音中使用韵律以帮助整体交流并用来将他们的语音和其他说话者的语音相区别。因此人类自然地敏感于韵律,并能轻易地确定“真实”人类语音与由机器“合成”语音(语音合成器)的差别。实际上,使用差的韵律规则的合成语音对于人类耳朵来说难以理解的。
技术实现思路
一般地,本专利技术的各个方面特征在于用于合成可听短语(单词)的方法和系统,其包括捕捉发声,该发声可以是一个单词,并且从其提取韵律的和非韵律的信息(参数),识别该单词,然后将韵律参数应用到所述单词的合成的(标称,nominal)形式以产生与所述发声和所述标称单词对应的韵律模仿的短语。本专利技术的一个方面特征在于用于一种语音合成的方法,包括接收发声;从所述发声中提取一个或多个韵律参数;对发声解码以提供识别的单词;合成与识别的单词对应的标称单词;以及使用所述标称单词和所述韵律参数产生韵律模仿单词。本专利技术的另一方面特征在于用于语音合成的系统,包括接收发声的音频输入设备;检测所述发声的音高的音高检测器;确定所述发声的韵律参数的信号处理器;识别所述发声并提供对应的识别单词的解码器;合成对应于识别的单词的标称单词的语音合成器;和接收标称单词和韵律参数并产生韵律模仿单词的韵律模仿产生器。本专利技术的另一个方面特征在于已经存储了适于在处理器上执行的指令的计算机可读介质,包括接收发声的指令;从所述发声中提取一个或多个韵律参数的指令;对发声解码以提供识别的单词的指令;合成对应于识别的单词的标称单词的指令;以及使用所述标称单词和所述韵律参数产生韵律模仿单词的指令。本专利技术的这些和其他方面提供改进的语音合成,尤其在小的移动设备中,诸如带有语音激活命令和用户接口的移动电话。在一个方面,具有可听确认消息的更好的合成的能力,该可听确认消息具有与用户的韵律特征类似的韵律特征。更好的语音合成对于人类来说听起来更加自然和可理解,因此本专利技术改善了可听用户接口的有用性和可理解性。本专利技术的各种特征和优点将从下面的描述和权利要求中更清楚。附图说明为了根据充分地理解本专利技术的特征和目的,参考以下与附图相关联的描述,其中相同的标号用来表示相同的或相似的部分,其中图1是具有语音接口系统的移动电话设备的框图。图2是使用完整单词模型合成语音的过程的框图。图3是使用音素级别模型合成语音的过程的框图。具体实施例方式如上简述,人类语音不仅仅包括实质内容(产生什么单词和声音),还包括如何产生单词和声音的信息。通常,一组参数(韵律参数)至少部分地描述了如何讲出单词或声音以及听起来像什么。韵律参数的例子如音高、能量和定时。更好的使用韵律内容能够产生更自然的和更易理解的合成语音,这是在诸如使用合成音频接口的移动电话的现代通信系统中是有用的特征。根据本专利技术的电话设备使用语音合成电路、逻辑和可执行编码指令以产生通过其扬声器输出端提供的可听信号。通过提取和使用用户说出的单词的韵律特征来合成和产生可听输出,该电话设备合成听起来像用户声音的高质量真实发声的语音。一个特殊的应用是用于改善用于确认移动电话用户说出的命令的合成语音消息的质量和可理解性。图1是移动电话设备10的框图,该移动电话设备10具有语音用户接口。该系统包括输入、输出、处理和存储部件。音频输入设备1000接收发声。该音频输入设备是麦克风,更特别地是,是用于在移动电话设备10上通信的同一个麦克风。音频输入设备1000提供所述接收到的音频输入信号到音高检测器2100和唛耳倒频谱压缩(MFCC)信号处理器2200,其从接收到的音频信号提取韵律的和非韵律的参数信息。解码器/语音识别引擎2300识别发声并提供被识别的单词到语音合成器2400。该识别的单词也被作为文本提供到视觉显示设备(未示出)。语音合成器2400使用被预先编程到系统的并且不依赖于发声的韵律参数的规则合成被识别单词的标称(缺省)形式。为了产生韵律模仿的单词,韵律模仿发生器2600作用于所述标称合成单词上并将所述音高、定时或其他韵律参数应用到所述标称合成单词。该韵律模仿发生器2600通过时间上拉伸或压缩单词来调整产生的韵律模仿单词的长度。在图2的完整单词模型中,完整单词的开始和结束起到暂时参考点的作用,但是在音素级别模型中,单独的音素起到时间参考点的作用。一旦韵律模仿短语被产生,其就被转换成适于可听输出的形式。音频转换器2700接收所述韵律模仿短语并执行所需的转换成电信号的转换,以由音频输出设备2800播放。图1所示的实施例实现处理器20中除了输入/输出和记忆存储组件的所有组件。当然,可以使用不止一个处理器来获得相同的结果。这包括使用多个专用处理器,诸如数字信号处理器(DSP)实施例。存储设备30是记忆组件,其包括装有编程软件指令的机器可读介质。该机器是读取和处理指令的数据处理器。该指令在处理器20或在它的组件中执行以执行系统的功能。操作系统被安装在系统中以有利于执行被存储指令以执行语音识别、处理、韵律参数提取、语音合成和模仿单词产生。存储设备30,由这里描述的软件指令共享,也由属于其他程序的其他程序指令共享。例如,用于控制铃声、显示图形和移动电话设备其他特征的编程指令也能够驻留在存储设备30中为这些指令分配的存储空间中。图2是通过使用韵律信息从接收到的说出的单词中产生合成发音的过程的框图。该框图的功能块对应于物理组件,如图1所示,其执行功能块的功能。发音被分割为帧。帧的长度影响语音合成的质量。图2所示的实施例以逐帧为基础处理发音,而帧是预定义时间段。对于语音应用,太长的帧长会导致不精确和低质量语音合成,而太短的帧长需要更多的计算资源(处理、存储等等)。在所描述的实施例中,帧长持续了大约10-20毫秒。输入设备,诸如麦克风,在步骤100中捕捉发声102(例如,短语“CALL HOME”(呼叫家)本文档来自技高网
...

【技术保护点】
一种用于语音合成的方法,包括接收发声;从所述发声中提取一个或多个韵律参数;对所述发声解码以提供识别的单词;合成与所述识别的单词相对应的标称单词;以及使用所述标称单词和所述一个或多个韵律参数产生韵律模仿单词。

【技术特征摘要】
【国外来华专利技术】US 2003-1-24 60/442,267;US 2003-9-8 10/657,4211.一种用于语音合成的方法,包括接收发声;从所述发声中提取一个或多个韵律参数;对所述发声解码以提供识别的单词;合成与所述识别的单词相对应的标称单词;以及使用所述标称单词和所述一个或多个韵律参数产生韵律模仿单词。2.如权利要求1所述的方法,其中所述一个或多个韵律参数包括音高。3.如权利要求1所述的方法,其中所述一个或多个韵律参数包括定时。4.如权利要求1所述的方法,其中所述一个或多个韵律参数包括能量。5.如权利要求1所述的方法,还包括将所述发声和所述标称单词时间对准。6.如权利要求1所述的方法,还包括将所述发声的音素和所述标称单词的音素时间对准。7.如权利要求1所述的方法,还包括将所述韵律模仿单词转换成相应的音频信号。8.如权利要求1所述的方法,其中所述发声由电话输入设备接收并且所述韵律...

【专利技术属性】
技术研发人员:乔丹克恩丹尼尔L罗斯伊格兹罗卡尼克
申请(专利权)人:语音信号科技公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利