具有情感的语音-语音翻译系统和方法技术方案

技术编号:3047142 阅读:223 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种具有情感的语音-语音翻译系统和方法。本发明专利技术的系统包括:语音识别装置、机器翻译装置、文本-语音生成装置、情感表述参数检测装置以及情感表述参数映射装置,其中,情感表述参数检测装置用于从原始语音信号中提取情感表述参数,而情感表述参数映射装置,用于将所述情感表述参数从一种语言(方言)映射到另一种语言(方言),并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及机器翻译,具体地说涉及具有情感的语音-语音翻译系统和方法。机器翻译是利用计算机使一种语言的文字或语音翻译为另一种语言的文字或语音的技术。即在语言学的关于语言形式和结构分析的理论基础上,依靠数学方法建立词典、语法并利用计算机巨大的存储容量和数据处理能力,在没有人工干预的情况下实现从一种语言到另一种语言的自动翻译。目前的机器翻译系统通常是基于文本的翻译系统,即用于将一种语言文字翻译为另一种语言文字。但随着社会发展,需要基于的语音翻译系统,即能够进行语音-语音的翻译。可以利用现有的语音识别技术、基于文本的翻译技术以及TTS(文本-语音)技术实现语音-语音的翻译,即,首先利用语音识别技术对第一种语言的语音进行识别,形成第一种语言的文本表示;使用现有的翻译技术将第一种语言的文本表示翻译成第二种语言的文本表示;再利用成熟的TTS技术根据第二种语言的文本表示产生第二种语言的语音输出。然而,现有的TTS(文本-语音)系统通常产生缺乏情感的单调的语音。在现有的TTS系统中,首先对所有字/词的标准发音按合成音记录并对此进行分析,然后在字/词级将用于标准“表述”的相关参数存储在字典中。通过字典中定义的标准控制参数和常用的平滑技术由各个合成分量产生合成的字/词。这种语音生成方式不能基于语句的含义和讲话者的情绪状态生成可以生动地表征情感的语音。为此,本专利技术提出了一种具有情感的语音-语音翻译系统和方法。根据本专利技术的具有情感的语音-语音翻译系统和方法,利用从原始语音信号中获得的情感表述参数驱动标准TTS系统,产生可以带有情感的语音输出。本专利技术的一个目标是提供一种具有情感的语音-语音翻译系统,包括语音识别装置,用于对语言A的语音表示进行识别,形成语言A的文本表示;机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示;文本-语音生成装置,用于根据语言B的文本表示生成语言B的语音表示,所述具有情感的语音-语音翻译系统的特征在于还包括情感表述参数检测装置,用于从语言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。本专利技术的再一个目标是提供一种可以传达情感的语音-语音翻译方法,包括以下步骤对语言A的语音表示进行识别,形成语言A的文本表示;将语言A的文本表示翻译成语言B的文本表示;根据语言B的文本表示生成语言B的语音表示,所述能够传达情感的语音-语音翻译方法的特征在于还包括以下步骤从语言A的语音表示中提取情感表述参数;以及将在情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出。此外,本专利技术还提供了可以在同种语言的不同方言之间进行语音-语音翻译的方法和系统。所述具有情感的语音-语音翻译系统包括语音识别装置,用于对一种方言A的语音进行识别,形成其文本表示;文本-语音生成装置,根据所述文本表示生成另一种方言B的语音表示;所述具有情感的语音-语音翻译系统的特征还在于包括情感表述参数检测装置,用于从方言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。所述能够传达情感的语音-语音翻译方法包括以下步骤对一种方言A的语音进行识别,形成其文本表示;根据所述文本表示生成另一种方言B的语音表示;所述能够传达情感的语音-语音翻译方法的特征还在于包括以下步骤从方言A的语音表示中提取情感表述参数;以及将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出。本专利技术的具有情感的语音-语音翻译系统和方法可以改善翻译系统或TTS系统的语音输出质量。通过以下结合附图的说明,本专利技术的其它目标和优点将会更加清楚。详细的描述和具体的实施例只是为了进行说明而提供的,因为在本专利技术的精神范围内对于这些实施例的添加和改进对于本领域技术人员来说是显而易见的。附图说明图1是根据本专利技术一优选实施例的具有情感的语音-语音翻译系统的方框图;图2是根据本专利技术一优选实施例的图1中的情感表述参数检测装置的方框图;图3是根据本专利技术一优选实施例的图1中的情感表述参数映射装置的方框图;图4是根据本专利技术另一优选实施例的具有情感的语音-语音翻译系统的方框图;图5是一流程图,描述了根据本专利技术一优选实施例的可以传达情感的语音-语音翻译过程;图6是一流程图,描述了根据本专利技术一优选实施例的情感表述参数检测过程;图7是一流程图,描述了根据本专利技术一优选实施例的情感表述参数映射以及调节TTS参数的形成过程;以及图8是一流程图,描述了根据本专利技术另一优选实施例的可以传达情感的语音-语音翻译过程。如图1所示,根据末专利技术一优选实施例的具有情感的语音-语音翻译系统包括语音识别装置101、机器翻译装置102、文本-语音生成装置103、情感表述参数检测装置104以及情感表述参数映射装置105。其中,语音识别装置101用于对语言A的语音表示进行识别,形成语言A的文本表示;机器翻译装置102用于将语言A的本文表示翻译成语言B的文本表示;文本-语音生成装置103用于根据语言B的文本表示生成语言B的语音表示;情感表示参数检测装置104用于从语言A的语音表示中提取情感表述参数;并且,情感表述参数映象装置105用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。正如本领域技术人员所熟知的,语音识别装置、机器翻译装置以及TTS装置都是可以使用现有技术来实现的。因此,以下只结合图2和图3描述一下根据本专利技术优选实施例的情感表述参数检测装置和情感表述参数映射装置。首先介绍一下可以反映语音情感的关键性参数。可以在不同层次上定义反映语音情感的关键性参数。1.在字/词级,反映语音情感的关键性参数有速度(持续时间)、响度(能量级)以及基频(包括范围和音调)。注意,由于一个词通常由几个语音合成单元(在汉语中大多数词由两个以上字/音节组成),所以还必须在语音合成单元级以向量或时间序列的形式定义语音的情感表述参数。例如,当人们很生气时,他/她所说的字/词的响度就非常高,字/词的基频也比通常高,并且其包络不平滑,而且许多基频消失,同时持续时间变短。另一例子是,当人们在正常情况下说话时,可能会强调语句中的一些字/词,这样这些字/词的基频、响度、持续时间就会发生变化。2.在语句级,我们将焦点放在语调上。例如,疑问句的包络不同于陈述句。以下就结合图2和图3描述一下根据本专利技术一优选实施例的情感表述参数检测装置以及情感表述参数映射装置是如何工作的。即如何提取情感表述参数以及如何利用提取的情感表述参数驱动现有的TTS装置产生能够传达情感的语音输出。如图2所示,本专利技术情感表述参数检测装置包括以下模块模块A分析说话者语音的基频、持续时间和响度。在模块A,我们利用语音识别的结果进行语音和字/词(或字符)之间的对准。并按如下结构记录对准结果句子本文档来自技高网...

【技术保护点】
一种具有情感的语音-语音翻译系统,包括: 语音识别装置,用于对语言A的语音表示进行识别,形成语言A的文本表示; 机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示; 文本-语音生成装置,用于根据语言B的文本表示生成语言B的语音表示, 所述具有情感的语音-语音翻译系统的特征在于还包括: 情感表述参数检测装置,用于从语言A的语音表示中提取情感表述参数;以及 情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。

【技术特征摘要】
1.一种具有情感的语音-语音翻译系统,包括语音识别装置,用于对语言A的语音表示进行识别,形成语言A的文本表示;机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示;文本-语音生成装置,用于根据语言B的文本表示生成语言B的语音表示,所述具有情感的语音-语音翻译系统的特征在于还包括情感表述参数检测装置,用于从语言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。2.根据权利要求1的系统,其特征在于所述情感表述参数检测装置从不同层次提取情感表述参数。3.根据权利要求2的系统,其特征在于所述情感表述参数检测装置从字、词级提取情感表述参数。4.根据权利要求2的系统,其特征在于所述情感表述参数检测装置从语句级提取情感表述参数。5.根据权利要求1的系统,其特征在于所述情感表述参数映射装置把所述情感表述参数从语言A映射到语言B,然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节文本-语音生成装置的参数。6.一种具有情感的语音-语音翻译系统,包括语音识别装置,用于对一种方言A的语音进行识别,形成其文本表示;文本-语音生成装置,根据所述文本表示生成另一种方言B的语音表示;所述具有情感的语音-语音翻译系统的特征还在于包括情感表述参数检测装置,用于从方言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。7.根据权利要求6的系统,其特征在于所述情感表述参数检测装置从不同层次提取情感表述参数。8.根据权利要求7的系统,其特征在于所述情感表述参数检测装置从字、词级提取情感表述参数。9.根据权利要求7的系统,其特征在于所述情感表述参数检测装置从语句级提取情感表述参数。10.根据权利要求6的系统,其特征在于所述情感表述参数映射装置把所述情感表述参数从方言A映射到方言B,然后再通过字词级变换映射和语...

【专利技术属性】
技术研发人员:唐道南沈丽琴施勤张维
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1