用于语音翻译的方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:19347741 阅读:27 留言:0更新日期:2018-11-07 15:57
本公开的实施例涉及用于语音翻译的方法、装置、设备和计算机程序产品。该方法包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。以这种方式,可以降低错误的语音识别对机器翻译造成的影响,从而提高翻译的准确性。

Method, device, device and computer readable storage medium for speech translation

Embodiments of the disclosure relate to methods, devices, devices and computer program products for speech translation. The method includes receiving source speech data in the form of source language, determining phoneme sequences corresponding to the source speech data, phonemes in the phoneme sequences representing the units of sound in the source language, and generating target speech data in the form of target language based on the phoneme sequences. In this way, the influence of incorrect speech recognition on machine translation can be reduced and the accuracy of translation can be improved.

【技术实现步骤摘要】
用于语音翻译的方法、装置、设备和计算机可读存储介质
本公开的实施例一般涉及语音翻译,并且更具体地涉及用于语音翻译(特别是实时语音翻译)的方法、装置、设备和计算机可读存储介质。
技术介绍
语音翻译是指将一种语言(也称源语言)的语音转换为另一种语言(目标语言)的语音,其可以解决跨语言的沟通问题。实时语音翻译,也称同声传译,常见于国际会议,例如联合国大会、国际学术交流会议和跨国企业内部会议等,通常会议参与者来自不同的国家,使用不同的语言进行沟通。目前的语音翻译方案通常将语音识别成文字并对文字进行翻译,将翻译后的文字合成为目标语言的语音。这种方案不对讲话者的内容进行理解,而是转化为标准的翻译任务进行处理。这导致翻译的质量通常受语音识别的质量的严重影响。因此,需要提供一种至少部分解决上述技术问题的用于语音翻译的技术方案。
技术实现思路
根据本公开的实施例,提供了一种用于语音翻译的方案。在本公开的第一方面,提供了一种用于语音翻译的方法。该方法包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。在本公开的第二方面,提供了一种用于语音翻译的装置。该装置包括:接收模块,被配置为接收源语言形式的源语音数据;第一确定模块,被配置为确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及第一生成模块,被配置为基于所述音素序列,生成目标语言形式的目标语音数据。在本公开的第三方面,提供了一种电子设备。该电子设备包括:一个或多个处理器;以及存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得电子设备实现根据本公开的第一方面的方法。在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了能够在其中实现本公开的实施例的示例性环境的示意图;图2示出了根据本公开的一些实施例的用于语音翻译的方法的流程图;图3示出了根据本公开的一些实施例的翻译模型的示意性框图;图4示出了根据本公开的一些实施例的用于语音翻译的方法的示意图;图5示出了根据本公开的一些实施例的用于语音翻译的装置的方框图;以及图6示出了能够实施本公开的一些实施例的电子设备的方框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。如上文所提及的,目前的语音翻译方案通常将语音识别成文字并对文字进行翻译,将翻译后的文字合成为目标语言的语音。这种方案不对讲话者的内容进行理解,而是转化为标准的翻译任务进行处理。这导致翻译的质量通常受语音识别的质量的严重影响。例如,自动语音翻译装置首先对讲话者进行语音识别,转成文字后通过多语种翻译引擎翻译成目标语言的文字,最后通过语音合成技术生成参会者使用的语种语音。该方案仅识别讲话者的语音信息,不采集讲话者的人脸表情等动作,并且不对用户讲话内容进行上下文分析和理解,仅仅定义为需要翻译的单个句子,因此造成翻译的准确率不高,实用价值受影响。针对上述问题以及其他可能的潜在问题,本公开的实施例提供了一种用于语音翻译的方案。在该方案中,将源语言形式的源语音数据转换为与源语音数据对应的音素序列,并且基于音素序列来获得目标语言形式的目标语音数据。以这种方式,可以降低错误的语音识别对机器翻译造成的影响,从而提高翻译的准确性。下面将结合图1到图6来具体描述本公开的实施例。图1示出了能够在其中实现本公开的实施例的示例性环境100的示意图。在环境100中,对象102使用一种语言(也称源语言)进行讲话,以产生语音数据,也称源语音数据104。在该示例中,源语言为中文,并且对象102以中文讲述“中印关系升温”。例如,对象102可以在国际会议、国际会谈等上发表讲话。计算设备106获取源语音数据104,并将源语音数据104转换为另一种语言(也称目标语言)的语音数据,称之为目标语音数据108。在该示例中,目标语言是英语。应当理解,上述示例仅仅是为了说明的目的,而无意限制本公开的实施例的范围。例如,源语言也可以是英语、法语、日语等语言,目标语言也可以是中文、法语、日语等语言。在本公开的上下文中,术语“语音”是指具有语言属性的音频,其可以由人体发出,也可以由扬声器等电子设备发出。除非上下文另外指出,否则术语“语音”不限于源自人体。图2示出了根据本公开的一些实施例的用于语音翻译的方法200的流程图。方法200可以至少部分地由图1所示的计算设备106来实现。在框202,计算设备106接收源语言形式的源语音数据104。源语音数据104可以是图1所示的对象102所产生的。例如,源语言数据104可以是一句话或者一定时间长度的语音。在框204,计算设备106确定与源语音数据104对应的音素序列。音素序列中的音素表示源语言的声音的单位。例如,在源语言是中文时,音素对应于拼音,在源语言是英文时,音素对应于音标,等等。应当理解,上述示例仅仅是为了说明的目的,而无意限制本公开的实施例的范围。在一些实施例中,计算设备106可以使用各种语音识别方法来确定音素序列。例如,可以通过声学模型(例如,CTC声学模型)来进行语音识别。声学模型可以确定与音素序列中的音素相关联的概率,其中概率指示对音素的预测的准确性。声学模型可以将语音信号转换为对应的文字信息。然而,计算设备106可以仅获取中间输出结果(例如,音素序列和相应的概率),并提供这些中间输出结果。在一些实施例中,可以自动地识别源语言,并根据自动识别的源语言(也称语种)来进行语音识别以确定音素序列。例如,可以通过声纹识别和/或人脸识别来确定对象102所使用的源语言。通过根据声纹识别结果和/或人脸识别结果来识别当前的讲话者,可以预先知道讲话者采用的语言或语种,以实现整个流程的完全自动化处理。在一些实施例中,声纹识别可以基于源语音数据来确定对象102的声纹,并基于声纹来确定源语言,以用于确定音素序列。例如,可以确定各个对象的声纹特征参数,并将对象102的声纹参数与已知的声纹特征参数进行比较,以确定对象102与这些对象中的哪个对象的相似度最高。以这种方式,可以确定对象102的身份。例如,可以使用梅尔倒谱系数(MFCC)来提取频谱特征。训练高斯混合模型-通用背景模型(GMM-UBM),训练出每个高斯分量的参数(均值、方差、权值)。然后,训练总体变化子空间T,使高斯分量从高维映射到低维的i-vector向量。在获得i-vector向量以后利用线性判别式分析(LD本文档来自技高网
...

【技术保护点】
1.一种用于语音翻译的方法,包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。

【技术特征摘要】
1.一种用于语音翻译的方法,包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。2.根据权利要求1所述的方法,其中确定所述音素序列还包括:确定与所述音素序列中的音素相关联的概率,所述概率指示对所述音素的预测的准确性,并且其中生成所述目标语音数据还包括:获取第一翻译模型,所述第一翻译模型的参数是基于音素序列训练数据和与所述音素序列训练数据相关联的概率训练数据而获得的;通过将所述音素序列和所述概率应用于所述第一翻译模型,来确定与所述源语音数据对应的目标语言形式的目标文字数据;以及基于所述目标文字数据来生成所述目标语音数据。3.根据权利要求1所述的方法,还包括:基于所述源语音数据来确定产生所述源语音数据的对象的声纹;以及基于所述声纹来确定所述源语言,以用于确定所述音素序列。4.根据权利要求1所述的方法,还包括:获取产生所述源语音数据的对象的面部图像;基于所述面部图像来识别所述对象的面部;以及基于识别的所述面部来确定所述源语言,以用于确定所述音素序列。5.根据权利要求1所述的方法,还包括:确定与产生所述源语音数据的对象的表情相关联的表情数据,并且其中生成所述目标语音数据包括:获取第二翻译模型,所述第二翻译模型的参数是基于音素序列训练数据和与所述音素序列训练数据相关联的表情训练数据而获得的;通过将所述音素序列和所述表情数据应用于所述第二翻译模型,来确定与所述源语音数据对应的目标语言形式的目标文字数据;以及基于所述目标文字数据来生成所述目标语音数据。6.根据权利要求5所述的方法,其中确定所述表情数据包括:获取所述对象在产生所述源语音数据时的表情;以及确定所述对象的表情与多个预定义标签相关联的概率,以作为所述表情数据。7.根据权利要求1所述的方法,其中生成所述目标语音数据包括:确定所述源语音数据与角色数据的第一相似度,所述角色数据包括产生所述源语音数据的对象的、与所述源语言对应的历史音素数据;确定所述源语音数据与全局数据的第二相似度,所述全局数据包括多个对象的、与所述源语言对应的历史音素数据;以及基于所述音素序列、所述第一相似度和所述第二相似度,生成所述目标语音数据。8.一种用于语音翻译的装置,包括:接收模块,被配置为接收源语言形式的源语音数据;第一确定模块,被配置为确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及第一生成模块,被配置为基于所述音素序列,生成目标语言形式的目标语音数据。9.根据权利要求8所述的装置,其中所述第一确定模块包括:第二确定模块,被配置为确定与所述音素序列中的音素相关联的概率,所述...

【专利技术属性】
技术研发人员:熊皓何中军胡晓光李芝吴华忻舟吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1