Embodiments of the disclosure relate to methods, devices, devices and computer program products for speech translation. The method includes receiving source speech data in the form of source language, determining phoneme sequences corresponding to the source speech data, phonemes in the phoneme sequences representing the units of sound in the source language, and generating target speech data in the form of target language based on the phoneme sequences. In this way, the influence of incorrect speech recognition on machine translation can be reduced and the accuracy of translation can be improved.
【技术实现步骤摘要】
用于语音翻译的方法、装置、设备和计算机可读存储介质
本公开的实施例一般涉及语音翻译,并且更具体地涉及用于语音翻译(特别是实时语音翻译)的方法、装置、设备和计算机可读存储介质。
技术介绍
语音翻译是指将一种语言(也称源语言)的语音转换为另一种语言(目标语言)的语音,其可以解决跨语言的沟通问题。实时语音翻译,也称同声传译,常见于国际会议,例如联合国大会、国际学术交流会议和跨国企业内部会议等,通常会议参与者来自不同的国家,使用不同的语言进行沟通。目前的语音翻译方案通常将语音识别成文字并对文字进行翻译,将翻译后的文字合成为目标语言的语音。这种方案不对讲话者的内容进行理解,而是转化为标准的翻译任务进行处理。这导致翻译的质量通常受语音识别的质量的严重影响。因此,需要提供一种至少部分解决上述技术问题的用于语音翻译的技术方案。
技术实现思路
根据本公开的实施例,提供了一种用于语音翻译的方案。在本公开的第一方面,提供了一种用于语音翻译的方法。该方法包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。在本公开的第二方面,提供了一种用于语音翻译的装置。该装置包括:接收模块,被配置为接收源语言形式的源语音数据;第一确定模块,被配置为确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及第一生成模块,被配置为基于所述音素序列,生成目标语言形式的目标语音数据。在本公开的第三方面,提供了一种电子设备。该电子设备包括:一个或多个处理器;以及 ...
【技术保护点】
1.一种用于语音翻译的方法,包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。
【技术特征摘要】
1.一种用于语音翻译的方法,包括:接收源语言形式的源语音数据;确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及基于所述音素序列,生成目标语言形式的目标语音数据。2.根据权利要求1所述的方法,其中确定所述音素序列还包括:确定与所述音素序列中的音素相关联的概率,所述概率指示对所述音素的预测的准确性,并且其中生成所述目标语音数据还包括:获取第一翻译模型,所述第一翻译模型的参数是基于音素序列训练数据和与所述音素序列训练数据相关联的概率训练数据而获得的;通过将所述音素序列和所述概率应用于所述第一翻译模型,来确定与所述源语音数据对应的目标语言形式的目标文字数据;以及基于所述目标文字数据来生成所述目标语音数据。3.根据权利要求1所述的方法,还包括:基于所述源语音数据来确定产生所述源语音数据的对象的声纹;以及基于所述声纹来确定所述源语言,以用于确定所述音素序列。4.根据权利要求1所述的方法,还包括:获取产生所述源语音数据的对象的面部图像;基于所述面部图像来识别所述对象的面部;以及基于识别的所述面部来确定所述源语言,以用于确定所述音素序列。5.根据权利要求1所述的方法,还包括:确定与产生所述源语音数据的对象的表情相关联的表情数据,并且其中生成所述目标语音数据包括:获取第二翻译模型,所述第二翻译模型的参数是基于音素序列训练数据和与所述音素序列训练数据相关联的表情训练数据而获得的;通过将所述音素序列和所述表情数据应用于所述第二翻译模型,来确定与所述源语音数据对应的目标语言形式的目标文字数据;以及基于所述目标文字数据来生成所述目标语音数据。6.根据权利要求5所述的方法,其中确定所述表情数据包括:获取所述对象在产生所述源语音数据时的表情;以及确定所述对象的表情与多个预定义标签相关联的概率,以作为所述表情数据。7.根据权利要求1所述的方法,其中生成所述目标语音数据包括:确定所述源语音数据与角色数据的第一相似度,所述角色数据包括产生所述源语音数据的对象的、与所述源语言对应的历史音素数据;确定所述源语音数据与全局数据的第二相似度,所述全局数据包括多个对象的、与所述源语言对应的历史音素数据;以及基于所述音素序列、所述第一相似度和所述第二相似度,生成所述目标语音数据。8.一种用于语音翻译的装置,包括:接收模块,被配置为接收源语言形式的源语音数据;第一确定模块,被配置为确定与所述源语音数据对应的音素序列,所述音素序列中的音素表示所述源语言的声音的单位;以及第一生成模块,被配置为基于所述音素序列,生成目标语言形式的目标语音数据。9.根据权利要求8所述的装置,其中所述第一确定模块包括:第二确定模块,被配置为确定与所述音素序列中的音素相关联的概率,所述...
【专利技术属性】
技术研发人员:熊皓,何中军,胡晓光,李芝,吴华,忻舟,吴甜,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。