一种原声语音翻译方法技术

技术编号:30154457 阅读:13 留言:0更新日期:2021-09-25 15:05
本发明专利技术公开了一种原声语音翻译方法,涉及语音翻译技术领域,一种原声语音翻译方法,包括以下步骤:源语言语音采集,声音特征学习模块提取说话人的声音特征,送入深度神经网络DNN训练学习,STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,通过合成语音模块进行语音合成模拟。本发明专利技术通过将语言发音特征作为特征值送入深度神经网络DNN训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量,通过合成语音模块进行语音合成模拟,发出与说话人语音相似的声音,使翻译后合成的语音高度接近说话人本人的特征。翻译后合成的语音高度接近说话人本人的特征。翻译后合成的语音高度接近说话人本人的特征。

【技术实现步骤摘要】
一种原声语音翻译方法


[0001]本专利技术涉及语音翻译
,具体涉及一种原声语音翻译方法。

技术介绍

[0002]人工智能技术的发展使得语音翻译极大的发展与应用。语音翻译的过程主要将说话人的源语音信号转换为源文本信息,源文本信息通过文本翻译模块转换为目标语言的文本信息,再通过语音合成模块生成目标语言的语音信号播放而完成语音翻译,如今常用的语音翻译技术中,其翻译后发出的合成语音往往出现性别差异,说话人为男性但翻译语音为女声,缺少对说话人个性化的反应,无法传递说话想表达的情感和语言特征,且往往输出的语音生硬且交互体验不佳,进而造成翻译效果不够理想。

技术实现思路

[0003]本专利技术的目的是提供一种原声语音翻译方法,以解决现有技术中的上述不足之处。
[0004]为了实现上述目的,本专利技术提供如下技术方案:一种原声语音翻译方法,包括以下步骤:
[0005]步骤一、源语言语音采集,通过语音采集模块将语音信息采集后,发送给声音特征学习模块和STT(Speech

To

Text)模块。
[0006]步骤二、声音特征学习模块提取说话人的声音特征,特征被提取后经过深度神经网络DNN的学习建立声音特征模型,语言发音特征作为特征值送入深度神经网络DNN(Deep Neural Network)训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量。
[0007]步骤三、STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,该特征经深度神经网络DNN的学习后修正语言特征模型,该模型所用参数被用于翻译模块的重要参考参数,作为翻译的预判信息;
[0008]步骤四、通过合成语音模块进行语音合成模拟,将翻译后,且经深度神经网络DNN的学习后修正语言特征模型作为语音输出的信息基础,模拟输出语言信息,采用时间区间模型与基频模型结合建立合成语音模型,生成时频谱信号,利用葛林氏算法Griffin

Lim对合成语音模块进行合成处理,得到对应的人声特征语音信号,合成语音模型如下:
[0009][0010]S为给定的时频谱信号,
[0011]x
i
为第i次重建的信号,
[0012]f为短时距傅里叶变换,
[0013]f
‑1为反变换,
[0014]S
i
,P
i
分别代表x
i
的短时傅里叶变换的大小及相位;
[0015]步骤五、不断的重建信号,最终合成最接近说话者的语言、语音特征,并根据翻译内容,实时翻译播放,完成语音翻译过程。
[0016]优选的,所述步骤一中源语音采集包含对声音信号的预处理和判断,所述预处理包含语音的增强,背景声音消除,回声抑制等有利于优化信号的处理,所述判断包括判断声音信号中是否包含语言信息,如果未检测到语言信息,则当前信息被丢弃。
[0017]优选的,所述步骤二中声音特征模型具有预先训练好的声音特征模型,每次新的语音声音特征被学习均会修正该模型。
[0018]优选的,所述步骤二中声音特征学习模块包含特征提取,所提取的特征主要包含语言发音的特征,如元音、辅音、浊音等,提取的特征还包含说话人的发声特征,如音强、音调、音色。
[0019]优选的,所述步骤三中翻译流程的主要模块是同步实时执行的,而声音与语言特征的学习和模型修正过程可以异步执行,从而不影响翻译过程的实时性。
[0020]在上述技术方案中,本专利技术提供的技术效果和优点:
[0021]本专利技术通过语音采集模块将语音信息采集后,语言发音特征作为特征值送入深度神经网络DNN训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量,同时STT模块转换源语音的文字信息,经深度神经网络DNN的学习后修正语言特征模型,作为翻译的预判信息,随后通过合成语音模块进行语音合成模拟,以具有说话人说话风格的语言信息为基础,经合成后发出与说话人语音相似的声音,从而在翻译后合成的语音高度接近说话人本人的特征。
附图说明
[0022]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0023]图1为本专利技术的整体结构示意图。
[0024]图2为本专利技术声音特征提取流程图。
[0025]图3为本专利技术ADSR包络示图图。
[0026]图4为本专利技术模型重建的逻辑框图。
[0027]附图标记说明:
[0028]A:声音从静音到发音峰值的时间,此时是能量爆发阶段;
[0029]D:从峰值回落的发音稳定的时间;
[0030]S:稳定发音的时间区间;
[0031]R:发音结束后回落的时间。
具体实施方式
[0032]为了使本领域的技术人员更好地理解本专利技术的技术方案,下面将结合附图对本专利技术作进一步的详细介绍。
[0033]本专利技术提供了一种原声语音翻译方法,包括以下步骤:
[0034]步骤一、源语言语音采集,通过语音采集模块将语音信息采集后,发送给声音特征
学习模块和STT(Speech

To

Text)模块。
[0035]步骤二、声音特征学习模块提取说话人的声音特征,特征被提取后经过深度神经网络DNN的学习建立声音特征模型,语言发音特征作为特征值送入深度神经网络DNN(Deep Neural Network)训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量。
[0036]步骤三、STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,该特征经深度神经网络DNN的学习后修正语言特征模型,该模型所用参数被用于翻译模块的重要参考参数,作为翻译的预判信息;
[0037]步骤四、通过合成语音模块进行语音合成模拟,将翻译后,且经深度神经网络DNN的学习后修正语言特征模型作为语音输出的信息基础,模拟输出语言信息,采用时间区间模型与基频模型结合建立合成语音模型,生成时频谱信号,利用葛林氏算法Griffin

Lim对合成语音模块进行合成处理,得到对应的人声特征语音信号,合成语音模型如下:
[0038][0039]S为给定的时频谱信号,
[0040]x
i
为第i次重建的信号,
[0041]f为短时距傅里叶变换,
[0042]f
‑1为反变换,
[0043]S
i
,P
i
分别代表x
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种原声语音翻译方法,其特征在于,包括以下步骤:步骤一、源语言语音采集,通过语音采集模块将语音信息采集后,发送给声音特征学习模块和STT(Speech

To

Text)模块。步骤二、声音特征学习模块提取说话人的声音特征,特征被提取后经过深度神经网络DNN的学习建立声音特征模型,语言发音特征作为特征值送入深度神经网络DNN(Deep Neural Network)训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量。步骤三、STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,该特征经深度神经网络DNN的学习后修正语言特征模型,该模型所用参数被用于翻译模块的重要参考参数,作为翻译的预判信息;步骤四、通过合成语音模块进行语音合成模拟,将翻译后,且经深度神经网络DNN的学习后修正语言特征模型作为语音输出的信息基础,模拟输出语言信息,采用时间区间模型与基频模型结合建立合成语音模型,生成时频谱信号,利用葛林氏算法Griffin

Lim对合成语音模块进行合成处理,得到对应的人声特征语音信号,合成语音模型如下:S为给定的时频谱信号,x
i
...

【专利技术属性】
技术研发人员:孟强祥田俊麟宋昱
申请(专利权)人:引智科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1