当前位置: 首页 > 专利查询>江汉大学专利>正文

一种自适应语音增强的语音交互方法、系统及存储介质技术方案

技术编号:33372531 阅读:15 留言:0更新日期:2022-05-11 22:38
本申请提供了一种自适应语音增强的语音交互方法,该方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型得到机器回复的文本文件;将机器回复的文本文件进行文本分析,并送入声学模型中进行训练,获取语音特征,通过声码器合成语音;获取伦巴第语音音频的德语语料库作为训练数据集,采用训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0;通过声压计实时获取当前环境噪声等级;将特征频谱包络MCCs特征和当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试,根据实时噪声等级进行相应的语音风格转换,并输出语音增强后的语音。输出语音增强后的语音。输出语音增强后的语音。

【技术实现步骤摘要】
一种自适应语音增强的语音交互方法、系统及存储介质


[0001]本专利技术涉及语音交互
,尤其涉及一种自适应语音增强的语音交互方法、装置及存储介质。

技术介绍

[0002]近年来,如何在嘈杂环境中提高语音的可理解性越来越受到人们的关注。这个主题被称为语音清晰度增强或近端听力增强,这是一种在嘈杂环境中再现干净(无噪声)语音的感知增强技术。当暴露在不利的噪声环境中,即使设备输出清晰的语音,听众也很难获得信息。
[0003]以往的研究利用伦巴第(Lombard)效应,在近端引入了从无噪声的正常语音到伦巴第语音的转换。然而,在信噪比非常低的近端强噪声干扰中效果非常差。在一些语音通话中,扬声器和接收器处于不同的噪声环境中,使得扬声器使用伦巴第语音。在这种情况下,普通到伦巴第语音的语言风格转换的实现并没有预期的那么有效。

技术实现思路

[0004]本专利提出了自适应自注意语音转换方案,设计了一种适应环境噪声的语音风格转换方案,实现不同伦巴第语音与正常语音之间的转换,并与语音识别结合实现与机器的语音交互。StarGAN生成器将自注意机制和自适应实例归一化AdaIN与卷积神经网络相结合,命名为AdaSAStarGAN。能够有效地解决训练效率低的问题。
[0005]有鉴于此,本申请第一方面提供了一种自适应语音增强的语音交互方法,其特征在于,所述方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件,其中,所述seq2seq端到端模型是根据THCHS

30中文数据库训练得到的;将所述机器回复的文本文件进行文本分析,并送入声学模型中进行训练,获取语音特征,通过声码器合成语音;获取包含正常语音音频与两个噪声等级下的伦巴第语音音频的德语语料库作为训练数据集,采用所述训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0;通过声压计实时获取当前环境噪声等级;将所述特征频谱包络MCCs特征和所述当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试,根据实时噪声等级进行相应的语音风格转换,并输出语音增强后的语音,计算自适应自注意StarGAN网络的损失函数;将语音可懂度、短时客观可懂度作为语音增强后的语音的可懂度以及感知效果的评价指标。
[0006]可选的,结合第一方面,在一种可能的实现方式中,所述获取用户输入的语音文件具体包括:根据设备录音得到的wav格式文件;通过ffmpeg程序将所述wav格式文件转换为pcm格式文件。
[0007]可选的,结合第一方面,在一种可能的实现方式中,所述根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件具体包括:采用长短时记忆循环网络结构进行训练,以得到机器实时应做出的反应,输出机器回复的文本文件。
[0008]可选的,结合第一方面,在一种可能的实现方式中,所述训练数据集,是从德语语料库中选取部分语音进行实验以获得的,所述德语语料库包括0分贝背景噪声下录的正常语,55分贝噪声下录的伦巴第语,以及70分贝背景噪声下录的伦巴第语。
[0009]可选的,结合第一方面,在一种可能的实现方式中,所述声码器为world声码器,所述world声码器采用3个算法提取3个参数,并用一个合成算法将所述3个参数作为输入,所述采用所述训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0具体包括:输入wave通过DIO算法估算出基频f0;基频f0和wave作为输入,由cheap trick估计出频谱包络;输入f0/sp/wave,用PLATINUM将提取出来的信号进行估计,得到周期参数。
[0010]可选的,结合第一方面,在一种可能的实现方式中,所述通过声压计实时获取当前环境噪声等级具体包括:采用声压计实时获取当前环境噪声的分贝值,其中,测得音频信号的分贝值在0分贝至100分贝之间;对实时获取到的当前环境噪声的分贝值进行分类,其中,0至55分贝噪声下的语音归为正常语,55至70分贝下噪声下的语音归为伦巴第语等级1,70分贝以上的噪声下的语音归为伦巴第语等级2。
[0011]可选的,结合第一方面,在一种可能的实现方式中,所述计算自适应自注意StarGAN网络的损失函数具体计算方式如下:
[0012]计算目标条件对抗性损失:
[0013]L
st

adv
=E
(x,n)~P(x,n),n

~P(n

)
[logD(x,n

,n)]+E
(x,n)~P(x,n),n

~P(n

)
[logD(G(x,n,n

),n,n

)];
[0014]其中,n

~P(n

)是独立于真实数据随机采样的,D是目标条件判别器;
[0015]计算循环一致性损失:
[0016]L
cyc
=E
(x,n)~P(x,n),n

~P(n

)
[||x

G(G(x,n

),n)||1];
[0017]身份映射损失:
[0018]L
id
=E
(x,n)~P(x,n)
[||G(x,n)

x||];
[0019]所述自适应自注意StarGAN最小化生成器、判别器的全部目标如下:
[0020][0021]L
D


L
st

adv

[0022]其中,和分别为正则化参数,分别衡量了循环一致性损失和身份映射损失相对于对抗损失的重要性,生成器和判别器分别通过最小化L
G
和L
D
来优化。
[0023]可选的,结合第一方面,在一种可能的实现方式中,所述设置参数并训练具体包括:预先设置噪声自适应自注意StarGAN网络的隐藏层数,隐藏节点以及学习率;采用声码器world提取训练语料中提取的频谱包络和基频f0作为特征输入到噪声自适应自注意StarGAN网络,进行网络训练;所述将所述特征频谱包络MCCs和所述当前环境噪声等级输入到噪声自适应自注意StarGAN网络模型中进行模型的测试具体包括:采用声码器world提取语音合成后的语音的特征频谱包络MCCs特征和当前环境噪声输入训练好的网络上进行测试。
[0024]本申请第二方面提供了一种自适应语音增强的语音交互系统,其特征在于,所述自适应语音增强的语音交互系统包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储
器中的所述指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应语音增强的语音交互方法,其特征在于,所述方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件,其中,所述seq2seq端到端模型是根据THCHS

30中文数据库训练得到的;将所述机器回复的文本文件进行文本分析,并送入声学模型中进行训练,获取语音特征,通过声码器合成语音;获取包含正常语音音频与两个噪声等级下的伦巴第语音音频的德语语料库作为训练数据集,采用所述训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0;通过声压计实时获取当前环境噪声等级;将所述特征频谱包络MCCs特征和所述当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试,根据实时噪声等级进行相应的语音风格转换,并输出语音增强后的语音,计算自适应自注意StarGAN网络的损失函数;将语音可懂度、短时客观可懂度作为语音增强后的语音的可懂度以及感知效果的评价指标。2.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述获取用户输入的语音文件具体包括:根据设备录音得到的wav格式文件;通过ffmpeg程序将所述wav格式文件转换为pcm格式文件。3.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件具体包括:采用长短时记忆循环网络结构进行训练,以得到机器实时应做出的反应,输出机器回复的文本文件。4.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述训练数据集,是从德语语料库中选取部分语音进行实验以获得的,所述德语语料库包括0分贝背景噪声下录的正常语,55分贝噪声下录的伦巴第语,以及70分贝背景噪声下录的伦巴第语。5.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述声码器为world声码器,所述world声码器采用3个算法提取3个参数,并用一个合成算法将所述3个参数作为输入,所述采用所述训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0具体包括:输入wave通过DIO算法估算出基频f0;基频f0和wave作为输入,由cheap trick估计出频谱包络;输入f0/sp/wave,用PLATINUM将提取出来的信号进行估计,得到周期参数。6.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述通过声压计实时获取当前环境噪声等级具体包括:采用声压计实时获取当前环境噪声的分贝值,其中,测得音频信号的分贝值在0分贝至100分贝之间;对实时获取到的当前环境噪声的分贝值进行分类,其中,0至55分贝噪声下的语音归为正常语,55至70分贝下噪声下的语音归为伦巴第语等级1,70分贝以上的噪声下的语音归为
伦巴第语等级2。7.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述计算自适应自注意StarGAN网络...

【专利技术属性】
技术研发人员:李登实叶海洋赵兰馨高雨薛童陈天卓陈奥何佳欣吴梓煊
申请(专利权)人:江汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1