【技术实现步骤摘要】
一种自适应语音增强的语音交互方法、系统及存储介质
[0001]本专利技术涉及语音交互
,尤其涉及一种自适应语音增强的语音交互方法、装置及存储介质。
技术介绍
[0002]近年来,如何在嘈杂环境中提高语音的可理解性越来越受到人们的关注。这个主题被称为语音清晰度增强或近端听力增强,这是一种在嘈杂环境中再现干净(无噪声)语音的感知增强技术。当暴露在不利的噪声环境中,即使设备输出清晰的语音,听众也很难获得信息。
[0003]以往的研究利用伦巴第(Lombard)效应,在近端引入了从无噪声的正常语音到伦巴第语音的转换。然而,在信噪比非常低的近端强噪声干扰中效果非常差。在一些语音通话中,扬声器和接收器处于不同的噪声环境中,使得扬声器使用伦巴第语音。在这种情况下,普通到伦巴第语音的语言风格转换的实现并没有预期的那么有效。
技术实现思路
[0004]本专利提出了自适应自注意语音转换方案,设计了一种适应环境噪声的语音风格转换方案,实现不同伦巴第语音与正常语音之间的转换,并与语音识别结合实现与机器的语音交互。StarGAN生成器将自注意机制和自适应实例归一化AdaIN与卷积神经网络相结合,命名为AdaSAStarGAN。能够有效地解决训练效率低的问题。
[0005]有鉴于此,本申请第一方面提供了一种自适应语音增强的语音交互方法,其特征在于,所述方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件,其中,所述s ...
【技术保护点】
【技术特征摘要】
1.一种自适应语音增强的语音交互方法,其特征在于,所述方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件,其中,所述seq2seq端到端模型是根据THCHS
‑
30中文数据库训练得到的;将所述机器回复的文本文件进行文本分析,并送入声学模型中进行训练,获取语音特征,通过声码器合成语音;获取包含正常语音音频与两个噪声等级下的伦巴第语音音频的德语语料库作为训练数据集,采用所述训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0;通过声压计实时获取当前环境噪声等级;将所述特征频谱包络MCCs特征和所述当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试,根据实时噪声等级进行相应的语音风格转换,并输出语音增强后的语音,计算自适应自注意StarGAN网络的损失函数;将语音可懂度、短时客观可懂度作为语音增强后的语音的可懂度以及感知效果的评价指标。2.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述获取用户输入的语音文件具体包括:根据设备录音得到的wav格式文件;通过ffmpeg程序将所述wav格式文件转换为pcm格式文件。3.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述根据seq2seq端到端模型对所述文本文件进行翻译,以得到机器回复的文本文件具体包括:采用长短时记忆循环网络结构进行训练,以得到机器实时应做出的反应,输出机器回复的文本文件。4.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述训练数据集,是从德语语料库中选取部分语音进行实验以获得的,所述德语语料库包括0分贝背景噪声下录的正常语,55分贝噪声下录的伦巴第语,以及70分贝背景噪声下录的伦巴第语。5.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述声码器为world声码器,所述world声码器采用3个算法提取3个参数,并用一个合成算法将所述3个参数作为输入,所述采用所述训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0具体包括:输入wave通过DIO算法估算出基频f0;基频f0和wave作为输入,由cheap trick估计出频谱包络;输入f0/sp/wave,用PLATINUM将提取出来的信号进行估计,得到周期参数。6.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述通过声压计实时获取当前环境噪声等级具体包括:采用声压计实时获取当前环境噪声的分贝值,其中,测得音频信号的分贝值在0分贝至100分贝之间;对实时获取到的当前环境噪声的分贝值进行分类,其中,0至55分贝噪声下的语音归为正常语,55至70分贝下噪声下的语音归为伦巴第语等级1,70分贝以上的噪声下的语音归为
伦巴第语等级2。7.根据权利要求1所述的自适应语音增强的语音交互方法,其特征在于,所述计算自适应自注意StarGAN网络...
【专利技术属性】
技术研发人员:李登实,叶海洋,赵兰馨,高雨,薛童,陈天卓,陈奥,何佳欣,吴梓煊,
申请(专利权)人:江汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。