端到端提取BNF特征的方法、网络模型、训练方法及系统技术方案

技术编号:33083577 阅读:75 留言:0更新日期:2022-04-15 10:42
本申请公开一种端到端提取BNF特征的方法、网络模型、训练方法及系统,其中,网络模型包括循环网络模块和编码模块:所述循环网络模块,用于输入源说话人音频的梅尔频率倒谱系数特征,输出下采样特征;所述编码模块,用于输入所述下采样特征,基于自注意力算法和深度卷积学习,得到第一特征,以及对所述第一特征全连接处理,输出所述源说话人音频的BNF特征,其中,所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。本申请的网络模型,可以实现端到端提取BNF特征,时效性更佳,不会叠加中间误差,从而保证提取的BNF特征的准确性。特征的准确性。特征的准确性。

【技术实现步骤摘要】
端到端提取BNF特征的方法、网络模型、训练方法及系统


[0001]本申请属于语音识别
,尤其涉及一种端到端提取BNF特征的方法、网络模型、训练方法及系统。

技术介绍

[0002]伴随着互联网及人工智能技术的发展,语音交互业务场景越来越丰富,例如,各行各业中应用有电话机器人,虚拟数字人等的相关场景,语音交互业务具体涉及的语音技术可包括:ASR(Automatic Speech Recognition,自动语音识别)、TTS(Text

To

Speech,从文本到语音)、声音克隆、语音转换、降噪等等,
[0003]其中,语音转换是语音信号处理的一个研究分支,它涵盖了说话人识别、语音识别及语音合成等领域的内容,拟在保留原有的语义信息不变的情况下改变语音的个性化信息,使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。语音转换在实现过程中,其中最核心的任务就是提取源说话人音频的文本信息、韵律信息,本质上就是剔除源说话人音频特征中的音色信息。其中,源说话人音频的文本信息、韵本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种端到端提取BNF特征的网络模型,其特征在于,包括循环网络模块和编码模块:所述循环网络模块,用于输入源说话人音频的梅尔频率倒谱系数特征,输出下采样特征;所述编码模块,用于输入所述下采样特征,基于自注意力算法和深度卷积学习,得到第一特征,以及对所述第一特征全连接处理,输出所述源说话人音频的BNF特征,其中,所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。2.根据权利要求1所述的网络模型,其特征在于,所述循环网络模块由输入至输出包括多组循环设置的第一卷积层和第一全连接层;所述第一卷积层,用于对所述源说话人音频的梅尔频率倒谱系数特征进行卷积计算,降低所述梅尔频率倒谱系数特征的维度;所述第一全连接层,用于对经过所述第一卷积层卷积计算的所述源说话人音频的梅尔频率倒谱系数特征重新抽象映射,得到下采样特征。3.根据权利要求1所述的网络模型,其特征在于,所述编码模块由输入至输出依次包括transformer层、两个第二卷积层和第二全连接层;所述transformer层,用于输入所述下采样特征,基于自注意力算法,输出第二特征,所述第二特征包括所述源说话人音频的帧与帧之间的全局依赖关系;所述两个CNN卷积层,用于输入所述第二特征,计算学习得到所述第一特征,所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系;所述第二全连接层,用于输入所述第一特征,输出所述源说话人音频的BNF特征。4.根据权利要求3所述的网络模型,其特征在于,在所述transformer层之前,还包括第一归一化处理层、第三全连接层、第一残差处理层和第二归一化处理层处理。5.根据权利要求3所述的网络模型,其特征在于,在所述两个CNN卷积层之前,还包括第二残差处理层和第三归一化处理层处理。6.一种端到端提取BNF特征的方法,其特征在于,包括循环网络模块和编码模块,所述方法包括:将源说话人音频的梅尔频率倒谱系数特征输入所述循环网络模块,得到下采样特征;将所述下采样特征输入所述编码模块,基于自注意力算法和深度卷积学习,得到第一特征,其中,所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系;对所述第一特征全连接处理,输出所述源说话人音频的BNF特征。7.根据权利要求6所述的方法,其特征在于,所述循环网络模块由输入至输出包括多组循环设置的第一卷积层和第一全连接层;通过所述第一卷积层对所述源说话人音频的梅尔频率倒谱系数特征进行卷积计算,降低所述梅尔频率倒谱系数特征的维度;通过所述第一全连接层对经过所述第一卷积层卷积计算的所述源说话人音频的梅尔频率倒谱系数特征重新抽象映射,得到下采样特征。8.根据权利要求6所述的方法,其特征在于,所述编码模块由输入至输出依次包括transformer层、两个第二卷积层和第二全连接层;将所述下采样特征输入transformer层,基于自注意力算法,输出第二特征,所述第二
特征包括所述源说话人音频的帧与帧之间的全局依赖关系;将所述第二特征输入所述两个CNN卷积层,计算学习得到所述第一特征,所述第一特征包括所述源说话人音频的帧与帧之间的全...

【专利技术属性】
技术研发人员:司马华鹏毛志强孙雨泽
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1