【技术实现步骤摘要】
强化人体感知特性的分频神经网络汉语语音编码方法
[0001]本专利技术涉及强化人体感知特性的分频神经网络汉语语音编码方法,属于计算机与信息科学
技术介绍
[0002]随着计算机网络技术的高速发展,语音数据传输量以指数形式快速增长,使得信道容量愈发紧张,传统的语音编码技术已无法满足自动化且高质量的编码要求。基于神经网络的语音编码方法通过神经网络对语音信号自动进行特征提取,从而减少人工特征设计,在降低编码复杂度、提高编码效率方面具有重要意义,现有基于神经网络的语音编码方法主要采用的网络结构有CNN和RNN。
[0003]1.基于CNN的方法
[0004]基于CNN的语音编码方法一般先将原始语音信号转换为频谱图、语谱图或梅尔频谱,其中频谱图可以呈现信号频率的简单分布情况,语谱图反映了语音信号的能量分布特点,梅尔频谱则体现人体对低频信号变化敏感而对高频信号变化不敏感的非线性感知特性,然后通过卷积神经网络进行编码压缩和解码重建。重建的语音质量较好,但模型复杂度较高,语音预处理方法单一,未考虑不同语言的频率分布 ...
【技术保护点】
【技术特征摘要】
1.强化人体感知特性的分频神经网络汉语语音编码方法,其特征在于所述方法包括如下步骤:步骤1,对原始语音信号进行预处理,包括:将原始汉语语音信号修剪为特定长度的语音块,然后根据汉语语音的频率分布特点和人体感知频率变化的非线性特点对语音信号进行高低频分割,最后将低频段和高频段语音信号分别转换为语谱图和梅尔频谱并进行拼接得到联合频谱图;步骤2,通过融合残差网络和VQ
‑
VAE
‑
2架构的语音编解码模型对频谱图进行编解码,包括:对步骤1得到的联合频谱图进行局部和全局特征提取,包括语谱图的能量分布特征和梅尔频谱的频率分布特征,然后分别对局部和全局特征进行矢量量化,得到压缩编码向量,最后对联合频谱图进行重建;步骤3,对步骤2中得到的重建联合频谱图采用基于TNC算法的梯度更新方法重建语音信号,包括:初始化重建语音信号并进行预处理,然后计算预处理得到的联合频谱图与步骤2中重建的联合频谱图的残差平方和,并采用TNC算法更新重建语音信号,最后循环进行迭代更新,直至满足输出条件。2.根据权利要求1所述的强化人体感知特性的分频神经网络汉语语音编码方法,其特征在于:步骤1中根据汉语...
【专利技术属性】
技术研发人员:罗森林,杨晓楠,潘丽敏,万韵伟,周瑾洁,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。