一种基于音频质量评估与制造技术

技术编号:39821871 阅读:10 留言:0更新日期:2023-12-22 19:41
本发明专利技术公开了一种基于音频质量评估与

【技术实现步骤摘要】
一种基于音频质量评估与RNN状态预测的低算力需求嵌入式语音增强方法


[0001]本专利技术涉及语音信号处理领域,尤其是一种基于音频质量评估与
RNN
状态预测的低算力需求嵌入式语音增强方法


技术介绍

[0002]低算力需求的语音增强方法对于许多实际应用非常重要,可以在资源受限的情况下提供可行的解决方案

这些方法通常使用轻量级模型

优化算法或者硬件加速等技术,以确保在计算资源有限的情况下仍然能够有效地改善语音质量和性能

例如:许多设备,特别是便携式设备和嵌入式系统,具有有限的计算能力

在这些设备上使用高算力需求的语音增强方法可能导致性能下降或者无法运行

低算力需求的方法可以在这些受限资源的环境中运行

有些应用需要实时性能,例如语音通信

语音助手和实时语音识别

使用低算力需求的语音增强方法可以确保在实时情况下稳定运行,减少延迟和卡顿

此外,在云端或服务器端部署高算力需求的语音增强方法可能需要昂贵的硬件和能源成本,低算力需求的方法可以降低基础设施和运维成本

[0003]尽管低算力需求的语音增强方法已经发展迅猛,但仍然存在一些未解决的问题和挑战,包括:降低算力需求通常需要简化模型或算法,这可能导致性能的下降

在现实应用中,低算力需求的方法需要快速响应,以避免延迟,如何在资源受限的情况下实现低延迟仍然是一个挑战,尤其是在嵌入式设备中,需求更加迫切

[0004]基于深度学习的语音增强方法通常使用循环神经网络
(RNN

Recurrent Neural Network)
来处理语音数据,优化这些结构以降低计算复杂性是较为流行的方法

但目前基于
RNN
的方法,例如,卷积循环网络
(CRN

Convolution Recurrent Network)、
双路循环神经网络
(DPRNN

dual

path RNN)
,在算力需求和处理效果上仍具有较大提升空间

尤其是目前的处理方法,并未将音频质量这一要素纳入考虑,进行针对性处理;同时,对于
RNN
最消耗算力的状态更新步骤,未有有效的针对性优化


技术实现思路

[0005]本专利技术提供一种基于音频质量评估与
RNN
状态预测的低算力需求嵌入式语音增强方法,以解决现有低算力需求下的语音增强方法,算力需求高

处理效果受限的问题

[0006]一种基于音频质量评估与
RNN
状态预测的低算力需求嵌入式语音增强方法,包括:质量评估模块,编码器,
DPRNN
模块,状态更新预测器,解码器

所述质量评估模块,由一个训练好的深度神经网络模型组成

所述编码器与解码器,由卷积神经网络
(CNN

Convolutional Neural Network)
组成,用于获取输入特征的高维特征表示与特征降维还原

所述
DPRNN
模块,由双向循环神经网络
(Bi

RNN

Bidirectional Recurrent Neural Network)
,全连接
(FC

Fully Connected)
层,
LayerNorm
层组成,其用于获取高维特征之间的上下文关系;
Bi

RNN
在正向和反向传播的过程中,更新状态信息,以建立序列中长期不同
时间步之间的关系和依赖性

[0007]质量评估模块,由一个输入层,多个
FC
层组成的中间层,一个最终由
Sigmoid
函数激活的输出层,输入层的长度取决于特征长度,输出层的长度为1,输出的数值范围为
(0

1)。
对质量评估模块进行训练前,需收集训练数据,即:不同质量下的语音音频及其质量标注,标注的数值范围为0~1,数值越小,代表音频的质量越高

特别的,当音频片段内没有语音时,标注为
0。
使用标注好的数据,以音频的特征序列作为输入,对应的质量标注作为输出,使用均方误差损失
(MSE

Mean Square Error)
作为损失函数,如公式
(1)
所示,最小化损失,训练神经网络:
[0008][0009]其中,
N
为样本数量,
q
i
为质量标注,为网络预测的质量值

[0010]设定质量阈值,使用训练好的质量评估模型,对当前待增强的音频片段进行评估,若输出的数值小于质量阈值时,则跳过处理流程,直接输出,由此跳过无语音片段和高质量语音片段;若输出的数值小于质量阈值时,则进入编码器,提取高维特征后,输入
DPRNN
模块,捕捉高维序列中蕴含的信息

[0011]同时,
DPRNN
模块中的
Bi

RNN
在处理高维特征时,使用
Bi

RNN
的当前状态
S
t
与上一状态
S
t
‑1,训练深度神经网络,作为
DPRNN
模块中状态更新预测器

所述状态更新预测器,由一个输入层,多个
FC
层组成的中间层,一个最终由
Tanh
函数激活的输出层,输入层的长度为隐藏层
S
t
长度的2倍,输出层为隐藏层
S
t
长度

[0012]传统的
RNN
状态更新,如公式
(2)
所示:
[0013]S
t

f(U
·
X
t
+W
·
S
t
‑1)
ꢀꢀ
(2)
[0014]其中,
U
是输入层到隐藏层的权重矩阵,
W
是随机初始化且不变的权重矩阵,
X
t
是输入向量,
S
t
‑1是上一时刻的状态向量,
S
t
是当前时刻的状态向量,
f(.)
是激活函数
。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于音频质量评估与
RNN
状态预测的低算力需求嵌入式语音增强方法,由质量评估模块,语音增强模块,状态更新预测器组成

所述质量评估模块,其特征在于:质量评估模块用于评估音频质量,其是由不同质量下的语音音频及其质量标注训练的深度网络模型,质量标注的数值范围为0~1,数值越小,代表音频的质量越高,当音频片段内没有语音时,标注为
0。
使用时,根据设定的质量阈值,对当前待增强的音频片段进行评估,若输出的数值小于质量阈值时,则跳过处理流程,直接输出
。2.
如权利要求1所述的一种基于音频质量评估与
RNN
状态判...

【专利技术属性】
技术研发人员:张晓灿韩纪庆王栋
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1