一种基于多尺度上下文的单通道语音增强方法技术

技术编号：21895739 阅读：20 留言：0更新日期：2019-08-17 16:02

一种基于多尺度上下文的单通道语音增强方法，本发明专利技术涉及单通道语音增强方法。本发明专利技术是为了解决现有单通道语音增强中，带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为：步骤一、对语音进行标准化；步骤二、计算全卷积网络第一层语音特征；步骤三、计算全卷积网络第l层语音特征，l取整数；步骤四、综合多层语音特征，构成多尺度语音特征；步骤五、根据多尺度语音特征，预测纯净语音波形。本发明专利技术用于语音增强领域。

A Single Channel Speech Enhancement Method Based on Multi-Scale Context

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多尺度上下文的单通道语音增强方法
本专利技术涉及单通道语音增强方法，具体是一种直接在时域上进行的基于多尺度上下文信息的单通道语音增强方法。
技术介绍
随着语音信号处理技术的迅猛发展，计算机需要处理的语音信号种类和环境也急剧增加。如何能够自动、准确的将语音从纷繁复杂的噪声环境中提取出来并进行增强，就成为一个既重要又具有挑战性的研究课题。语音增强技术一方面作为语音识别、说话人识别，以及关键词识别等语音信号处理技术的前端处理，能够显著提升这些技术对噪声的鲁棒性；另一方面能够提升噪声环境下听者主观的语音可懂度和语音质量。因此，语音增强在实际生活中具有广阔的应用前景。单通道语音增强技术是指只使用单麦克风录制的语音信号，将目标语音从噪声环境中提取并进行增强的技术。相对于多通道语音增强技术，单通道技术具有对设备要求低、实用性强的优点。近年来，单通道语音增强被看作频域的有监督学习任务，并获得了显著进步。然而将其视为频域的有监督学习任务存在着如下问题：(1)频域上的语音增强仅对语音频谱进行增强，而语音信号是一种时域信号，还需要将增强后的频域信号转换到时域，这一转换过程中引入了带有噪声干扰的相位，这样的带噪相位与增强后的频谱不匹配，从而引入了语音畸变，进而影响了语音质量；(2)频域上的语音增强技术中，采用的语音特征多是基于人耳听觉机理的特征，并非专门为语音增强任务设计的特征，这会造成输入特征和语音增强任务的不匹配，影响增强效果；(3)语音中包含时间上不同尺度的信息，既有大尺度的语义信息，也有小尺度的语音细节纹理，目前的语音增强方法并没有很好地考虑并利用这些多尺度信息。...

【技术保护点】
1.一种基于多尺度上下文的单通道语音增强方法，其特征在于：所述方法具体过程为：步骤一、对语音进行标准化；步骤二、计算全卷积网络第一层语音特征；步骤三、计算全卷积网络第l层语音特征，l取整数；步骤四、综合多层语音特征，构成多尺度语音特征；步骤五、根据多尺度语音特征，预测纯净语音波形。

【技术特征摘要】
1.一种基于多尺度上下文的单通道语音增强方法，其特征在于：所述方法具体过程为：步骤一、对语音进行标准化；步骤二、计算全卷积网络第一层语音特征；步骤三、计算全卷积网络第l层语音特征，l取整数；步骤四、综合多层语音特征，构成多尺度语音特征；步骤五、根据多尺度语音特征，预测纯净语音波形。2.根据权利要求1所述一种基于多尺度上下文的单通道语音增强方法，其特征在于：所述步骤一中对语音进行标准化；具体过程为：对于有N个采样点的语音片段计算语音片段的时域能量α：得到时域能量α后，用时域能量α对语音片段进行标准化，得到标准化后的语音片段S：其中，为长度为N的语音片段中第n个采样点，S(n)为标准化后的语音片段中第n个采样点，1≤n≤N。3.根据权利要求1或2所述一种基于多尺度上下文的单通道语音增强方法，其特征在于：所述步骤二中计算全卷积网络第一层语音特征；具体过程为：使用膨胀系数r＝20＝1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作，得到中间信号其中，表示全卷机网络第一层卷积后得到的中间信号，i表示其第i个采样点；*r表示膨胀系数为r的卷积操作；c表示第c个通道，1≤c≤C，C表示每一层通道总数；q表示卷积核的下标，q∈[-m,m]∩Z，m表示卷积核的大小，Z表示整数集合；表示膨胀卷积参数，q表示其下标；S(p)表示与膨胀卷积参数相乘的信号中的对应采样点，p表示中间变量；对中间信号进行非线性变换pReLu，得到第一层的一种语音特征其中，αc为可学习参数，初始值为0.1；将上述的膨胀卷积参数分别随机初始化C次，计算得到C个中间信号再分别进行非线性变换pReLu，得到C个语音特征C个语音特征称为C个通道，共同构成了第一层语音特征L(1)。4.根据权利要求3所述一种基于多尺度上下文的单通道语音增强方法，其特征在于：所述步骤三中计算全卷积网络第l层语音特征，l取整数；具体过程为：对于全卷积网络第l层网络，2≤l≤10，以l-1层网络输出的语音特征L(l-1)作为输入，使用膨胀系数r＝2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作，得到中间信号其中，表示全卷机网络第l层卷积后得到的中间信号的第i个采样点，表示第l层输入的所有C个通道对应的卷积核的集合，表示第l层输入的第u个通道对应的卷积核，q表示的下标，表示第l层输入的第u个通道，p表示的下标；将上述的膨胀卷积参数分别...

【专利技术属性】
技术研发人员：韩纪庆，杜志浩，郑贵滨，郑铁然，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人