一种发声方式判别方法及系统技术方案

技术编号：27008087 阅读：22 留言：0更新日期：2021-01-08 17:13

本发明专利技术属于声音识别技术领域，具体为一种发声方式判别方法及系统。本发明专利技术方法包括：获取各发声方式对应的音频数据；采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据，相邻样本数据有设定量的重叠；对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波，得到各样本数据的梅尔谱；对样本数据的梅尔谱进行标准化，以样本数据标准化后的梅尔谱为输入，以Adam为优化函数，以交叉熵为损失函数训练神经网络；采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明专利技术简化了发声方式的判别方法，降低了成本。本发明专利技术在相关源任务即歌声技巧分类的任务上做了预训练，加快了神经网络的训练速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种发声方式判别方法及系统
本专利技术属于声音识别
，具体涉及一种发声方式判别方法及系统。
技术介绍
现有的发声方式判别研究中，大多采用空气动力学特征或声学特征对发声方式进行判别。其中，空气动力学特征主要由声门气压和声门气流决定，可以通过空气动力检测仪收集。空气动力检测仪主要包含信号收集、传输、放大、计算等组成装置，受试者通过面罩向气流计速器中呼气或发音，反映声门气流率的气流信号传导至压力传感器，再经过放大、滤波处理输入计算机中。机器通常接连显示器，展示出平均气流信号、声门上下压信号，计算得到声门阻力和发声效率等指标，能在一定程度上区分发声方式。使用声学特征进行判别，主要分为语音发声场景和歌唱发声场景。语音发声场景下，采用归一化振幅商、最大峰值处值、频谱1000Hz上下的能量比等声学特征进行发声方式区分，与专家判断结果有一定的一致性；歌唱发声场景下，有研究采用谱质心、谱通量、梅尔频率倒谱系数等频域特征结合MDQ、NAQ等声音质量特征对四种发声方式进行判别。然而，采用空气动力学特征进行发声方式的判断，需要采用空气动力检测仪等设备辅助进行，且需要测试人佩戴相应的设备做出呼气、发音等操作，过程较为繁琐。采用声学特征进行发声方式的判断，需要在众多的声学特征中人工筛选合适的特征，这需要大量的实验测试，耗费大量的人力物力。
技术实现思路
本专利技术的目的是提供一种操作简便、成本较低的发声方式判别方法及系统。本专利技术提供的发声方式判别方法，具体步骤包括：(1)获取各发声方式对应的音频数据...

【技术保护点】
1.一种发声方式判别方法，其特征在于，具体步骤为：/n(1)获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声；/n(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠；/n(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱；/n(4)基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化；其中，所述训练集由各样本数据的梅尔谱组成；/n(5)以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练一个卷积神经网络，得到训练好的神经网络模型；/n(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。/n

【技术特征摘要】
1.一种发声方式判别方法，其特征在于，具体步骤为：
(1)获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声；
(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠；
(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱；
(4)基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化；其中，所述训练集由各样本数据的梅尔谱组成；
(5)以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练一个卷积神经网络，得到训练好的神经网络模型；
(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。

2.根据权利要求1所述的发声方式判别方法，其特征在于，步骤(4)所述基于训练集的梅尔谱均值与方差，对降采样后的各样本数据进行标准化，具体包括：
根据对降采样后的各样本数据进行标准化，其中，Sorigin为样本数据标准化前的梅尔谱，Sstandard为样本数据标准化后的梅尔谱，s为训练集中梅尔谱的方差，μ为训练集中梅尔谱的均值。

3.根据权利要求2所述的发声方式判别方法，其特征在于，步骤(4)中所述神经网络包括卷积模块和分类模块；其中，所述卷积模块包括四个卷积层、最大池化层和丢弃层，所述分类模块包括三个全连接层。

4.根据权利要求3所述的发声方式判别方法，其特征在于，所述神经网络的结构设计如下：对于4个卷积层，每个卷积层都进行补0操作，使得输入特征图与输出特征图大小一致；其中，第一个卷积层的滤波器的形状为3*3*16，三个数字分别对应于频率、时间、信道；第二个卷积层的滤波器在频率、时间上的尺度不变，通道加深一倍，即32个通道；第三个卷积层的滤波器与第二个卷积层一致，第四个卷积层滤波器的个数增加一倍；每个卷积操作后，都会进行批标准化操作，再通过修正线性单元，之后再经过最大池化与丢弃层，其目的是进行下采样，去除冗余信息，增加网络的泛化性；以上卷积层模块从输入梅尔谱中提取出发声方式的高层...

【专利技术属性】
技术研发人员：李伟，江益靓，孙校珩，钱家乐，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人