当前位置: 首页 > 专利查询>复旦大学专利>正文

一种发声方式判别方法及系统技术方案

技术编号:27008087 阅读:22 留言:0更新日期:2021-01-08 17:13
本发明专利技术属于声音识别技术领域,具体为一种发声方式判别方法及系统。本发明专利技术方法包括:获取各发声方式对应的音频数据;采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据,相邻样本数据有设定量的重叠;对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波,得到各样本数据的梅尔谱;对样本数据的梅尔谱进行标准化,以样本数据标准化后的梅尔谱为输入,以Adam为优化函数,以交叉熵为损失函数训练神经网络;采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明专利技术简化了发声方式的判别方法,降低了成本。本发明专利技术在相关源任务即歌声技巧分类的任务上做了预训练,加快了神经网络的训练速度。

【技术实现步骤摘要】
一种发声方式判别方法及系统
本专利技术属于声音识别
,具体涉及一种发声方式判别方法及系统。
技术介绍
现有的发声方式判别研究中,大多采用空气动力学特征或声学特征对发声方式进行判别。其中,空气动力学特征主要由声门气压和声门气流决定,可以通过空气动力检测仪收集。空气动力检测仪主要包含信号收集、传输、放大、计算等组成装置,受试者通过面罩向气流计速器中呼气或发音,反映声门气流率的气流信号传导至压力传感器,再经过放大、滤波处理输入计算机中。机器通常接连显示器,展示出平均气流信号、声门上下压信号,计算得到声门阻力和发声效率等指标,能在一定程度上区分发声方式。使用声学特征进行判别,主要分为语音发声场景和歌唱发声场景。语音发声场景下,采用归一化振幅商、最大峰值处值、频谱1000Hz上下的能量比等声学特征进行发声方式区分,与专家判断结果有一定的一致性;歌唱发声场景下,有研究采用谱质心、谱通量、梅尔频率倒谱系数等频域特征结合MDQ、NAQ等声音质量特征对四种发声方式进行判别。然而,采用空气动力学特征进行发声方式的判断,需要采用空气动力检测仪等设备辅助进行,且需要测试人佩戴相应的设备做出呼气、发音等操作,过程较为繁琐。采用声学特征进行发声方式的判断,需要在众多的声学特征中人工筛选合适的特征,这需要大量的实验测试,耗费大量的人力物力。
技术实现思路
本专利技术的目的是提供一种操作简便、成本较低的发声方式判别方法及系统。本专利技术提供的发声方式判别方法,具体步骤包括:(1)获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;(4)基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化;其中,所述训练集由各样本数据的梅尔谱组成;(5)以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练一个用于发声方式判别的卷积神经网络,得到训练好的神经网络模型;(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。可选的,步骤(4)所述基于训练集的梅尔谱均值与方差,对降采样后的各样本数据进行标准化,具体包括:根据对降采样后的各样本数据进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值。可选的,步骤(4)中所述神经网络包括卷积模块和分类模块;其中,所述卷积模块包括四个卷积层、最大池化层和丢弃层,所述分类模块包括三个全连接层。可选的,采用歌声技巧分类模型中前三个卷积层的权重参数对所述发声方式判别神经网络中的前三个卷积层(即卷积模块中的前三个卷积层)的权重参数进行初始化,所述歌声技巧分类模型采用卷积神经网络的架构,包括五个卷积层和四个全连接层。该歌声技巧分类模型见参考文献“KumarA,KhadkevichM,FügenC.Knowledgetransferfromweaklylabeledaudiousingconvolutionalneuralnetworkforsoundeventsandscenes[C]//2018IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2018:326-330”。可选的,神经网络训练中批处理的每批数据大小为64、72、80、…、128个样本(是8的倍数)。优选每批数据大小为128个样本。可选的,神经网络训练中的学习率为0.001-0.002。优选学习率为0.001。可选的,神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。优选随机丢弃概率为0.25。可选的,神经网络训练中的训练轮数为200-300。训练轮数为200。相应于上述发声方式判别方法,本专利技术还提供一种发声方式判别系统,该系统包括:音频数据获取模块,用于获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;样本数据截取模块,用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;梅尔谱计算模块,用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;标准化模块,用于基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,其中,所述训练集由各样本数据的梅尔谱组成;神经网络训练模块,用于以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练卷积神经网络,得到训练好的神经网络模型;判别模块,用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。可选的,所述标准化模块,具体包括:标准化单元,用于根据对降采样后的各样本数据进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值。系统中的六个模块执行判别方法中对应六个步骤的操作。本专利技术提供的发声方式判别方法及系统,结合计算机听觉技术深度学习中的卷积神经网络,自动提取了发声方式的高层特征,完成了发声方式的分类。简化了发声方式的判别,节省了相应的检测设备成本以及声学特征筛选试验成本。而且,由于本专利技术在相关源任务即歌声技巧分类的任务上做了预训练,即采用了迁移学习技术,加快了神经网络的训练速度。附图说明图1为本专利技术实施例1提供的发声方式判别方法的流程图;图2为本专利技术实施例2提供的发声方式判别系统的结构示意图。具体实施方式下面将结合实施例和附图,对本专利技术进行进一步具体描述。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1参见图1,本实施例提供了一种发声方式判别方法,该方法包括:步骤101:获取各发声方式对应的音频数据,所述发声方式包括但不限于呼气式发声、自然式发声、抖动式发声以及挤压式发声。具体可以为:采用来自Polina、Rouas和Ioannides以及庞培法布拉大学提供的数据集,该数据集一共包含了三位专业女高音歌手和一位专业男中音歌手录制的元音发声,共计2151条录音数据,并标注了四种歌声发声方式:呼气式发声,自然式发声,抖动式发声以及挤压式发声。步骤102:采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠。具体可以为:利用滑窗的方式,在各音频数据上连续截取设定长度的样本,本文档来自技高网...

【技术保护点】
1.一种发声方式判别方法,其特征在于,具体步骤为:/n(1)获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;/n(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;/n(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;/n(4)基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化;其中,所述训练集由各样本数据的梅尔谱组成;/n(5)以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练一个卷积神经网络,得到训练好的神经网络模型;/n(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。/n

【技术特征摘要】
1.一种发声方式判别方法,其特征在于,具体步骤为:
(1)获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
(4)基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化;其中,所述训练集由各样本数据的梅尔谱组成;
(5)以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练一个卷积神经网络,得到训练好的神经网络模型;
(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。


2.根据权利要求1所述的发声方式判别方法,其特征在于,步骤(4)所述基于训练集的梅尔谱均值与方差,对降采样后的各样本数据进行标准化,具体包括:
根据对降采样后的各样本数据进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值。


3.根据权利要求2所述的发声方式判别方法,其特征在于,步骤(4)中所述神经网络包括卷积模块和分类模块;其中,所述卷积模块包括四个卷积层、最大池化层和丢弃层,所述分类模块包括三个全连接层。


4.根据权利要求3所述的发声方式判别方法,其特征在于,所述神经网络的结构设计如下:对于4个卷积层,每个卷积层都进行补0操作,使得输入特征图与输出特征图大小一致;其中,第一个卷积层的滤波器的形状为3*3*16,三个数字分别对应于频率、时间、信道;第二个卷积层的滤波器在频率、时间上的尺度不变,通道加深一倍,即32个通道;第三个卷积层的滤波器与第二个卷积层一致,第四个卷积层滤波器的个数增加一倍;每个卷积操作后,都会进行批标准化操作,再通过修正线性单元,之后再经过最大池化与丢弃层,其目的是进行下采样,去除冗余信息,增加网络的泛化性;以上卷积层模块从输入梅尔谱中提取出发声方式的高层...

【专利技术属性】
技术研发人员:李伟江益靓孙校珩钱家乐
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1