面向免验配助听器的语音质量自评估方法技术

技术编号:26422499 阅读:30 留言:0更新日期:2020-11-20 14:18
本发明专利技术公开了一种面向免验配助听器的语音质量自评估方法,包括:构建并训练语音质量自评估网络:待测语音通过卷积神经网络提取并输出待测语音的帧级特征;待测语音的帧级特征通过循环神经网络得到并输出待测语音的段级特征;待测语音的段级特征输入至线性映射模型和Softmax分类器,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。本发明专利技术公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络、循环神经网络和Softmax分类器有机地结合成一个整体,结合卷积神经网络的特征挖掘能力和循环神经网络的时序建模能力,提高无参考语音质量客观评价方法准确度,大大简化了处理过程。

【技术实现步骤摘要】
面向免验配助听器的语音质量自评估方法
本专利技术涉及语音质量评价
,尤其涉及一种面向免验配助听器的语音质量自评估方法。
技术介绍
传统助听器主要通过放大声信号来补偿患者缺失的声波能量和频率成分,并依靠听力专家的验配经验和专业技能来调配算法参数以尽可能达到最佳的工作状态。依靠听力专家来调配参数的本质是通过大量的知识学习和验配工作来使听力专家获得经验,使其达到一定的专业水准。很显然,这种完全依靠专家水平的验配方法低效且难以有效传承,具有很大的局限性。改善这一情况的策略之一是研究一种可以取代听力专家进行助听器调配的方法,比如助听器根据患者情况,自动评估语音质量,从而自动更新算法参数。在语音质量评价方面,根据评价主体的不同,语音质量评价方法可分为主观评价方法和客观评价方法两大类。主观评价方法就是评测人员按照特定的规则对语音质量进行打分,常见的主观评价方法包括平均意见得分(MOS)、诊断韵字测试(DRT)、诊断满意度测量(DAM)等。主观评价结果能够真实反映人对语音质量的主观感受,具有较高的准确度。但是这种方法需要耗费大量的时间和人力,并且需要严格地控制测试条件和主观因素,因此评测结果的重复性和稳定性差。客观评价方法则是通过算法自动评测语音质量,它具有省时省力、实时性高、结果可重复等优势,但是可靠性和准确度不及主观评价方法。在实时应用中,人们一般用客观评价方法来实现语音质量的自动评估。根据是否需要原始参考信号,语音质量客观评价模型可分为单端模式和双端模式。双端模式的语音质量评价算法需要同时提供待测失真信号和原始参考信号,目前国际电信联盟(ITU)标准化的双端客观评价算法有ITU-TP.861(MNB)、ITU-TP.862(PESQ)、ITU-TP.863(POLQA)等,其他常用的客观评价算法还有短时客观可懂度(STOI)等。在这些客观评价算法中,一般都是计算失真信号和原始信号在感知域上的差异,从而得到评价结果。双端评价方法一般具有较高的准确性,但在某些应用场合中无法获取参考信号,这极大地限制了它的应用范围。单端评价方法不需要原始信号作为参考,它直接从失真信号中提取特征参数,并利用预先建立的先验知识将其映射成评价结果。被标准化的语音质量单端评价方法有ITU-TP.563和ITU-TG.107(E-Model)等。近年来,由于深度学习的兴起,一些基于深度学习的单端语音质量评价方法也被提出,比如AutoMOS、QualityNet、NISQA、MOSNet等。相比于双端评价方法,单端评价方法的灵活性更强,但由于缺乏参考,其准确度相对较低,有待进一步改进和提高。
技术实现思路
专利技术目的:针对现有技术中无参考语音质量客观评价方法准确度不高的缺陷,本专利技术公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络(CNNs)、循环神经网络(RNNs)和Softmax分类器有机地结合成一个整体,利用了CNNs的特征挖掘能力和RNNs的时序建模能力,充分发挥了不同网络模型的优势,提高无参考语音质量客观评价方法准确度,不需要任何预处理和人工特征提取操作,大大简化了处理过程。技术方案:为实现上述技术目的,本专利技术采用以下技术方案。一种面向免验配助听器的语音质量自评估方法,包括以下步骤:S1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;S2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;S3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;S4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。优选地,所述步骤S1中利用主观测试数据进行训练,直至训练完成的具体过程为:所述主观测试数据为语音时域数据,语音质量自评估网络输出主观MOS评分,训练过程中计算语音质量自评估网络的损失函数,直至语音质量自评估网络的损失函数小于阈值,语音质量自评估网络训练完成;所述语音质量自评估网络的损失函数为:其中,B表示批大小,MOSo,i表示预测的客观MOS评分,MOSs,i表示主观MOS评分。优选地,所述语音质量自评估网络中,卷积神经网络包括依次连接的语音输入层、第一Reshape层、二维卷积层、池化层、第二Reshape层和帧级特征输出层;所述循环神经网络为结合注意力机制的基于LSTM的循环神经网络,循环神经网络包括依次连接的帧级特征输入层、行注意力-LSTM层、Dense-ReLU层和段级特征输出层。优选地,所述步骤S2具体过程为:S21、待测语音进行分帧处理:对待测语音信号进行分帧,得到语音数据矩阵S∈RT×N,其中R表示实数集,T表示帧数,N表示帧长;S21、提取待测语音的帧级特征:将语音数据矩阵S输入至卷积神经网络中的语音输入层,语音数据矩阵S经过语音输入层和第一Reshape层转为三维矩阵S′∈RT×N×1,再输入至二维卷积层、池化层和第二Reshape层,最终输出待测语音的帧级特征,所述帧级特征为二维矩阵F∈RT×M,其中M表示帧级特征维度;帧级特征F通过帧级特征输出层输出,并作为整个卷积神经网络的输出。优选地,所述步骤S3具体过程为:S31、将卷积神经网络输出的帧级特征F输入至循环神经网络中,先经过帧级特征输入层并输出;S32、帧级特征输入层输出的帧级特征F在每个行注意力-LSTM层中计算当前时间步t的输出:在时间步t,假设前t个时间步的隐藏输出为H=[h1,h2,...,ht],其中hi(i=1,2,...,t)为第i时间步的隐藏输出列向量,ht对于hi的权重定义为:其中,W为权重矩阵,上标T表示矩阵转置;对各时间步的隐藏输出进行加权求和得到当前时间步t的输出为:S33、所有行注意力-LSTM层的输出结果输入至Dense-ReLU层计算段级特征:所有行注意力-LSTM层的输出结果输入至Dense-ReLU层中,Dense-ReLU层在最后一个时间步的输出为u∈RK,其中u∈RK是一个信息高度压缩的矢量,K表示Dense-ReLU层的节点,将矢量u作为描述整段语音特性的段级特征。优选地,所述步骤S4具体过程为:S41:将段级特征u通过Softmax分类器,得到输出矢量o;所述输出矢量o=(o1,o2,...,o6)为6种语音失真类型的预测概率分布;S42、对输出矢量o进行判决,得到失真类型r,计算公式为:其中,i∈{1,2,3,4,5,6},代表6种语音失真类型;S43、将段级特征矢量u、Soft本文档来自技高网
...

【技术保护点】
1.一种面向免验配助听器的语音质量自评估方法,其特征在于,包括以下步骤:/nS1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;/nS2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;/nS3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;/nS4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。/n

【技术特征摘要】
1.一种面向免验配助听器的语音质量自评估方法,其特征在于,包括以下步骤:
S1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;
S2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;
S3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;
S4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。


2.根据权利要求1所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S1中利用主观测试数据进行训练,直至训练完成的具体过程为:所述主观测试数据为语音时域数据,语音质量自评估网络输出主观MOS评分,训练过程中计算语音质量自评估网络的损失函数,直至语音质量自评估网络的损失函数小于阈值,语音质量自评估网络训练完成;所述语音质量自评估网络的损失函数为:



其中,B表示批大小,MOSo,i表示神经网络的客观MOS评分,MOSs,i表示主观MOS评分。


3.根据权利要求1所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述语音质量自评估网络中,卷积神经网络包括依次连接的语音输入层、第一Reshape层、二维卷积层、池化层、第二Reshape层和帧级特征输出层;所述循环神经网络为结合注意力机制的基于LSTM的循环神经网络,循环神经网络包括依次连接的帧级特征输入层、行注意力-LSTM层、Dense-ReLU层和段级特征输出层。


4.根据权利要求3所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S2具体过程为:
S21、待测语音进行分帧处理:对待测语音信号进行分帧,得到语音数据矩阵S∈RT×N,其中R表示实数集,T表示帧数,N表示帧长;
S21、提取待测语音的帧级特征:将语音数据矩阵S输入至卷积神经网络中的语音输入层,语音数据矩阵S经过语音输入层和第一Reshape层转为三维矩阵S′∈RT×N×1,再输入至二维卷积层、池化层和第二Reshape层,最终输出待测语音的帧级特征,所述帧级特征为二维矩阵F∈RT×M,其中M表示帧级特征维度;帧级特征F通过帧级特征输出层输出,并作为整个卷积神经网络的输出。


5.根据权利要求4所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S3具体过程为:
S31、将卷积神经网络输出的帧级特征F输入至循环神经网络中,先经过帧级特征输入层并输出;
S32、帧级特征输入层输出的帧级特征F在每个行注意力-LSTM层中计算当前时间步t的输出:在时间步t,假设前t个时间步的隐藏输出为H=[h1,h2,...,ht],其...

【专利技术属性】
技术研发人员:梁瑞宇孔凡留王青云唐闺臣孙世若谢跃邹采荣
申请(专利权)人:南京工程学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1