【技术实现步骤摘要】
面向免验配助听器的语音质量自评估方法
本专利技术涉及语音质量评价
,尤其涉及一种面向免验配助听器的语音质量自评估方法。
技术介绍
传统助听器主要通过放大声信号来补偿患者缺失的声波能量和频率成分,并依靠听力专家的验配经验和专业技能来调配算法参数以尽可能达到最佳的工作状态。依靠听力专家来调配参数的本质是通过大量的知识学习和验配工作来使听力专家获得经验,使其达到一定的专业水准。很显然,这种完全依靠专家水平的验配方法低效且难以有效传承,具有很大的局限性。改善这一情况的策略之一是研究一种可以取代听力专家进行助听器调配的方法,比如助听器根据患者情况,自动评估语音质量,从而自动更新算法参数。在语音质量评价方面,根据评价主体的不同,语音质量评价方法可分为主观评价方法和客观评价方法两大类。主观评价方法就是评测人员按照特定的规则对语音质量进行打分,常见的主观评价方法包括平均意见得分(MOS)、诊断韵字测试(DRT)、诊断满意度测量(DAM)等。主观评价结果能够真实反映人对语音质量的主观感受,具有较高的准确度。但是这种方法需要耗费大量的时间和人力,并且需要严格地控制测试条件和主观因素,因此评测结果的重复性和稳定性差。客观评价方法则是通过算法自动评测语音质量,它具有省时省力、实时性高、结果可重复等优势,但是可靠性和准确度不及主观评价方法。在实时应用中,人们一般用客观评价方法来实现语音质量的自动评估。根据是否需要原始参考信号,语音质量客观评价模型可分为单端模式和双端模式。双端模式的语音质量评价算法需要同时提供待测失真信号 ...
【技术保护点】
1.一种面向免验配助听器的语音质量自评估方法,其特征在于,包括以下步骤:/nS1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;/nS2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;/nS3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;/nS4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。/n
【技术特征摘要】
1.一种面向免验配助听器的语音质量自评估方法,其特征在于,包括以下步骤:
S1:构建并训练语音质量自评估网络:构建一个由卷积神经网络、循环神经网络和线性映射模型依次连接构成的混合网络作为语音质量自评估网络,利用主观测试数据进行训练,直至训练完成;
S2:待测语音输入至卷积神经网络:将待测语音输入语音质量自评估网络中的卷积神经网络,通过卷积神经网络提取并输出待测语音的帧级特征;
S3:待测语音的帧级特征输入至循环神经网络:将卷积神经网络输出的待测语音的帧级特征输入至循环神经网络,得到并输出待测语音的段级特征;
S4:待测语音的段级特征输入至线性映射模型和Softmax分类器:将循环神经网络输出的待测语音的段级特征分别输入至Softmax分类器和线性映射模型,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。
2.根据权利要求1所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S1中利用主观测试数据进行训练,直至训练完成的具体过程为:所述主观测试数据为语音时域数据,语音质量自评估网络输出主观MOS评分,训练过程中计算语音质量自评估网络的损失函数,直至语音质量自评估网络的损失函数小于阈值,语音质量自评估网络训练完成;所述语音质量自评估网络的损失函数为:
其中,B表示批大小,MOSo,i表示神经网络的客观MOS评分,MOSs,i表示主观MOS评分。
3.根据权利要求1所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述语音质量自评估网络中,卷积神经网络包括依次连接的语音输入层、第一Reshape层、二维卷积层、池化层、第二Reshape层和帧级特征输出层;所述循环神经网络为结合注意力机制的基于LSTM的循环神经网络,循环神经网络包括依次连接的帧级特征输入层、行注意力-LSTM层、Dense-ReLU层和段级特征输出层。
4.根据权利要求3所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S2具体过程为:
S21、待测语音进行分帧处理:对待测语音信号进行分帧,得到语音数据矩阵S∈RT×N,其中R表示实数集,T表示帧数,N表示帧长;
S21、提取待测语音的帧级特征:将语音数据矩阵S输入至卷积神经网络中的语音输入层,语音数据矩阵S经过语音输入层和第一Reshape层转为三维矩阵S′∈RT×N×1,再输入至二维卷积层、池化层和第二Reshape层,最终输出待测语音的帧级特征,所述帧级特征为二维矩阵F∈RT×M,其中M表示帧级特征维度;帧级特征F通过帧级特征输出层输出,并作为整个卷积神经网络的输出。
5.根据权利要求4所述的一种面向免验配助听器的语音质量自评估方法,其特征在于,所述步骤S3具体过程为:
S31、将卷积神经网络输出的帧级特征F输入至循环神经网络中,先经过帧级特征输入层并输出;
S32、帧级特征输入层输出的帧级特征F在每个行注意力-LSTM层中计算当前时间步t的输出:在时间步t,假设前t个时间步的隐藏输出为H=[h1,h2,...,ht],其...
【专利技术属性】
技术研发人员:梁瑞宇,孔凡留,王青云,唐闺臣,孙世若,谢跃,邹采荣,
申请(专利权)人:南京工程学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。