基于听损分类的助听器语音质量自评价方法技术

技术编号:38211911 阅读:11 留言:0更新日期:2023-07-25 11:20
本发明专利技术公开基于听损分类的助听器语音质量自评价方法,包括构建由帧级特征提取网络、听损分类子网络、质量预测子网络构成的语音质量自评估网络;基于助听器处理后信号计算浅层特征,利用帧级特征提取网络学习失真信号的深层表示,从而获得帧级特征;形状重置后的帧级特征分别通过听损分类子网络和质量预测子网络得到失真语音补偿前听力损失程度的分类情况和质量评分的预测值。本发明专利技术依照多任务训练策略,将预测失真信号的质量评分作为主任务,预测失真信号的质量分类作为辅任务,通过训练时损失函数的权重因子调节主、辅任务在网络中的重要程度,提高了无参考助听器语音质量评价方法的准确性,简化了处理过程。简化了处理过程。简化了处理过程。

【技术实现步骤摘要】
基于听损分类的助听器语音质量自评价方法


[0001]本专利技术涉及助听器语音质量评价
,特别涉及基于听损分类的助听器语音质量自评价方法。

技术介绍

[0002]传统助听器主要通过放大声信号来补偿患者缺失的声波能量和频率成分,并依靠验配师的经验和专业技能来调配算法参数以尽可能达到最佳的工作状态。但这种助听器验配方式效率较低且难以有效传承,具有较大的局限性。免验配助听器是未来助听器的一大发展趋势,其能根据患者听力损失情况,初步进行验配操作,再通过语音质量自评价方法,更新算法参数,直至语音质量评价达到标准或患者自身满意为止。
[0003]语音质量评价的方法根据评价主体不同可分为主观评价法与客观评价法。主观评价法指在一定条件下以人为主体,依照标准语音对失真语音进行质量等级划分。常见的主观评价方法包括平均意见分(MOS)、诊断押韵测试(DRT)、满意度测量(DAM)等。考虑到人是语音质量评价的最终接受者,主观评价法是语音质量评价最直接最准确的方法,被称为质量评价的“金标准”。但主观评价法由于要严格控制测试环境,同时聘请测评人,对时间金钱以及人力要求较高,难以在日常生活中进行。
[0004]客观评价法通过计算机模拟人耳的听觉过程,给出与主观评级高度相关的质量评级。根据是否需要原始参考信号,语音质量客观评价模型可分为“全参考式”和“无参考式”。全参考语音质量评价算法需同时提供作为参考的原始纯净信号和待评估的失真信号,国际电信联盟(ITU)标准化的感知客观语音质量评估(POLOA)是在电信领域广泛使用的一种全参考语音质量算法。在助听器语音质量领域,助听器语音质量指数(HASQI)和感受模型

听力障碍语音质量(PEMO

Q

HI)是两种典型的结合听障患者耳蜗受损情况而建立的全参考语音质量评价模型。尽管全参考语音质量评价算法与主观评级的相关性较高,但纯净的参考信号往往难以获取,极大地限制了它的应用范围。无参考语音质量评价算法不需要原始信号作为参考,直接从失真信号中提取特征参数,并利用先验知识或训练好的模型将其映射成质量评分。在电信领域,无参考语音质量评价模型已有较多研究,如ITU标准P.563;低复杂度质量评估技术(LCQA);随着深度学习的发展,近些年一些基于深度学习的无参考语音质量评价方法也被提出,如QualityNet、NISQA、MOSNet等。在助听器质量领域,现有的研究基本上都是对电信领域无参考模型的扩充,如LCQA

HA、SRMR

HA。专门为助听器提出的无参考语音质量指标有PLP

HL和FBE

HL。无参考质量评估方法的灵活性更强,但由于缺乏参考,其准确度相对较低,有待进一步改进和提高。

技术实现思路

[0005]针对现有技术中无参考的助听器语音质量客观评价方法准确度不高的缺陷,本专利技术公开了基于听损分类的助听器语音质量自评价方法,使用多任务训练思路,以质量预测为主任务,以听损分类为辅任务,通过权重因子调节主、辅任务在网络中的重要程度,充分
利用卷积神经网络的特征提取能力,结合注意力机制的循环神经网络的时序建模能力,Softmax函数的分类能力,发挥了不同网络模型的优势,提高无参考语音质量客观评价方法准确度,简化了助听器语音质量自评价的处理过程。
[0006]为解决上述技术问题,本专利技术提供了基于听损分类的助听器语音质量自评价方法,包括如下步骤:
[0007]S1:构建包括帧级特征提取网络、听损分类子网络、质量预测子网络的助听器语音质量自评价网络;
[0008]S2:将待测语音的浅层特征输入至帧级特征提取网络中,从而获得帧级特征;
[0009]S3:将获得的帧级特征输入至听损分类子网络中,得到失真语音补偿前听力损失程度的分类情况;
[0010]S4:将获得的帧级特征同时输入至质量预测子网络中,得到质量评分的预测值;
[0011]S5:助听器语音质量自评价网络利用助听器语音质量指标为标签的训练数据进行训练,损失函数由质量预测子网络和听损分类子网络的损失函数加权组合而成。
[0012]优选的,S2中将待测语音的浅层特征输入至帧级特征提取网络中,从而获得帧级特征,具体过程为:
[0013]基于助听器处理后信号计算浅层特征,利用帧级特征提取网络学习失真信号的深层表示,从而获得帧级特征,其中帧级特征提取网络由卷积神经网络构成。
[0014]优选的,S2具体过程中基于助听器处理后信号计算浅层特征为:
[0015][0016]该特征表示各帧在Gammatone滤波器各通道内的平均滤波器组能量,其中S表示失真信号经分帧加窗后在听觉频率尺度上的短时对数幅度谱,c、t、n分别为Gammantone滤波器组的通道数C、帧数T、帧长N,最终失真信号浅层特征的形状为T
×
32。
[0017]优选的,用于帧级特征提取网络的卷积神经网络由4组卷积网络堆叠而成,其中每组卷积网络依次包含一个二维卷积层,一个批标准化层和一个PReLU激活函数层;各组二维卷积层的输出特征数依次为8、8、16、16,卷积核大小依次为[5,5]、[5,5]、[3,5]、[3,5],卷积步长依次为[1,1]、[1,2]、[1,2]、[1,2],填充宽度依次为[2,2]、[2,2]、[1,2]、[1,2];失真信号的浅层特征经卷积神经网络提取出的帧级特征形状表示为16
×
T
×
4,其中T为帧数T。
[0018]优选的,S3中将获得的帧级特征输入至听损分类子网络中,得到失真语音补偿前听力损失程度的分类情况,过程为:
[0019]将形状重置后的帧级特征先进行全局平均得到段级特征,然后通过一组经过批标准化后的全连接层和Softmax层,得到失真语音补偿前听力损失程度的分类情况,其中听损分类子网络由一组经过批标准化后的全连接层和Softmax层构成。
[0020]优选的,S3中将获得的帧级特征输入至听损分类子网络中,得到失真语音补偿前听力损失程度的分类情况,具体过程为:
[0021]S31:将提取出的帧级特征先进行形状重置,生成T
×
64的特征,其中T为帧数T,再将形状重置后的帧级特征进行全局平均,达到段级特征;
[0022]S32:将段级特征输入至听损分类子网络的两个全连接层,其中听损分类子网络由
两个全连接层和一个Softmax层堆叠而成,每个全连接层的输出都经过一个批标准化层,其中第一个批标准化层的输出经ReLU函数激活后送入第二个全连接层,第二个批标准化层的输出作为两个全连接层的最终输出被送入Softmax层;段级特征经过两个全连接层的最终输出是长度为N
l
的向量,N
l
表示听损程度的总分类个数;
[0023]S33:将两个全连接层的最终输出送入Softmax层:两个全连接层输出的是长度为N本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于听损分类的助听器语音质量自评价方法,其特征在于,包括如下步骤:S1:构建包括帧级特征提取网络、听损分类子网络、质量预测子网络的助听器语音质量自评价网络;S2:将待测语音的浅层特征输入至帧级特征提取网络中,从而获得帧级特征;S3:将获得的帧级特征输入至听损分类子网络中,得到失真语音补偿前听力损失程度的分类情况;S4:将获得的帧级特征同时输入至质量预测子网络中,得到质量评分的预测值。2.如权利要求1所述的基于听损分类的助听器语音质量自评价方法,其特征在于,S2中将待测语音的浅层特征输入至帧级特征提取网络中,从而获得帧级特征,具体过程为:基于助听器处理后信号计算浅层特征,利用帧级特征提取网络学习失真信号的深层表示,从而获得帧级特征,其中帧级特征提取网络由卷积神经网络构成。3.如权利要求2所述的基于听损分类的助听器语音质量自评价方法,其特征在于,S2具体过程中基于助听器处理后信号计算浅层特征为:该特征表示各帧在Gammatone滤波器各通道内的平均滤波器组能量,其中S表示失真信号经分帧加窗后在听觉频率尺度上的短时对数幅度谱,c、t、n分别为Gammantone滤波器组的通道数C、帧数T、帧长N,最终失真信号浅层特征的形状为T
×
32。4.如权利要求3所述的基于听损分类的助听器语音质量自评价方法,其特征在于,用于帧级特征提取网络的卷积神经网络由4组卷积网络堆叠而成,其中每组卷积网络依次包含一个二维卷积层,一个批标准化层和一个PReLU激活函数层;各组二维卷积层的输出特征数依次为8、8、16、16,卷积核大小依次为[5,5]、[5,5]、[3,5]、[3,5],卷积步长依次为[1,1]、[1,2]、[1,2]、[1,2],填充宽度依次为[2,2]、[2,2]、[1,2]、[1,2];失真信号的浅层特征经卷积神经网络提取出的帧级特征形状表示为16
×
T
×
4,其中T为帧数T。5.如权利要求3所述的基于听损分类的助听器语音质量自评价方法,其特征在于,S3中将获得的帧级特征输入至听损分类子网络中,得到失真语音补偿前听力损失程度的分类情况,过程为:将形状重置后的帧级特征先进行全局平均得到段级特征,然后通过一组经过批标准化后的全连接层和Softmax层,得到失真语音补偿前听力损失程度的分类情况,其中听损分类子网络由一组经过批标准化后的全连接层和Softmax层构成。6.如权利要求5所述的基于听损分类的助听器语音质量自评价方法,其特征在于,S3中将获得的帧级特征输入至听损分类子网络中,得到失真语音补偿前听力损失程度的分类情况,具体过程为:S31:将提取出的帧级特征先进行形状重置,生成T
×
64的特征,其中T为帧数T,再将形状重置后的帧级特征进行全局平均,达到段级特征;S32:将段级特征输入至听损分类子网络的两个全连接层,其中听损分类子网络由两个全连接层和一个Softmax层堆叠而成,每个全连接层的输出都经过一个批标准化层,其中第一个批标准化层的输出经ReLU函数激活后送入第二个全连接层,第二个批标准化层的输出
作为两个全连接层的最终输出被送入Softmax层;段级特征经过两个全连接层的最终输出是长度为N
l
的向量,N
l
表示听损程度的总分类个数;S33:将两个全连接层的最终输出送入Softmax层:两个全连接层输出的是长度为N
l
的向量,经Softmax层给出了失真语音补偿前听力损失程度的分类情况,具体表示为:式中表示送入Softmax层的语音特征,下标i表示听损程度分类的...

【专利技术属性】
技术研发人员:梁瑞宇鞠梦洁唐闺臣王青云谢跃王婕程佳鸣庞聪
申请(专利权)人:南京工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1