当前位置: 首页 > 专利查询>内蒙古大学专利>正文

一种基于层次化迁移学习的蒙古语自动语音质量评估方法技术

技术编号:38201863 阅读:13 留言:0更新日期:2023-07-21 16:45
本发明专利技术公开了基于层次化迁移学习的蒙古语自动语音质量评估方法,包括以下步骤:对英语语音自监督模型和英语语音质量评估模型进行预训练,得到训练好的英语语音自监督模型和训练好的英语语音质量评估模型;对训练好的英语语音自监督模型和训练好的英语语音质量评估模型进行迁移学习,得到训练好的自监督模型和训练好的语音质量评估模型;使用训练好的语音自监督模型和BERT模型提取蒙古语语音的特征向量和对应文本中的文本特征;将语音特征和文本特征融合为句子级别的语义特征f,并将f送入训练好的语音质量评估模型,得到语音信号对应的MOS分数z,完成蒙古语自动语音质量评估,首创了蒙古语语音质量自动评估方法,填补了该领域的空白。领域的空白。领域的空白。

【技术实现步骤摘要】
一种基于层次化迁移学习的蒙古语自动语音质量评估方法


[0001]本专利技术涉及语音通信领域,具体为一种基于层次化迁移学习的蒙古语自动语音质量评估方法。

技术介绍

[0002]在语音生成领域,语音质量评价是评价模型生成语音好坏的一个重要指标。其中,自然度相关的语音质量评价是业界比较关注的指标。但是,人工评价方法要邀请大量的志愿者对生成语音样例进行测评,这样的过程费时费力,因此,基于深度学习模型的自动语音质量评估方法受到学术界的高度关注。传统的语音质量评估方法主要采用以下三种模型:
[0003](1)基于卷积神经网络的语音质量评估模型:此类方法采用多层卷积神经网络构建语音质量评估模型,以语音的mel

spectrogram特征为输入,以语音信号对应的主观平均意见分数(Mean Opinion Score,MOS)为输出,进行网络参数的更新。但是,语音信号是时序信号,卷积神经网络无法建模语音信号的时序特性。
[0004](2)基于循环神经网络的语音质量评估模型:此类方法采用双向循环神经网络构建语音质量评估模型,同样以语音的mel

spectrogram特征为输入,以语音信号对应的主观MOS分数为输出,进行网络参数的学习。
[0005](3)基于卷积

循环联合神经网络的语音质量评估模型:为了更近一步结合卷积神经网络和循环神经网络在语音特征建模上的优势,基于卷积

循环联合神经网络的语音质量评估模型被提出。该模型通过学习语音信号谱特征中的全局语义知识和语音信号的时序特征,进行准确的MOS分数预测。
[0006]以上方法利用神经网络强大的建模能力,可以以语音特征参数为输入,自动预测语音的质量,进行语音质量的评估。但是,目前的方法主要针对英语等主流语种。主流语种的语音MOS分数获取难度相对较低,数据规模较大,在大规模数据条件下训练的模型参数可以表现出很好的评估性能。但是,在进行蒙古语语音质量评估时,由于数据规模的限制,同样结构的神经网络往往难以取得满意的表现。

技术实现思路

[0007]针对现有技术中的上述不足,本专利技术提供的一种基于层次化迁移学习的蒙古语自动语音质量评估方法解决了现有技术自动评估蒙古语语音质量效果差的问题。
[0008]为了达到上述专利技术目的,本专利技术采用的技术方案为:提供一种基于层次化迁移学习的蒙古语自动语音质量评估方法,包括以下步骤:
[0009]S1、对英语语音自监督模型和英语语音质量评估模型进行预训练,得到训练好的英语语音自监督模型和训练好的英语语音质量评估模型;
[0010]S2、对训练好的英语语音自监督模型和训练好的英语语音质量评估模型进行迁移学习,得到训练好的蒙古语语音自监督模型和训练好的蒙古语音质量评估模型;
[0011]S3、使用训练好的蒙古语语音自监督模型和BERT模型分别提取蒙古语语音的特征
向量fs和对应文本中的文本特征ft;
[0012]S4、将fs和ft融合为句子级别的语义特征f,并将f送入训练好的蒙古语语音质量评估模型,得到蒙古语语音信号对应的MOS分数z,完成蒙古语自动语音质量评估。
[0013]进一步地:所述步骤S1包括以下分步骤:
[0014]S11、读取英语语音信号,并屏蔽信号15%的语音帧的梅尔频谱特征f
mel
,作为英语语音自监督模型的输入序列xe;
[0015]S12、通过深度双向Transformer编码器读取输入序列xe,计算损失函数L
MLM
,并对其进行反向传播,完成MLM任务,获得训练好的英语语音自监督模型,其中损失函数L
MLM
的数学表达式为:
[0016][0017]其中,θ为双向Transformer参数,θ1为双向Transformer在MLM任务上所接输出层的参数,,M表示被掩盖的词的集合,p(.)表示条件概率,m表示当前帧,m
i
表示第i个语音帧,V为语音帧的个数;
[0018]S13、将英语语音信号的梅尔频谱特征f
mel
输入至CNN层,通过CNN层处理f
mel
获得f
mel
的局部和全局信息h1,其中h1的数学表达式为:
[0019]h1=conv1(W,f
mel
)+b
[0020]其中,conv1(,)为卷积操作,W为权重矩阵,b为偏置值;
[0021]S14、将局部和全局信息h1输入至双向长短时记忆网络,得到MOS的真实值z',并对MOS分数的预测值z”进行计算,其中z”的表达式为:
[0022]z”=BLSTM(h1,θ)
[0023]其中,BLSTM为双向长短时记忆网络,θ为BLSTM的参数;
[0024]S15、采用MSE作为损失函数L
EMOS
,并使用测值z”和真实值z'计算失函数L
EMOS
,完成英语语音质量评估模型的预训练,获得训练好的英语语音质量评估模型,其中L
EMOS
的数学表达式为:
[0025][0026]其中,n为预测值的个数。
[0027]进一步地:所述步骤S2包括以下分步骤:
[0028]S21、将训练好的英语语音自监督模型学习到的参数对蒙古语语音自监督模型进行参数初始化,并采用MLM学习任务对蒙古语语音自监督模型进行参数学习,完成语音自监督模型的迁移学习,获得训练好的蒙古语语音自监督模型;
[0029]S22、将训练好的英语语音质量评估模型学习到的参数对蒙古语语音质量评估模型进行参数初始化,并采用MSE损失函数对蒙古语语音质量评估模型的参数进行学习完成语音质量评估模型的迁移学习,获得训练好的蒙古语语音质量评估模型。
[0030]进一步地:所述步骤S3包括以下分步骤:
[0031]S31、读取蒙古语语音信号,使用训练好的蒙古语语音自监督模型对输入的蒙古语语音信号进行特征提取得到帧级别的特征向量fs,其中,fs的表达式为:
[0032][0033][0034]MLP(Z)=ZW+b
[0035][0036]其中,MLP为前馈网络层,为中间变量,MSA为多头注意力层,LN为归一化层,x为蒙古语语音信号,Z为归一化后的特征向量,W为参数矩阵,b为偏置值;Q、K、V分别为query、key、value,其值均为x;
[0037]S32、读取蒙古文文本输入,使用预训练好的蒙古文BERT模型提出话语级的文本特征ft,其中,ft的表达式为:
[0038]ft=BERT(y,θ
BERT
)
[0039]其中,BERT为BERT模型,θ
BERT
为BERT模型的参数,y为蒙古文文本输入。
[0040]进一步地:所述步骤S4中语义特征f和MOS分数z的表达式为:
[0041]f=conv本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层次化迁移学习的蒙古语自动语音质量评估方法,其特征在于,包括以下步骤:S1、对英语语音自监督模型和英语语音质量评估模型进行预训练,得到训练好的英语语音自监督模型和训练好的英语语音质量评估模型;S2、对训练好的英语语音自监督模型和训练好的英语语音质量评估模型进行迁移学习,得到训练好的蒙古语语音自监督模型和训练好的蒙古语音质量评估模型;S3、使用训练好的蒙古语语音自监督模型和BERT模型分别提取蒙古语语音的特征向量fs和对应文本中的文本特征ft;S4、将fs和ft融合为句子级别的语义特征f,并将f送入训练好的蒙古语语音质量评估模型,得到蒙古语语音信号对应的MOS分数z,完成蒙古语自动语音质量评估。2.根据权利要求1所述的基于层次化迁移学习的蒙古语自动语音质量评估方法其特征在于,所述步骤S1包括以下分步骤:S11、读取英语语音信号,并屏蔽信号15%的语音帧的梅尔频谱特征f
mel
,作为英语语音自监督模型的输入序列xe;S12、通过深度双向Transformer编码器读取输入序列xe,计算损失函数L
MLM
,并对其进行反向传播,完成MLM任务,获得训练好的英语语音自监督模型,其中损失函数L
MLM
的数学表达式为:其中,θ为双向Transformer参数,θ1为双向Transformer在MLM任务上所接输出层的参数,,M表示被掩盖的词的集合,p(.)表示条件概率,m表示当前帧,m
i
表示第i个语音帧,V为语音帧的个数;S13、将英语语音信号的梅尔频谱特征f
mel
输入至CNN层,通过CNN层处理f
mel
获得f
mel
的局部和全局信息h1,其中h1的数学表达式为:h1=conv1(W,f
mel
)+b其中,conv1(,)为卷积操作,W为权重矩阵,b为偏置值;S14、将局部和全局信息h1输入至双向长短时记忆网络,得到MOS的真实值z',并对MOS分数的预测值z”进行计算,其中z”的表达式为:z”=BLSTM(h1,θ)其中,BLSTM为双向长短时记忆网络,...

【专利技术属性】
技术研发人员:刘瑞尹鹏恺左昊麟胡一帆
申请(专利权)人:内蒙古大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1