基于神经网络的多尺度融合的发音评测模型优化方法技术

技术编号:35346544 阅读:11 留言:0更新日期:2022-10-26 12:12
本发明专利技术是语音发音评测领域,具体涉及基于神经网络的多尺度融合的发音评测模型优化方法,利用神经网络和多尺度融合技术对发音评测系统进行优化。主要包括:声学模型模型设计与选取、基于神经网络的GOP分数的计算、多尺度卷积神经网络的构造以及基于注意力机制的多特征融合,最后语音评测。考虑韵律信息的全局性和局部性,采用不同尺度的CNN网络,对不同粒度的韵律相关的发音特征进行了挖掘。采取注意力机制模型对不同尺度的发音特征和后验概率相关的特征进行融合,实现多尺度融合的发音特征。征。征。

【技术实现步骤摘要】
基于神经网络的多尺度融合的发音评测模型优化方法


[0001]本专利技术是语音发音评测领域,具体涉及基于神经网络的多尺度融合的发音评测模型优化方法,利用神经网络和多尺度融合技术对发音评测系统进行优化。

技术介绍

[0002]英文发音自动评测是受测者根据指定英文文本发音,计算机根据受试者发音质量给出测评分数的技术,通过计算机对受试者英文发音水平进行公正、客观、高效的自动评测,辅助英文语言学习者纠正发音错误,提高英语口语水平。随着全球经济的飞速发展,不同国家之间在政治、经济、文化教育等各个方面的交流与合作越发频繁。越来越多的人开始学习除母语之外的第二种语言。掌握一门交流语言,口语学习至关重要。然而,师生之间一对一的学习、面对面的互动交流等往往会受到时空和经济条件的限制,因此,在线教育越来越受欢迎,通过计算机自动评测学习者的发音以及纠正口音错误的发音评测技术与应用也得到广大学习者的青睐。
[0003]目前,国内外研究中,韵律发音质量自动评测大多是从整体听感质量的角度进行评测,而针对具体子项的发音质量评测,比如重音发音质量评测、节奏发音质量评测等,仍相对较少。人们在进行言语交流时,相互之间传递的不仅仅是语言文字信息,还包含着丰富的韵律信息。韵律信息属于超音段信息,主要反映着说话人发音的抑扬顿挫(节奏),强调(重音),语调和语气等。一方面,韵律信息有助于说话人更清楚、准确地表达所要表达的信息,提升语言的自然度水平和可理解程度;另一方面,韵律信息有助于听话者更清楚、准确地理解所听到的信息,甚至包含对说话人意图、情感、态度、语气等多个方面的把握和理解。在发音质量自动评测任务中,对韵律发音质量进行评测是非常必要,也是非常重要的。
[0004]近年来,深度学习,作为一种新的机器学习的方法,在人工智能各个领域都得到了广泛的应用,在这一背景下,本专利针对上述发音评测所存在的不足,提出了一种基于神经网络的多尺度融合的发音评测模型,采用基于神经网络的语音识别模型作为声学模型,并设置多个不同尺度的CNN网络对评价特征进行卷积,挖掘不同尺度的韵律信息,此外使用注意力机制模型

技术实现思路

[0005]本专利技术为解决
技术介绍
中提出的技术问题,采用一种基于神经网络的多尺度融合的发音评测模型优化方法。
[0006]本专利技术的技术方案是基于神经网络的多尺度融合的发音评测模型优化方法,包括如下步骤:
[0007]步骤一,声学模型模型设计与选取:选择端到端语音识别模型作为声学模型,用来计算待评测音频的GOP分数;此外,需要设计构造发音评测训练数据集,用于后续模型的训练。
[0008]步骤二,基于神经网络的GOP分数的计算:在完成步骤一所述的语音识别模型之
后,用步骤一的语音识别模型对待评测的语音进行识别,并利用神经网络的输出计算GOP分数:
[0009][0010]公式(1)将神经网络输出所构造的平均帧级别的后验概率作为GOP评分;这里的P(s
t
,O
t
)是神经网络模型最后一层softmax层的输出,其中O指的是语音的观测序列,O
t
是对应t时刻语音帧的观测序列,t
s
和t
e
分别表示音素P的开始帧和结束帧,s
t
是通过强制对齐后帧t的状态标签;
[0011]步骤三,多尺度卷积神经网络的构造
[0012]3)韵律相关特征的提取:提取每一帧的上述相关的韵律声学特征,并作为卷积神经网络的输入。假设待评测语音分给为N帧,且每一帧包含上述M维相关的韵律相关特征,则输入为N*M的矩阵;
[0013]4)多尺度神经网络构造,采用一维卷积来对原始的卷积特征进行分析和提取:
[0014]设置T(1,2,

,T)个不同尺度的卷积神经网络,每一个卷积网络的卷积核大小为C1*1,C2*1,

,C
T
*1,其中每个卷积核的个数都为M;
[0015]步骤四,基于注意力机制的多特征融合:
[0016]1)对于步骤三所学习到的T个不同尺度的韵律特征,假设这T个特征表示为S=[s1,s2,

,s
t
],按照以下公式(2)的注意力机制,可以计算得到的最后特征表示E:
[0017]Q=Q

W
q
,K=SW
k
,V=SW
v
[0018][0019]其中,Q

是神经网络随机初始化的向量,W
q
,W
k
,W
v
是神经网络随机初始的矩阵用于对Q

和S进行线性变换,线性变换后将会得到查询向量Q,比较向量K和内容向量V,f是指对向量的维度进行缩减,d
m
指的是向量的维度,A指的是注意力机制的评分函数,本专利技术采用softmax激活作为评分函数,用来将结果固定到0

1的区间之内,随着神经网络的不断学习进行更新,最终可以实现对不同的尺度的特征进行融合;
[0020]2)将融合特征计算得到的评分score
e
和GOP评分进行进一步融合,如下公式(3)所示:
[0021]score
final
=α*score
e
+(1

α)*GOP
[0022]α=sigmod(W
α
s
t+1
+b
α
)
ꢀꢀꢀꢀ
(3)
[0023]其中,s
t+1
为步骤一所用的基于神经网络识别模型的softmax前的输出,W
α
和b
α
也是在评测模型中随机初始的矩阵用来进行线性变换,α是score
e
对应的权重,(1

α)则是GOP评分对应的权重,最后得到的score
final
则是综合考虑了不同的韵律声学特征以及GOP的最终评测结果,sigmod为激活函数,用来保证α是处于0

1之间的权重值。
[0024]进一步,评测步骤:
[0025]1)接收待评测音频,通过步骤一计算得到GOP分数和识别模型softmax前的输出s
t+1

[0026]2)提取韵律相关特征,并经过不同尺度的CNN提取相应的深层特征;
[0027]3)通过注意力机制融合不同尺度的特征;
[0028]4)将融合特征得分和原始GOP分数融合得到最终的评分。
[0029]有益效果:
[0030]本专利技术的技术方案可以实现:
[0031]1)将传统的发音质量评估(GOP)算法与韵律相关的多个发音特征结合,实现了一种基于神经网络的发音评测模型。
[0032]2)考虑韵律信息的全局性和局部性,采用了不同尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于神经网络的多尺度融合的发音评测模型优化方法,其特征在于,包括如下步骤:步骤一,声学模型模型设计与选取:选择端到端语音识别模型作为声学模型,用来计算待评测音频的GOP分数;此外,需要设计构造发音评测训练数据集,用于后续模型的训练;步骤二,基于神经网络的GOP分数的计算:在完成步骤一所述的语音识别模型之后,用步骤一的语音识别模型对待评测的语音进行识别,并利用神经网络的输出计算GOP分数:公式(1)将神经网络输出所构造的平均帧级别的后验概率作为GOP评分;这里的P(s
t
,O
t
)是神经网络模型最后一层softmax层的输出,其中O指的是语音的观测序列,O
t
是对应t时刻语音帧的观测序列,t
s
和t
e
分别表示音素P的开始帧和结束帧,s
t
是通过强制对齐后帧t的状态标签;步骤三,多尺度卷积神经网络的构造1)韵律相关特征的提取:提取每一帧的上述相关的韵律声学特征,并作为卷积神经网络的输入,假设待评测语音分给为N帧,且每一帧包含上述M维相关的韵律相关特征,则输入为N*M的矩阵;2)多尺度神经网络构造,采用一维卷积来对原始的卷积特征进行分析和提取:设置T(1,2,

,T)个不同尺度的卷积神经网络,每一个卷积网络的卷积核大小为C1*1,C2*1,

,C
T
*1,其中每个卷积核的个数都为M;步骤四,基于注意力机制的多特征融合:1)对于步骤三所学习到的T个不同尺度的韵律特征,假设这T个特征表示为S=[s1,s2,

,s
t
],按照以下公式(2)的注意力机制,可以计算得到的最后特征表示E:Q=Q

W
q
,K=SW
k
,V=SW
v
其中,Q

是神经网络随机初始化的向量,W
...

【专利技术属性】
技术研发人员:张句贡诚王宇光关昊天
申请(专利权)人:苏州智言信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1