【技术实现步骤摘要】
基于神经网络的多尺度融合的发音评测模型优化方法
[0001]本专利技术是语音发音评测领域,具体涉及基于神经网络的多尺度融合的发音评测模型优化方法,利用神经网络和多尺度融合技术对发音评测系统进行优化。
技术介绍
[0002]英文发音自动评测是受测者根据指定英文文本发音,计算机根据受试者发音质量给出测评分数的技术,通过计算机对受试者英文发音水平进行公正、客观、高效的自动评测,辅助英文语言学习者纠正发音错误,提高英语口语水平。随着全球经济的飞速发展,不同国家之间在政治、经济、文化教育等各个方面的交流与合作越发频繁。越来越多的人开始学习除母语之外的第二种语言。掌握一门交流语言,口语学习至关重要。然而,师生之间一对一的学习、面对面的互动交流等往往会受到时空和经济条件的限制,因此,在线教育越来越受欢迎,通过计算机自动评测学习者的发音以及纠正口音错误的发音评测技术与应用也得到广大学习者的青睐。
[0003]目前,国内外研究中,韵律发音质量自动评测大多是从整体听感质量的角度进行评测,而针对具体子项的发音质量评测,比如重音发音质量评测、节奏发音质量评测等,仍相对较少。人们在进行言语交流时,相互之间传递的不仅仅是语言文字信息,还包含着丰富的韵律信息。韵律信息属于超音段信息,主要反映着说话人发音的抑扬顿挫(节奏),强调(重音),语调和语气等。一方面,韵律信息有助于说话人更清楚、准确地表达所要表达的信息,提升语言的自然度水平和可理解程度;另一方面,韵律信息有助于听话者更清楚、准确地理解所听到的信息,甚至包含对说话人意图、情感、态度、 ...
【技术保护点】
【技术特征摘要】
1.基于神经网络的多尺度融合的发音评测模型优化方法,其特征在于,包括如下步骤:步骤一,声学模型模型设计与选取:选择端到端语音识别模型作为声学模型,用来计算待评测音频的GOP分数;此外,需要设计构造发音评测训练数据集,用于后续模型的训练;步骤二,基于神经网络的GOP分数的计算:在完成步骤一所述的语音识别模型之后,用步骤一的语音识别模型对待评测的语音进行识别,并利用神经网络的输出计算GOP分数:公式(1)将神经网络输出所构造的平均帧级别的后验概率作为GOP评分;这里的P(s
t
,O
t
)是神经网络模型最后一层softmax层的输出,其中O指的是语音的观测序列,O
t
是对应t时刻语音帧的观测序列,t
s
和t
e
分别表示音素P的开始帧和结束帧,s
t
是通过强制对齐后帧t的状态标签;步骤三,多尺度卷积神经网络的构造1)韵律相关特征的提取:提取每一帧的上述相关的韵律声学特征,并作为卷积神经网络的输入,假设待评测语音分给为N帧,且每一帧包含上述M维相关的韵律相关特征,则输入为N*M的矩阵;2)多尺度神经网络构造,采用一维卷积来对原始的卷积特征进行分析和提取:设置T(1,2,
…
,T)个不同尺度的卷积神经网络,每一个卷积网络的卷积核大小为C1*1,C2*1,
…
,C
T
*1,其中每个卷积核的个数都为M;步骤四,基于注意力机制的多特征融合:1)对于步骤三所学习到的T个不同尺度的韵律特征,假设这T个特征表示为S=[s1,s2,
…
,s
t
],按照以下公式(2)的注意力机制,可以计算得到的最后特征表示E:Q=Q
′
W
q
,K=SW
k
,V=SW
v
其中,Q
’
是神经网络随机初始化的向量,W
...
【专利技术属性】
技术研发人员:张句,贡诚,王宇光,关昊天,
申请(专利权)人:苏州智言信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。