【技术实现步骤摘要】
一种普通话单音节字词发音错误检测方法及其系统
[0001]本专利技术属于语言检测
,具体涉及一种普通话单音节字词发音错误检测方法及其系统。
技术介绍
[0002]计算机辅助发音训练(Computer Assisted Pronunciation Training,CAPT)是一种重要的自主语言学习技术,它为非母语者(L2)学习母语口语(L1)提供了便利。与传统的课堂相比,CAPT更经济、更方便,而且还能让语言学习者及时收到对其发音的反馈。由于其实用性,CAPT已经被广泛研究,其中大部分工作集中在对音素方面的发音错误检测。但发音错误检测包括许多其他方面,如字词整体发音、声调、儿化音、轻音、重音等,这些方面在以往的研究中通常被单独建模。然而,这些不同方面的发音检错任务之间是有关系的,因此以联合建模的方式或许可以让模型从不同方面学习到更全面的表述,从而提高其性能。在现实中,我们也希望有一个单一的模型能够同时检测出多个方面的发音错误。
[0003]同时,由于GOP特征反映的是音素间对数后验概率的关系,其特征间存在一定的局部相关性,传统的Transformer编码器在特征提取过程中往往会忽略这些局部信息。Conformer编码器巧妙地将卷积神经网络和Transformer模型结合起来,将局部特征和全局表示进行精确地相互嵌入。Conformer模型中的卷积模块利用了ResNet残差网络经常使用的BottleNecks卷积结构,其目的是为了减少计算和参数量。但这样的结构对局部特征的获取能力是有限的,特别是针对于不同尺 ...
【技术保护点】
【技术特征摘要】
1.一种普通话单音节字词发音错误检测方法,其特征在于,该方法包括,基于不同地方口音混合的普通话语音数据训练得到标准语音识别模型;获得待测音频数据,基于待测音频数据与标准语音识别模型获得GOP特征数据与音频对应的参考文本数据;其中,参考文本数据包括内容数据和位置数据;融合GOP特征数据与音频对应的参考文本数据,基于GOP特征数据以及融合后的数据,通过Conformer
‑
MB模型输出音素方面、声调方面、字词方面的发音错误概率;基于设定阈值,得到发音正确或错误的检测结果。2.根据权利要求1所述的一种普通话单音节字词发音错误检测方法,其特征在于:基于不同地方口音混合的普通话语音数据训练得到的标准语音识别模型为因子化时延神经网络的标准语音识别模型,所述待测音频数据基于因子化时延神经网络的标准语音识别模型得到反应发音质量的GOP特征数据基于线性层映射,获得与参考文本嵌入层输出维度数据相同的维度数据X
g
;在此计算过程中,X
raw
为原始音频序列,长度为T
o
,C为音频对应的参考文本,其长度为T
t
,得到的GOP特征数据为d
g
为通过声学模型得到的GOP特征维度大小,R为实数向量空间;3.根据权利要求2所述的一种普通话单音节字词发音错误检测方法,其特征在于:音频对应的所述参考文本数据基于嵌入层编码后,得到文本内容编码信息以及文本位置编码信息与所述GOP特征信息融合;其中,T
t
为参考文本中的音素序列长度,d
e
为嵌入层输出维度;所述GOP特征数据与参考文本数据融合后,得到原始特征公式如下所示,即,X=Concat(X
g
,X
t
,X
p
)。4.根据权利要求3所述的一种普通话单音节字词发音错误检测方法,其特征在于:在Conformer
‑
MB模型中,计算该注意力机制的分数时,X中将包括上一个模块的注意力机制的计算结果,以保证低等级特征信息能够得到充分保存,注意力计算公式可由以下公式表示,α为当前注意力机制模块的权重系数;MHSA(Q
i
,K
i
,V
i
)=MHSA(Q
i
‑1,K
i
‑1,V
i
‑1)+(1
‑
α)*MHSA(Q
i
,K
i
,V
i
)。5.根据权利要求4所述的一种普通话单音节字词发音错误检测方法,其特征在于:基于3个膨胀率为1、5、9,卷积核大小为31*31的膨胀卷积进行局部特征提取,基于卷积操作得到局部特征融合结果OutPut
conv
,基于OutPut
conv
得到输出OutPut
conv
,在此过程中运用了残差结构;OutPut
conv
=RESNET(Dilation(X)
rate=1
+Dilat...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。