当前位置: 首页 > 专利查询>新疆大学专利>正文

一种普通话单音节字词发音错误检测方法及其系统技术方案

技术编号:37397209 阅读:18 留言:0更新日期:2023-04-30 09:25
本发明专利技术涉及一种普通话单音节字词发音错误检测方法及其系统。其中,该普通话单音节字词发音错误检测方法包括,基于不同地方口音混合的普通话语音数据训练得到标准语音识别模型;获得待测音频数据,基于待测音频数据与标准语音识别模型获得GOP特征数据与音频对应的参考文本数据;其中,参考文本数据包括内容数据和位置数据;融合GOP特征数据与音频对应的参考文本数据,基于GOP特征数据以及融合后的数据,通过Conformer

【技术实现步骤摘要】
一种普通话单音节字词发音错误检测方法及其系统


[0001]本专利技术属于语言检测
,具体涉及一种普通话单音节字词发音错误检测方法及其系统。

技术介绍

[0002]计算机辅助发音训练(Computer Assisted Pronunciation Training,CAPT)是一种重要的自主语言学习技术,它为非母语者(L2)学习母语口语(L1)提供了便利。与传统的课堂相比,CAPT更经济、更方便,而且还能让语言学习者及时收到对其发音的反馈。由于其实用性,CAPT已经被广泛研究,其中大部分工作集中在对音素方面的发音错误检测。但发音错误检测包括许多其他方面,如字词整体发音、声调、儿化音、轻音、重音等,这些方面在以往的研究中通常被单独建模。然而,这些不同方面的发音检错任务之间是有关系的,因此以联合建模的方式或许可以让模型从不同方面学习到更全面的表述,从而提高其性能。在现实中,我们也希望有一个单一的模型能够同时检测出多个方面的发音错误。
[0003]同时,由于GOP特征反映的是音素间对数后验概率的关系,其特征间存在一定的局部相关性,传统的Transformer编码器在特征提取过程中往往会忽略这些局部信息。Conformer编码器巧妙地将卷积神经网络和Transformer模型结合起来,将局部特征和全局表示进行精确地相互嵌入。Conformer模型中的卷积模块利用了ResNet残差网络经常使用的BottleNecks卷积结构,其目的是为了减少计算和参数量。但这样的结构对局部特征的获取能力是有限的,特别是针对于不同尺度下的局部特征信息,而这些信息对于不同方面的发音检错任务均有一定作用;针对上述背景,申请人特提出了一种普通话单音节字词发音错误检测方法及其系统,以此来提升普通话不同方面的发音检错效果。

技术实现思路

[0004]本专利技术的目的就在于为了解决上述问题而提供一种结构简单,设计合理的普通话单音节字词发音错误检测方法及其系统。
[0005]本专利技术通过以下技术方案来实现上述目的:
[0006]本专利技术第一方面提供了一种普通话单音节字词发音错误检测方法,该方法包括,
[0007]基于不同地方口音混合的普通话语音数据训练得到标准语音识别模型;
[0008]获得待测音频数据,基于待测音频数据与标准语音识别模型获得GOP特征数据与音频对应的参考文本数据;其中,参考文本数据包括内容数据和位置数据;
[0009]融合GOP特征数据与音频对应的参考文本数据,基于GOP特征数据以及融合后的数据,通过Conformer

MB模型输出音素方面、声调方面、字词方面的发音错误概率;
[0010]基于设定阈值,得到发音正确或错误的检测结果。
[0011]基于不同地方口音混合的普通话语音数据训练得到的标准语音识别模型为因子化时延神经网络的标准语音识别模型(Acoustic),所述待测音频数据基于因子化时延神经网络的标准语音识别模型得到反应发音质量的GOP特征数据基于线性层映射,
获得与参考文本嵌入层输出维度数据相同的维度数据X
g
。在此计算过程中,X
raw
为原始音频序列,长度为T
o
,C为音频对应的参考文本,其长度为T
t
,得到的GOP特征数据为d
g
为通过声学模型得到的GOP特征维度大小,R为实数向量空间。
[0012][0013]作为本专利技术的进一步优化方案,音频对应的所述参考文本数据基于嵌入层编码后,得到文本内容编码以及文本位置编码信息与所述GOP特征信息融合。其中,T
t
为参考文本中的音素序列长度,d
e
为映射后得到的特征维度,R为实数向量空间,向量大小为T
t
*d
e

[0014]所述GOP特征数据与参考文本数据融合后,得到原始特征
[0015]并且
[0016]X=Concat(X
g
,X
t
,X
p
)
[0017]作为本专利技术的进一步优化方案,在Conformer

MB模型中,计算该注意力机制的分数时,X中将包括上一个模块的注意力机制的计算结果,以保证低等级特征信息能够得到充分保存,注意力计算公式可由以下公式表示,α为当前注意力机制模块的权重系数。
[0018]MHSA(Q
i
,K
i
,V
i
)=MHSA(Q
i
‑1,K
i
‑1,V
i
‑1)+(1

α)*MHSA(Q
i
,K
i
,V
i
)。
[0019]作为本专利技术的进一步优化方案,基于3个膨胀率为1、5、9,卷积核大小为31*31的膨胀卷积进行局部特征提取,基于卷积操作得到局部特征融合结果OutPut
conv
,基于OutPut
conv
得到输出OutPut
conv
,此过程中运用了残差结构。
[0020]OutPut
conv
=RESNET(Dilation(X)
rate=1
+Dilation(X)
rate=5
+Dilation(X)
rate=9
)
[0021]OutPut=RESNET(Fn(OutPut
conv
))。
[0022]作为本专利技术的进一步优化方案,基于Conformer

MB编码器的编码结果输入至音素线性层,将GOP特征编码结果在序列长度下取平均之后得到的结果Output
avg
,分别输入到字词线性层和声调线性层,每个线性层获取的结果基于Sigmod函数映射至0

1区间内;
[0023]Output
avg
=AVENGE(Output)
[0024]P(p)=Sigmod(W
P
Output+b
p
)
[0025]P(w)=Sigmod(W
w
Output
avg
+b
w
)
[0026]P(t)=Sigmod(W
t
Output
avg
+b
t
);
[0027]其中,P(p)为音素发音正确的概率,P(w)为字词发音正确的概率,P(t)为音调发声正确的概率。
[0028]作为本专利技术的进一步优化方案,训练阶段时,采用多任务学习的方式进行训练;
[0029]推理阶段,基于得到的各个方面的发音正确概率,设置阈值,根据阈值得到最后的发音错误检测结果。
[0030]作为本专利技术的进一步优化方案,训练阶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种普通话单音节字词发音错误检测方法,其特征在于,该方法包括,基于不同地方口音混合的普通话语音数据训练得到标准语音识别模型;获得待测音频数据,基于待测音频数据与标准语音识别模型获得GOP特征数据与音频对应的参考文本数据;其中,参考文本数据包括内容数据和位置数据;融合GOP特征数据与音频对应的参考文本数据,基于GOP特征数据以及融合后的数据,通过Conformer

MB模型输出音素方面、声调方面、字词方面的发音错误概率;基于设定阈值,得到发音正确或错误的检测结果。2.根据权利要求1所述的一种普通话单音节字词发音错误检测方法,其特征在于:基于不同地方口音混合的普通话语音数据训练得到的标准语音识别模型为因子化时延神经网络的标准语音识别模型,所述待测音频数据基于因子化时延神经网络的标准语音识别模型得到反应发音质量的GOP特征数据基于线性层映射,获得与参考文本嵌入层输出维度数据相同的维度数据X
g
;在此计算过程中,X
raw
为原始音频序列,长度为T
o
,C为音频对应的参考文本,其长度为T
t
,得到的GOP特征数据为d
g
为通过声学模型得到的GOP特征维度大小,R为实数向量空间;3.根据权利要求2所述的一种普通话单音节字词发音错误检测方法,其特征在于:音频对应的所述参考文本数据基于嵌入层编码后,得到文本内容编码信息以及文本位置编码信息与所述GOP特征信息融合;其中,T
t
为参考文本中的音素序列长度,d
e
为嵌入层输出维度;所述GOP特征数据与参考文本数据融合后,得到原始特征公式如下所示,即,X=Concat(X
g
,X
t
,X
p
)。4.根据权利要求3所述的一种普通话单音节字词发音错误检测方法,其特征在于:在Conformer

MB模型中,计算该注意力机制的分数时,X中将包括上一个模块的注意力机制的计算结果,以保证低等级特征信息能够得到充分保存,注意力计算公式可由以下公式表示,α为当前注意力机制模块的权重系数;MHSA(Q
i
,K
i
,V
i
)=MHSA(Q
i
‑1,K
i
‑1,V
i
‑1)+(1

α)*MHSA(Q
i
,K
i
,V
i
)。5.根据权利要求4所述的一种普通话单音节字词发音错误检测方法,其特征在于:基于3个膨胀率为1、5、9,卷积核大小为31*31的膨胀卷积进行局部特征提取,基于卷积操作得到局部特征融合结果OutPut
conv
,基于OutPut
conv
得到输出OutPut
conv
,在此过程中运用了残差结构;OutPut
conv
=RESNET(Dilation(X)
rate=1
+Dilat...

【专利技术属性】
技术研发人员:早克热
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1