当前位置: 首页 > 专利查询>新疆大学专利>正文

基于CTCAttention架构的参考文本相关发音错误检测模型制造技术

技术编号:34451244 阅读:23 留言:0更新日期:2022-08-06 16:52
本发明专利技术公开了一种基于CTCAttention架构的参考文本相关发音错误检测模型,涉及信息技术领域,该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行。在基于语音识别技术的发音错误检测框架中,待评测的音频首先被输入基于语音识别技术的音素识别模块,得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块,得到待评测语音的发音错误检测结果。在本文中,发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较,从而找到待评测音频中的发音错误。误。误。

【技术实现步骤摘要】
基于CTCAttention架构的参考文本相关发音错误检测模型


[0001]本专利技术涉及信息
,特别涉及一种基于CTCAttention架构的参考文本相关发音错误检测模型。

技术介绍

[0002]发音错误检测技术全称为发音错误检测与诊断技术,是使用计算机自动对语音音段层面的发音准确度进行评价的技术,也是计算机辅助语音训练技术的重要组成部分。在深度学习技术广泛运用到语音识别(ASR)及发音错误检测任务上前,基于传统语音识别技术与机器学习技术的发音错误检测方法已经得到了深入的研究与应用。在深度学习技术广泛运用于语音识别领域后,先后出现了多种基于深层神经网络(DNN)的语音识别模型。目前,面向普通话的发音错误检测公开研究主要集中在运用传统机器学习算法针对普通话的声韵母、声调及儿化音进行细粒度的评分。目前进行面向普通话的发音错误检测研究,主要的困难在于缺乏对应的公开数据集。相比于语音识别数据集,语音评测数据集由于需要专家标注,建设成本很高,故公开的语音评测数据集很少,很多时候研究者选择在私有的数据集上进行实验。现有针对深度学习技术在我国汉语普通话语音评测方面的研究还处于初步阶段,几乎没有与普通话水平测试相关的公开数据集,针对普通话口语评测的研究近年来也颇为罕见。从现有的面向普通话的发音错误检测研究来看,Zhang等人提出的基于CTC/Attention的端到端普通话发音错误检测模型没有考虑到使用参考文本信息,模型基于BiLSTM,而没有考虑使用Transformer等新的模型结构。Lo等提出的利用重复参考文本进行数据增广的发音错误检测模型让一个音频编码器与一个参考文本编码器共享一个解码器,这种思路仅将文本编码器用于数据增广,并没有将文本编码器与音频编码器的输出进行融合,模型于推理阶段时只使用音频编码器,因而并不能充分运用参考文本的信息。综上国内外在MDD任务中运用Transformer/Conformer结构的研究不多,同时尚未见到结合Transformer/Conformer结构、融合多编码器特征及CTC/Attention架构的MDD模型及相关研究。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种基于CTCAttention架构的参考文本相关发音错误检测模型,建立了针对普通话水平测试短文朗读题型的普通话语音评测数据集PSC

Reading,在采用Transformer实现音频编码器时,相对于作为基线的CNN

RNN

CTC及CNN

RNN

CTC

Text

Dep发音错误检测模型获得了显著的性能提升。
[0004]为实现上述目的,本专利技术提供以下的技术方案:
[0005]该基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全
连接层与解码器的输入,该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器,该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下:
[0006]将模型输入的Fbank等语音特征序列记为X=x1,

,x
n

,音频编码器的输出记为则音频编码器可以表示为
[0007]h
A
=AudioEncoder(X)#(1)
[0008]式(1)中的输入X与输出h
A
单调对齐,如果音频编码器没有利用CNN等结构进行下采样,则有n=n

,即编码器的输入输出序列一一对应;否则根据音频编码器下采样的比例,X中的连续数帧对应到h
A
的一帧。
[0009]将模型输入的参考文本序列记为s=s1,

,s
m
,文本编码器隐状态序列记为文本编码器分数隐状态序列记为则文本编码器可以表示为
[0010]h
T
,h
TS
=TextEncoder(s)#(2)
[0011]h
TS
由h
T
线性变换而来,维度与h
A
相同。随后利用注意力机制,将双编码器输出的隐状态序列融合,即可得到融合后的隐状态序列h=h1,...,h
n

[0012]h=Attention(h
A
,h
TS
,h
T
)#(3)
[0013]其中h
A
、h
TS
、h
T
分别作为注意力计算时的查询向量(Query Vector)、键向量(Key Vector)和值向量(Value Vector)。随后,基于注意力解码器与CTC全连接层,对以上得到的隐状态进行基于自回归的CTC注意力联合解码,即可得到最终的音素识别结果序列
[0014][0015]最终利用Needleman

Wunsch算法,对齐并比较参考文本音素序列C
ref
与识别结果得到发音错误检测结果。
[0016]式(1)中所述的音频编码器使用Transformer与Conformer结构。在使用Transformer与Conformer结构时,与CNN

RNN结构同样在模型的输入端使用CNN层进行特征下采样,从而提升模型计算速度。音频编码器的输入X是80维的Fbank特征。音频编码器输出的隐状态序列h
A
中每一帧的维度就是音频编码器的模型维度为d
AudioEnc
,与注意力解码器的维度d
Dec
均为256。此处音频编码器使用Transformer或者Conformer结构时,其层数均为6层。
[0017]式(2)中所述的文本编码器基于双向LSTM,实现全局信息建模,以下介绍其前向计算过程。
[0018]独热向量(One

hot Vector)形式的参考文本音素序列s=s1,

,s
m
的维度较高、信息密度较低,利用音素嵌入层(Phoneme Embedding)即可将其映射为维度更低的稠密向量表示e=e1,...,e
m

[0019]e=PhonemeEmbedding(s)#(5)
[0020]嵌入后e
i
的维度d
TextEmb
为64。随后使用维度d
TextEnc
为256的双向LSTM本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CTCAttention架构的参考文本相关发音错误检测模型,其特征在于:所述基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全连接层与解码器的输入,该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器,该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下:将模型输入的Fbank等语音特征序列记为X=x1,

,x
n

,音频编码器的输出记为则音频编码器可以表示为h
A
=Audio Encoder(X)#(1)式(1)中的输入X与输出h
A
单调对齐,如果音频编码器没有利用CNN等结构进行下采样,则有n
×
n

,即编码器的输入输出序列一一对应;否则根据音频编码器下采样的比例,X中的连续数帧对应到h
A
的一帧;将模型输入的参考文本序列记为s=s1,

,s
m
,文本编码器隐状态序列记为文本编码器分数隐状态序列记为则文本编码器可以表示为h
T
,h
TS
=TextEncoder(s)#(2)h
TS
由h
T
线性变换而来,维度与h
A
相同。随后利用注意力机制,将双编码器输出的隐状态序列融合,即可得到融合后的隐状态序列h=h1,...,h
n
:h=Attention(h
A
,h
TS
,h
T
)#(3)其中h
A
、h
TS
、h
T
分别作为注意力计算时的查询向量(Query Vector)、键向量(Key Vector)和值向量(Value Vector)。随后,基于注意力解码器与CTC全连接层,对以上得到的隐状态进行基于自回归的CTC注意力联合解码,即可得到最终的音素识别结果序列隐状态进行基于自回归的CT...

【专利技术属性】
技术研发人员:艾山
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1