基于CTCAttention架构的参考文本相关发音错误检测模型制造技术

技术编号：34451244 阅读：23 留言：0更新日期：2022-08-06 16:52

本发明专利技术公开了一种基于CTCAttention架构的参考文本相关发音错误检测模型，涉及信息技术领域，该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行。在基于语音识别技术的发音错误检测框架中，待评测的音频首先被输入基于语音识别技术的音素识别模块，得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块，得到待评测语音的发音错误检测结果。在本文中，发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较，从而找到待评测音频中的发音错误。误。误。

全部详细技术资料下载

【技术实现步骤摘要】
基于CTCAttention架构的参考文本相关发音错误检测模型

[0001]本专利技术涉及信息
，特别涉及一种基于CTCAttention架构的参考文本相关发音错误检测模型。

技术介绍

[0002]发音错误检测技术全称为发音错误检测与诊断技术，是使用计算机自动对语音音段层面的发音准确度进行评价的技术，也是计算机辅助语音训练技术的重要组成部分。在深度学习技术广泛运用到语音识别(ASR)及发音错误检测任务上前，基于传统语音识别技术与机器学习技术的发音错误检测方法已经得到了深入的研究与应用。在深度学习技术广泛运用于语音识别领域后，先后出现了多种基于深层神经网络(DNN)的语音识别模型。目前，面向普通话的发音错误检测公开研究主要集中在运用传统机器学习算法针对普通话的声韵母、声调及儿化音进行细粒度的评分。目前进行面向普通话的发音错误检测研究，主要的困难在于缺乏对应的公开数据集。相比于语音识别数据集，语音评测数据集由于需要专家标注，建设成本很高，故公开的语音评测数据集很少，很多时候研究者选择在私有的数据集上进行实验。现有针对深度学习技术在我国汉语普通话语音评测方面的研究还处于初步阶段，几乎没有与普通话水平测试相关的公开数据集，针对普通话口语评测的研究近年来也颇为罕见。从现有的面向普通话的发音错误检测研究来看，Zhang等人提出的基于CTC/Attention的端到端普通话发音错误检测模型没有考虑到使用参考文本信息，模型基于BiLSTM，而没有考虑使用Transformer等新的模型结构。Lo等提出的利用重复参考文本进行数据...

【技术保护点】

【技术特征摘要】
1.一种基于CTCAttention架构的参考文本相关发音错误检测模型，其特征在于：所述基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上，添加了一个基于双向LSTM的参考文本编码器，随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示，随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接，同时作为CTC全连接层与解码器的输入，该模型可以使用基于Transformer/Conformer的音频编码器，以及基于Transformer的解码器，该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下：将模型输入的Fbank等语音特征序列记为X＝x1，
…
，x
n
′
，音频编码器的输出记为则音频编码器可以表示为h
A
＝Audio Encoder(X)#(1)式(1)中的输入X与输出h
A
单调对齐，如果音频编码器没有利用CNN等结构进行下采样，则有n
×
n
′
，即编码器的输入输出序列一一对应；否则根据音频编码器下采样的比例，X中的连续数帧对应到h
A
的一帧；将模型输入的参考文本序列记为s＝s1，
…
，s
m
，文本编码器隐状态序列记为文本编码器分数隐状态序列记为则文本编码器可以表示为h
T
，h
TS
＝TextEncoder(s)#(2)h
TS
由h
T
线性变换而来，维度与h
A
相同。随后利用注意力机制，将双编码器输出的隐状态序列融合，即可得到融合后的隐状态序列h＝h1，...，h
n
：h＝Attention(h
A
，h
TS
，h
T
)#(3)其中h
A
、h
TS
、h
T
分别作为注意力计算时的查询向量(Query Vector)、键向量(Key Vector)和值向量(Value Vector)。随后，基于注意力解码器与CTC全连接层，对以上得到的隐状态进行基于自回归的CTC注意力联合解码，即可得到最终的音素识别结果序列隐状态进行基于自回归的CT...

【专利技术属性】
技术研发人员：艾山，
申请(专利权)人：新疆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人