一种基于音素的口语评测方法、装置及电子设备制造方法及图纸

技术编号:28627708 阅读:40 留言:0更新日期:2021-05-28 16:24
本发明专利技术提供了一种基于音素的口语评测方法、装置及电子设备,其中,该方法包括:设置评测模型;对编码子模型和对齐输出子模型进行训练,之后,在保持编码子模型不变的情况下,对识别输出子模型进行训练;将目标语音数据输入至评测模型,确定目标语音数据的特征向量和音素对齐信息,并基于识别输出子模型确定目标语音数据中每个音素的识别结果;根据标准答案和目标语音数据中每个音素的识别结果确定目标语音数据的评测结果。通过本发明专利技术实施例提供的基于音素的口语评测方法、装置及电子设备,可以学习到海量数据的特征,音素对齐效果较好;并且不需要大量的优质数据,有效解决了训练过程中优质数据量不够的问题。

【技术实现步骤摘要】
一种基于音素的口语评测方法、装置及电子设备
本专利技术涉及语音识别
,具体而言,涉及一种基于音素的口语评测方法、装置、电子设备及计算机可读存储介质。
技术介绍
语音评测是K12(kindergartenthroughtwelfthgrade,指的是学前教育至高中教育)在线教育场景中的重要场景,通过在线进行语音评测,可以有效的提升学生的口语水平。而音素发音评价作为发音的重要评价细节,对口语打分的准确性起着至关重要的作用。因此,音素颗粒打分的准确度不仅对总分的评估起着重要的作用,还在教学中学生发音细节的纠正发挥着重要作用。目前常见的口语评测中,音素发音的评估大多以声学模型的音素似然概率作为音素评估的基本特征进行打分。比如使用语音特征强制对齐后的每个音素的似然概率,根据音素的似然概率和专家打分训练一个基于SVM(SupportVectorMachine,支持向量机)的评分模型,以保证机器评分与专家评分的差异。或者,基于LSTM(LongShort-TermMemory,长短期记忆网络)进行声学模型建模,LSTM产生的似然概率和专家打分,本文档来自技高网...

【技术保护点】
1.一种基于音素的口语评测方法,其特征在于,包括:/n设置评测模型,所述评测模型包括编码子模型、对齐输出子模型和识别输出子模型;所述编码子模型用于将输入数据编码为特征向量,所述对齐输出子模型用于根据所述特征向量确定相应的音素对齐信息,所述识别输出子模型用于根据所述特征向量和所述音素对齐信息确定所述输入数据中每个音素的识别结果;/n对所述编码子模型和所述对齐输出子模型进行训练,之后,在保持所述编码子模型不变的情况下,对所述识别输出子模型进行训练,确定训练后的评测模型;/n获取待识别的目标语音数据以及与所述目标语音数据对应的跟读文本,将所述目标语音数据输入至所述评测模型,确定所述目标语音数据的特征...

【技术特征摘要】
1.一种基于音素的口语评测方法,其特征在于,包括:
设置评测模型,所述评测模型包括编码子模型、对齐输出子模型和识别输出子模型;所述编码子模型用于将输入数据编码为特征向量,所述对齐输出子模型用于根据所述特征向量确定相应的音素对齐信息,所述识别输出子模型用于根据所述特征向量和所述音素对齐信息确定所述输入数据中每个音素的识别结果;
对所述编码子模型和所述对齐输出子模型进行训练,之后,在保持所述编码子模型不变的情况下,对所述识别输出子模型进行训练,确定训练后的评测模型;
获取待识别的目标语音数据以及与所述目标语音数据对应的跟读文本,将所述目标语音数据输入至所述评测模型,确定所述目标语音数据的特征向量和音素对齐信息,并基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果;
根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述编码子模型和所述对齐输出子模型进行训练,之后,在保持所述编码子模型不变的情况下,对所述识别输出子模型进行训练,包括:
获取第一数据集,对所述第一数据集中的第一语音数据进行音素对齐,确定所述第一语音数据中每帧数据的标签;
将所述第一数据集作为训练集,将所述第一语音数据作为所述编码子模型的输入、将所述第一语音数据中每帧数据的标签作为所述对齐输出子模型的输出,对所述编码子模型和所述对齐输出子模型进行训练;
获取第二数据集,对所述第二数据集的第二语音数据进行音素对齐,并确定所述第二语音数据对应的文本;所述第二语音数据为发音正确的数据,且所述第二语音数据的数量小于所述第一语音数据的数量;
将所述第二数据集作为训练集,在保持所述编码子模型不变的情况下,将所述第二语音数据作为所述编码子模型的输入、将所述第二语音数据对应的文本作为所述识别输出子模型的输出,对所述识别输出子模型进行训练。


3.根据权利要求1所述的方法,其特征在于,所述基于所述识别输出子模型确定所述目标语音数据中每个音素的识别结果,包括:
将所述目标语音数据的特征向量输入至所述识别输出子模型进行前向计算,确定所述识别输出子模型的输出矩阵Yrec,所述输出矩阵Yrec为帧数m×音素总维数n的矩阵;
根据目标语音数据的音素对齐信息确定所述目标语音数据中的每个音素,并确定音素i对齐区间内对于任意音素j的似然概率:



其中,表示音素i对齐区间的起始帧,表示音素i对齐区间的结束帧,表示输出矩阵Yrec中ti帧、音素j对应的元素,j∈[1,n]。


4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述跟读文本和所述目标语音数据中每个音素的识别结果确定所述目标语音数据的评测结果,包括:
为所述评测模型设置逻辑回归子模型,基于所述逻辑回归子模型对所述目标语音数据中每个音素的识别结果进行逻辑回归处理,确定每个音素与所述跟读文本相匹配的置信度;
根据每个音素的置信度确定所述目标语音数据的评测结果。


5.根据权利要求4所述的方法,其特征在于,所述基于所述逻辑回归子模型对所述目标语音数据中每个音素的识别结果进行逻辑回归处理,确定每个音素与所述跟读文本相匹配的置信度,包括:
将所述目标语音数据中每个音素的识别结果输入至所述逻辑回归子模型...

【专利技术属性】
技术研发人员:庞永强袁佳艺王丹汪巍丁文雪莫贵明杨熙饶丰
申请(专利权)人:北京一起教育科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1