语音数据的评测方法和装置、存储介质和电子装置制造方法及图纸

技术编号:26532851 阅读:42 留言:0更新日期:2020-12-01 14:17
本申请提供了一种语音数据的评测方法和装置、存储介质和电子装置,该方法包括:获取与目标对象的评测语音数据对应的评测语音特征,其中,所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征;使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别,得到目标识别结果,其中,所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率;根据所述目标识别结果和评测发音信息进行发音评测,得到所述目标对象的目标评测结果,其中,所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元。

【技术实现步骤摘要】
语音数据的评测方法和装置、存储介质和电子装置
本申请涉及计算机领域,尤其涉及一种语音数据的评测方法和装置、存储介质和电子装置。
技术介绍
为了克服人工教学存在教师资源不足、时间地点受限等限制,可以采用机器辅助语言学习的方式为学生或者其他用户提供实时有效的语言学习指导。在机器辅助口语学习中,可以通过机器对用户进行口语评测,判断用户的发音是否标准,给出文本对应的每个音素的发音质量分数,以便用户进行及时改正。相关技术中,对于一个评测文本,可以通过查阅发音词典得到该文本对应的音素序列,通过声学模型识别待评测语音中的音素,根据识别出的待评测语音中的音素判断文本对应的每个音素的发音质量分数,从而完成发音评测。上述方案中,声学模型一般是用母语为待学语言的说话人的语音来训练的。而在用户使用时,待评测的语音是用户试读的语音。待学语言一般不是该用户的母语,而是学生的第二或第三等语言。模型训练语音所涉及的说话人和待识别的语音对应的说话人是不同的,即,模型训练的过程和口语评测的过程存在说话人不匹配的情况。由于不同说话人都有自己独特的说话习惯和发本文档来自技高网...

【技术保护点】
1.一种语音数据的评测方法,其特征在于,包括:/n获取与目标对象的评测语音数据对应的评测语音特征,其中,所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征;/n使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别,得到目标识别结果,其中,所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率;/n根据所述目标识别结果和评测发音信息进行发音评测,得到所述目标对象的目标评测结果,其中,所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元。/n

【技术特征摘要】
1.一种语音数据的评测方法,其特征在于,包括:
获取与目标对象的评测语音数据对应的评测语音特征,其中,所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征;
使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别,得到目标识别结果,其中,所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率;
根据所述目标识别结果和评测发音信息进行发音评测,得到所述目标对象的目标评测结果,其中,所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元。


2.根据权利要求1所述的方法,其特征在于,使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别,得到所述目标识别结果包括:
将所述评测语音特征输入到目标声学模型,得到所述目标声学模型输出的所述目标识别结果,其中,所述目标声学模型用于抑制所述评测语音特征中的所述对象特征,并使用抑制了所述对象特征后的所述评测语音特征识别每个所述评测语音帧为所述各个参考发音单元的概率。


3.根据权利要求2所述的方法,其特征在于,将所述评测语音特征输入到所述目标声学模型,得到所述目标声学模型输出的所述目标识别结果包括:
将所述评测语音特征输入到所述目标声学模型的第一目标神经网络,得到所述第一目标神经网络输出的目标输出特征,其中,所述目标输出特征为抑制所述评测语音特征中的所述对象特征后得到的特征;
将所述目标输出特征输入到所述目标声学模型的第二目标神经网络,得到所述第二目标神经网络输出的所述目标识别结果,其中,所述目标声学模型是使用标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据对初始网络模型进行训练得到的,所述初始网络模型包括所述初始声学模型和所述初始对象识别网络,所述初始声学模型包括第一初始神经网络和输入与所述第一初始神经网络的输出相连的第二初始神经网络,所述初始对象识别网络的输入与所述第一初始神经网络的输出的逆转相连,所述训练发音信息用于表示所述训练语音数据中的每个训练语音帧对应的训练发音单元。


4.根据权利要求3所述的方法,其特征在于,在将所述评测语音特征输入到所述目标声学模型之前,所述方法还包括:
获取所述初始网络模型的训练样本,其中,所述初始对象识别网络的输入通过梯度逆转层与所述第一初始神经网络的输出相连,所述训练样本为标注了与所述训练发音信息和所述训练对象的所述训练语音数据;
使用所述训练样本对所述初始网络模型进行模型训练,得到目标网络模型,并从所述目标网络模型包含的所述目标声学模型和目标对象识别网络中提取出所述目标声学模型。


5.根据权利要求4所述的方法,其特征在于,使用所述训练样本对所述初始网络模型进行模型训练,得到所述目标网络模型包括:
以与所述训练语音数据对应的训练语音特征作为所述第一初始神经网络的输入,获取所述初始声学模型的第一输出结果,其中,所述训练语音特征包括每个所述训练语音帧的语音特征,所述第一输出结果用于指示每个所述训练语音帧对应的发音单元;
以所述第一初始神经网络的输出经由所述梯度逆转层作为所述初始对象识别网络的输入,获取所述初始对象识别网络的第二输出结果,其中,所述第二输出结果用于指示所述训练语音数据对应的发音对象;
按照所述训练发音单元和所述训练对象调整所述初始网络模型的模型参数,得到所述目标网络模型,其中,所述目标声学模型输出的、与每个所述训练语音帧对应的发音单元为所述训练...

【专利技术属性】
技术研发人员:徐灿余浩鲁文斌
申请(专利权)人:天津洪恩完美未来教育科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1