智能语音评测方法及系统技术方案

技术编号:15507995 阅读:68 留言:0更新日期:2017-06-04 02:27
本发明专利技术提供了一种智能语音评测方法及系统,通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练,形成深度神经网络模型,并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练,深度神经网络的输出层输出包括对应上述三类训练数据集的评测分值,通过比较以及处理所述评测分值再输出评测结果,达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。

Intelligent voice evaluation method and system

The present invention provides a system and method of intelligent speech evaluation, by providing the first training data set and test language data sets for comparison of language training on the depth of the neural network, the formation of the depth of the neural network model, and the depth of the neural network model respectively feeding test data sets and comparison of language language data set for training, including the output layer corresponding to the three kinds of training data set evaluation score by comparing the depth of the neural network, and processing the evaluation score and the output of the evaluation results, achieved the oral evaluation on the use of other languages to read, to detect and avoid technology effect given higher evaluation scores.

【技术实现步骤摘要】
智能语音评测方法及系统
本专利技术涉及语音识别
,具体来说涉及一种智能语音评测方法及系统。
技术介绍
随着语音识别技术的不断成熟,涉及到信号处理、自然语言理解、人工智能、数据挖掘和及其学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。例如,智能辅助教学系统班班通项目在各个中小学的推广,普通话口语考试系统在全国的普及等。其中,智能语音评测就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提供检测系统的稳定性、评测打分的准确性是智能语音评测的关键,也受到了越来越多的关注。现有的口语评测方案,目的是给出一个以音素为基本单位的分数,在计算这个分数时,假设有一个GMM(高斯混合模型:GaussianMixtureModel)+HMM(隐马尔可夫模型:HiddenMarkovModel)模型能够很好地根据某些声学片段来确定这些片段对应的似然概率,然后通过似然差来衡量对应音素的发音质量。上述口语评测方案,质量主要依赖于声学模型的质量,而声学模型的质量主要依赖于数据训练的质量,好的或标准的训练数据能够得到高质量的声学模型,进而得到高准确度的评测结果或评测分值。然而将上述的口语评测方案用于口语考试评测时,该标准的声学模型对于利用其他语种来翻译阅读时,比如在英语口语考试中,应试者利用中文朗读英文,例如用“恶狗”代替“ago”进行发音朗读,标准的声学模型依然会给出较高的评测分值。这是由于利用其它语种阅读时,声学模型对该音频进行音素提取时,被提取的音素与声学模型中的标准发音非常相近,所以评测模型会给出较高的评测分值,而该较高的评测分值并不符合口语考试的评测要求,现有的口语评测方案不能解决这一问题。
技术实现思路
鉴于上述情况,本专利技术提供一种智能语音评测方法及系统,解决了现有口语评测方案对利用其它语种阅读形成的语音给出较高的评测分值而不符合口语评测要求的技术问题,达到针对利用其它语种阅读的情况、及时发现并避免给予较高的评测分值的目的。为实现上述目的,本专利技术采取的技术方案是:一种智能语音评测方法,包括以下步骤:a.提供第一训练数据集,所述第一训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;提供所述音素集合之间的映射关系;b.训练深度神经网络,利用所述第一训练数据集对深度神经网络进行训练,以形成深度神经网络模型;c.提供第二训练数据集,对深度神经网络进行训练,所述第二训练数据集包括至少两种语种数据集,定义一种语种数据集为测试语种数据集,其他语种数据集为对比语种数据集,所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;d.获取待评测语音,提取所述待评测语音的特征序列,将所述特征序列输入到所述深度神经网络模型中;对所述待评测语音进行识别以形成音素序列;e.输出对应所述音素序列的评测分值;f.比较以及处理所述评测分值,输出评测结果。本专利技术智能语音评测方法的进一步改进在于,在所述步骤f中,通过线性融合或非线性融合的方式对所述评测分值进行处理。本专利技术智能语音评测方法的进一步改进在于,在步骤a中,不同语种发音相似的音素映射成一套音素集合,发音不能映射的音素标记为单独的音素。本专利技术智能语音评测方法的进一步改进在于,所述测试语种数据集为英文,所述对比语种数据集包括中文,中文带调音素和英文音素映射为一套音素集合。本专利技术智能语音评测方法的进一步改进在于,在所述步骤b中,还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。本专利技术智能语音评测方法的进一步改进在于,在所述步骤e中,还包括输出:第一类节点:对应为使用所述第一训练数据集进行训练后的输出评测分值;第二类节点:对应为使用所述测试语种数据集进行训练后的输出评测分值;第三类节点:对应为使用所述对比语种数据集进行训练后的输出评测分值。本专利技术智能语音评测方法的进一步改进在于,在所述步骤e中,利用后验概率特征,通过映射得到所述音素序列的评测分值。此外,本专利技术还提供一种智能语音评测系统,包括:数据输入模块,与特征提取模块连接,用于将第一训练数据集和第二训练数据集传送至所述特征提取模块;与音素映射模块连接,用于将第一训练数据集和第二训练数据集传送至所述音素映射模块;音素映射模块,与深度神经网络模块连接,用于将所述第一训练数据集和第二训练数据集测试语种数据集的音素集合进行映射,传送至所述深度神经网络模块;语音接收模块,与特征提取模块连接,用于获取待评测语音,并传送至所述特征提取模块;特征提取模块,与所述深度神经网络模块连接,用于提取所述第一训练数据集和第二训练数据集的特征序列以及所述待评测语音的特征序列,传送至所述深度神经网络模块;深度神经网络模块,与解码网络模块及输出节点模块连接,经训练后形成深度神经网络模型,与解码网络模块连接,传送至所述输出节点模块;解码网络模块,与所述输出节点模块及语音接收模块连接,用于对所述待评测语音进行识别以形成音素序列,传送至所述输出节点模块;输出节点模块,与优化融合模块连接,用于输出所述音素序列对应的评测分值,传送至所述优化融合模块;优化融合模块,与评分模块连接,用于处理经所述输出节点模块输出的评测分值,传送至所述评分模块;评分模块,用于输出对应所述待评测语音的评测结果。本专利技术智能语音评测系统的进一步改进在于,所述第一训练数据集包括测试语种数据集和对比语种数据集,且所述测试语种数据集和对比语种数据集一同被传送至所述音素映射模块。本专利技术智能语音评测系统的更进一步改进在于,所述第二训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集分别被传送至所述音素映射模块。本专利技术的有益效果在于,本专利技术通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练,形成深度神经网络模型,并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练,所述深度神经网络模型的输出层输出包括对应上述三类训练数据集的评测分值,通过比较以及处理所述评测分值再输出评测结果,达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。附图说明图1是本专利技术智能语音评测系统的结构示意图。图2是本专利技术智能语音评测方法的流程示意图。附图标记与部件的对应关系如下:10-深度神经网络模型,101-输出节点,S11-第一训练数据集,S12-第二训练数据集,S10-音素集合,S13-特征序列,S0-待评测语音,S1-特征序列,S2-音素序列,S3-评测分值,S-评测结果,1-训练数据使用的模块连接关系,2-测试数据使用的模块连接关系。具体实施方式为利于对本专利技术的了解,以下结合附图及实施例进行说明。本专利技术提供一种智能语音评测方法及系统,旨在解决现有的口语评测方案对利用其它语种阅读形成的语音给出较高的评测方案而不符合评测要求的问题。参阅图1,所述智能语音评测系统包括:数据输入模块,与特征提取模块连接,用于将第一训练数据集S11和第二训练数据集S12传送至特征提取模块;与音素映射模块连接,用于将第本文档来自技高网
...
智能语音评测方法及系统

【技术保护点】
一种智能语音评测方法,其特征在于,包括以下步骤:a.提供第一训练数据集,所述第一训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合,提供所述音素集合之间的映射关系;b.训练深度神经网络,利用所述第一训练数据集对深度神经网络进行训练,以形成深度神经网络模型;c.提供第二训练数据集,对深度神经网络进行训练,所述第二训练数据集包括至少两种语种数据集,定义一种语种数据集为测试语种数据集,其他语种数据集为对比语种数据集,所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;d.获取待评测语音,提取所述待评测语音的特征序列,将所述特征序列输入到所述深度神经网络模型中;对所述待评测语音进行识别以形成音素序列;e.输出对应所述音素序列的评测分值;f.比较以及处理所述评测分值,输出评测结果。

【技术特征摘要】
1.一种智能语音评测方法,其特征在于,包括以下步骤:a.提供第一训练数据集,所述第一训练数据集包括测试语种数据集和对比语种数据集,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合,提供所述音素集合之间的映射关系;b.训练深度神经网络,利用所述第一训练数据集对深度神经网络进行训练,以形成深度神经网络模型;c.提供第二训练数据集,对深度神经网络进行训练,所述第二训练数据集包括至少两种语种数据集,定义一种语种数据集为测试语种数据集,其他语种数据集为对比语种数据集,所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练,所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合;d.获取待评测语音,提取所述待评测语音的特征序列,将所述特征序列输入到所述深度神经网络模型中;对所述待评测语音进行识别以形成音素序列;e.输出对应所述音素序列的评测分值;f.比较以及处理所述评测分值,输出评测结果。2.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤f中,通过线性融合或非线性融合的方式对所述评测分值进行处理。3.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤a中,不同语种发音相似的音素映射成一套音素集合,发音不能映射的音素标记为单独的音素。4.根据权利要求3所述的智能语音评测方法,其特征在于:所述测试语种数据集为英文,所述对比语种数据集包括中文,中文带调音素和英文音素映射为一套音素集合。5.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤b中,还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。6.根据权利要求1所述的智能语音评测方法,其特征在于:在所述步骤e中,还包括输出:第一类节点:对应为使用所述第一训练数据集进行训练后的输出评测分值;第二类节点:对应为使用所述测试语种数据集进行训练后的输...

【专利技术属性】
技术研发人员:郭伟
申请(专利权)人:上海语知义信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1