智能语音评测方法及系统技术方案

技术编号：15507995 阅读：68 留言：0更新日期：2017-06-04 02:27

本发明专利技术提供了一种智能语音评测方法及系统，通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练，形成深度神经网络模型，并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练，深度神经网络的输出层输出包括对应上述三类训练数据集的评测分值，通过比较以及处理所述评测分值再输出评测结果，达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。

Intelligent voice evaluation method and system

The present invention provides a system and method of intelligent speech evaluation, by providing the first training data set and test language data sets for comparison of language training on the depth of the neural network, the formation of the depth of the neural network model, and the depth of the neural network model respectively feeding test data sets and comparison of language language data set for training, including the output layer corresponding to the three kinds of training data set evaluation score by comparing the depth of the neural network, and processing the evaluation score and the output of the evaluation results, achieved the oral evaluation on the use of other languages to read, to detect and avoid technology effect given higher evaluation scores.

全部详细技术资料下载

【技术实现步骤摘要】
智能语音评测方法及系统
本专利技术涉及语音识别
，具体来说涉及一种智能语音评测方法及系统。
技术介绍
随着语音识别技术的不断成熟，涉及到信号处理、自然语言理解、人工智能、数据挖掘和及其学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。例如，智能辅助教学系统班班通项目在各个中小学的推广，普通话口语考试系统在全国的普及等。其中，智能语音评测就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提供检测系统的稳定性、评测打分的准确性是智能语音评测的关键，也受到了越来越多的关注。现有的口语评测方案，目的是给出一个以音素为基本单位的分数，在计算这个分数时，假设有一个GMM(高斯混合模型：GaussianMixtureModel)+HMM(隐马尔可夫模型：HiddenMarkovModel)模型能够很好地根据某些声学片段来确定这些片段对应的似然概率，然后通过似然差来衡量对应音素的发音质量。上述口语评测方案，质量主要依赖于声学模型的质量，而声学模型的质量主要依赖于数据训练的质量，好的或标准的训练数据能够得到高质量的声学模型，进而得到高准确度的评测结果或评测分值。然而将上述的口语评测方案用于口语考试评测时，该标准的声学模型对于利用其他语种来翻译阅读时，比如在英语口语考试中，应试者利用中文朗读英文，例如用“恶狗”代替“ago”进行发音朗读，标准的声学模型依然会给出较高的评测分值。这是由于利用其它语种阅读时，声学模型对该音频进行音素提取时，被提取的音素与声学模型中的标准发音非常相近，所以评测模型会给出较高的评测分值，而该较高的评测分值并不...
智能语音评测方法及系统

【技术保护点】
一种智能语音评测方法，其特征在于，包括以下步骤：a.提供第一训练数据集，所述第一训练数据集包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合，提供所述音素集合之间的映射关系；b.训练深度神经网络，利用所述第一训练数据集对深度神经网络进行训练，以形成深度神经网络模型；c.提供第二训练数据集，对深度神经网络进行训练，所述第二训练数据集包括至少两种语种数据集，定义一种语种数据集为测试语种数据集，其他语种数据集为对比语种数据集，所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合；d.获取待评测语音，提取所述待评测语音的特征序列，将所述特征序列输入到所述深度神经网络模型中；对所述待评测语音进行识别以形成音素序列；e.输出对应所述音素序列的评测分值；f.比较以及处理所述评测分值，输出评测结果。

【技术特征摘要】
1.一种智能语音评测方法，其特征在于，包括以下步骤：a.提供第一训练数据集，所述第一训练数据集包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合，提供所述音素集合之间的映射关系；b.训练深度神经网络，利用所述第一训练数据集对深度神经网络进行训练，以形成深度神经网络模型；c.提供第二训练数据集，对深度神经网络进行训练，所述第二训练数据集包括至少两种语种数据集，定义一种语种数据集为测试语种数据集，其他语种数据集为对比语种数据集，所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合；d.获取待评测语音，提取所述待评测语音的特征序列，将所述特征序列输入到所述深度神经网络模型中；对所述待评测语音进行识别以形成音素序列；e.输出对应所述音素序列的评测分值；f.比较以及处理所述评测分值，输出评测结果。2.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤f中，通过线性融合或非线性融合的方式对所述评测分值进行处理。3.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤a中，不同语种发音相似的音素映射成一套音素集合，发音不能映射的音素标记为单独的音素。4.根据权利要求3所述的智能语音评测方法，其特征在于：所述测试语种数据集为英文，所述对比语种数据集包括中文，中文带调音素和英文音素映射为一套音素集合。5.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤b中，还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。6.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤e中，还包括输出：第一类节点：对应为使用所述第一训练数据集进行训练后的输出评测分值；第二类节点：对应为使用所述测试语种数据集进行训练后的输...

【专利技术属性】
技术研发人员：郭伟，
申请(专利权)人：上海语知义信息技术有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人