一种语音评测的方法及装置制造方法及图纸

技术编号：22886115 阅读：56 留言：0更新日期：2019-12-21 08:04

本发明专利技术公开了一种语音评测的方法及装置，语音评测的方法包括以下步骤：对目标的声音数据抽出MFCC频率和cepstrum系数的特征量；构建神经网络训练模型，对cepstrum系数的特征量进行训练；以已经训练完成的神经网络模型为基础，从所述声音数据获取每个单词和音节的时间信息，并对单词和音节的时间信息进行语句评测，通过深度神经网的训练上先选定最合理的神经网络模型，利用Tensorflow基础进行深度训练；在评测过程中以训练过程上充分训练完成的模型为基础，对于实时声音数据发音准确率、语句语调、语句重音、流畅性等多方面评测，处理输出总评分和详细评分；以声音识别引擎为基础获取音素别时间信息，用此时间信息处理评测，有效提高准确性。

A method and device of speech evaluation

全部详细技术资料下载

【技术实现步骤摘要】
一种语音评测的方法及装置
本专利技术涉及数据处理领域，特别是一种语音评测的方法及装置。
技术介绍
在改革开放的国情下，经济发展和文化交流两者之间是密不可分的，对个人的外语能力要求越来越高，如何快速高效地获取外语技能，是语言教育迫切需要解决的问题。在计算机技术迅猛发展的今天，通过计算机测评学生的英语口语水平是必然的趋势，目前的语音测评技术无法对评测音源的语调、语气、重音、流畅性等关键元素进行综合性评测，且依赖于语料库的导入，无法适应不同年龄，性别以及口音的认亲进行合理评价，在综合评价能力方面十分欠缺，不能对学生的口语能力作出有效的评价；而且语料导入难，需要制作专属语料库用于评测需求，语料库制作难度高并且制作周期长，在没有标准格式时无法提供准确的英文口语评测，用户跨场景跨区域使用存在困难。
技术实现思路
为了克服现有技术的不足，本专利技术的目的在于提供一种语音评测的方法及装置，不仅能够通过深度神经网的训练上先选定最合理的神经网络模型，利用Tensorflow基础的深度训练，还能够在评测过程中以训练过程上充分训练完成的模型为基础，对于实时声音数据进行综合性评测，然后处理输出总评分和详细评分。本专利技术解决其问题所采用的技术方案是：第一方面，本专利技术提供了一种语音评测的方法，包括以下步骤：对目标的声音数据抽出MFCC频率和cepstrum系数的特征量；构建神经网络训练模型，对cepstrum系数的特征量进行训练；以已经训练完成的神经网络模型为基础，从所述声

【技术保护点】
1.一种语音评测的方法，其特征在于：包括以下步骤：/n对目标的声音数据抽出MFCC频率和cepstrum系数的特征量；/n构建神经网络训练模型，对cepstrum系数的特征量进行训练；/n以已经训练完成的神经网络模型为基础，从所述声音数据获取每个单词和音节的时间信息，并对单词和音节的时间信息进行语句评测。/n

【技术特征摘要】
1.一种语音评测的方法，其特征在于：包括以下步骤：
对目标的声音数据抽出MFCC频率和cepstrum系数的特征量；
构建神经网络训练模型，对cepstrum系数的特征量进行训练；
以已经训练完成的神经网络模型为基础，从所述声音数据获取每个单词和音节的时间信息，并对单词和音节的时间信息进行语句评测。

2.根据权利要求1所述的一种语音评测的方法，其特征在于：神经网络训练模型包括基础训练模型以及深度训练模型，所述基础训练模型为RNN神经网络，所述深度训练模型为Tensorflow申请网络。

3.根据权利要求1所述的一种语音评测的方法，其特征在于：所述语句评测包括语调评测、重音评测以及流畅性评测。

4.根据权利要求3所述的一种语音评测的方法，其特征在于：
所述语调评测包括以下步骤：
获取声音数据中的句子所在的音素列表和每个音素的发音时间信息；将窗宽度设置为第一阈值时间,窗间隔设置为第二阈值时间，对声音数据中的句子进行高速傅里叶变换，构成声音数据的spectrogram；以每个音素的发音时间信息为基础获取对应的Formant数据；
将句子的音素顺序设定为X坐标，以每个音素的Formant数据设定为Y坐标，获取声音数据中的句子的语调曲线；
从标准语句语调数据库获取对应句子的语句语调曲线，移动所述标准语句语调曲线，当所述标准语句语调曲线与目标评测的声音数据的语句语调曲线之间的距离变成最小，停止移动所述标准语句语调曲线；计算每个音素的分值。

5.根据权利要求3所述的一种语音评测的方法，其特征在于：
所述重音评测包括以下步骤：
获取声音数据中的句子所在的音素列表和每个音素的发音时间信息；将窗宽度设置为第一阈值时间,窗间隔设置为第二阈值时间，对声音数据中的句子进行高速傅里叶变换；
获取每个音素的平均振幅、基准频率以及发音时间；
通过平均振幅、基准频率以及发音时间获取句子中的重音的概率；
得到每个音素的语句重音强度。

6.根据权利要求3所述的一种语音评测的方法，其特征在于：
所述流畅性测评包括以下步骤：
训练时将声音数据保存到数据库；
按照数据库上的已完成训练的句子的训练数据中，计算得出平均值和分...

【专利技术属性】
技术研发人员：刘秦煜，
申请(专利权)人：天闻数媒科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人