一种语音评测的方法及装置制造方法及图纸

技术编号:22886115 阅读:56 留言:0更新日期:2019-12-21 08:04
本发明专利技术公开了一种语音评测的方法及装置,语音评测的方法包括以下步骤:对目标的声音数据抽出MFCC频率和cepstrum系数的特征量;构建神经网络训练模型,对cepstrum系数的特征量进行训练;以已经训练完成的神经网络模型为基础,从所述声音数据获取每个单词和音节的时间信息,并对单词和音节的时间信息进行语句评测,通过深度神经网的训练上先选定最合理的神经网络模型,利用Tensorflow基础进行深度训练;在评测过程中以训练过程上充分训练完成的模型为基础,对于实时声音数据发音准确率、语句语调、语句重音、流畅性等多方面评测,处理输出总评分和详细评分;以声音识别引擎为基础获取音素别时间信息,用此时间信息处理评测,有效提高准确性。

A method and device of speech evaluation

【技术实现步骤摘要】
一种语音评测的方法及装置
本专利技术涉及数据处理领域,特别是一种语音评测的方法及装置。
技术介绍
在改革开放的国情下,经济发展和文化交流两者之间是密不可分的,对个人的外语能力要求越来越高,如何快速高效地获取外语技能,是语言教育迫切需要解决的问题。在计算机技术迅猛发展的今天,通过计算机测评学生的英语口语水平是必然的趋势,目前的语音测评技术无法对评测音源的语调、语气、重音、流畅性等关键元素进行综合性评测,且依赖于语料库的导入,无法适应不同年龄,性别以及口音的认亲进行合理评价,在综合评价能力方面十分欠缺,不能对学生的口语能力作出有效的评价;而且语料导入难,需要制作专属语料库用于评测需求,语料库制作难度高并且制作周期长,在没有标准格式时无法提供准确的英文口语评测,用户跨场景跨区域使用存在困难。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种语音评测的方法及装置,不仅能够通过深度神经网的训练上先选定最合理的神经网络模型,利用Tensorflow基础的深度训练,还能够在评测过程中以训练过程上充分训练完成的模型为基础,对于实时声音数据进行综合性评测,然后处理输出总评分和详细评分。本专利技术解决其问题所采用的技术方案是:第一方面,本专利技术提供了一种语音评测的方法,包括以下步骤:对目标的声音数据抽出MFCC频率和cepstrum系数的特征量;构建神经网络训练模型,对cepstrum系数的特征量进行训练;以已经训练完成的神经网络模型为基础,从所述声音数据获取每个单词和音节的时间信息,并对单词和音节的时间信息进行语句评测。进一步,所述语句评测包括语调评测、重音评测以及流畅性评测。进一步,神经网络训练模型包括基础训练模型以及深度训练模型,所述基础训练模型为RNN神经网络,所述深度训练模型为Tensorflow申请网络。进一步,所述语调评测包括以下步骤:获取声音数据中的句子所在的音素列表和每个音素的发音时间信息;将窗宽度设置为第一阈值时间,窗间隔设置为第二阈值时间,对声音数据中的句子进行高速傅里叶变换,构成声音数据的spectrogram;以每个音素的发音时间信息为基础获取对应的Formant数据;将句子的音素顺序设定为X坐标,以每个音素的Formant数据设定为Y坐标,获取声音数据中的句子的语调曲线;从标准语句语调数据库获取对应句子的语句语调曲线,移动所述标准语句语调曲线,当所述标准语句语调曲线与目标评测的声音数据的语句语调曲线之间的距离变成最小,停止移动所述标准语句语调曲线;计算每个音素的分值。进一步,所述重音评测包括以下步骤:获取声音数据中的句子所在的音素列表和每个音素的发音时间信息;将窗宽度设置为第一阈值时间,窗间隔设置为第二阈值时间,对声音数据中的句子进行高速傅里叶变换;获取每个音素的平均振幅、基准频率以及发音时间;通过平均振幅、基准频率以及发音时间获取句子中的重音的概率;得到每个音素的语句重音强度。进一步,所述流畅性测评包括以下步骤:训练时将声音数据保存到数据库;按照数据库上的已完成训练的句子的训练数据中,计算得出平均值和分散值;通过数据库上已经更新的平均发音时间和分散值对流畅性进行评测。进一步,所述对目标的声音数据抽出MFCC频率和cepstrum系数的特征量之前还包括以下步骤:读取目标的声音数据;获取相关偏差;获取相关平方偏差;获取完成降噪处理的声音数据。进一步,所述构建神经网络训练模型,对cepstrum系数的特征量进行训练还包括:将训练数据上组处理方式的参数设置为64,神经网模型的训练反复默认次数设置为500;初始状态的神经网络中epoch值设置为0;偶然选择方法上处理训练数据的类组成;判断对标训练模型是否存在已训练模型中;若否,初期化训练模型;若是,以已训练模型为基础,重新开始训练,训练完后保存模型,计算模型的训练偏差epochER;判断epoch值是否大于num_epochs或者训练模型误差epochER值是否小于0.00001;若否,则epoch值加1。进一步,所述对目标的声音数据抽出MFCC频率和cepstrum系数的特征量还包括:对声音数据的信号加窗信息变成到短时间信号,用离散傅氏变换将时间信号换成到频率信号,然后获取短时间能量光谱;在频率轴线上按频率光谱变成到Mel坐标上的Mel频率;在Mel频率领域上对Mel坐标通过三角形频带滤波器获取滤波器群,Mel坐标上的能量光谱通过滤波器群计算输出信号;滤波器群包括40个线性排列的滤波器,前13个滤波器对1000Hz以下的线性分割进行处理,后27个滤波器对Mel坐标上线性分割进行处理。进一步,前处理单元,用于对目标的声音数据抽出MFCC频率和cepstrum系数的特征量;训练单元,用于构建神经网络训练模型,对cepstrum系数的特征量进行训练;评测单元,用于以已经训练完成的神经网络模型为基础,从所述声音数据获取每个单词和音节的时间信息,并对单词和音节的时间信息进行单词评测和/或语句评测。第二方面,本专利技术提供了一种语音评测的装置,包括:前处理单元,用于对目标的声音数据抽出MFCC频率和cepstrum系数的特征量;训练单元,用于构建神经网络训练模型,对cepstrum系数的特征量进行训练;评测单元,用于以已经训练完成的神经网络模型为基础,从所述声音数据获取每个单词和音节的时间信息,并对单词和音节的时间信息进行单词评测和/或语句评测。第三方面,本专利技术提供了一种语音评测的设备,包括至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器;存储器存储有可被至少一个控制处理器执行的指令,指令被至少一个控制处理器执行,以使至少一个控制处理器能够执行如上所述的语音评测的方法。第四方面,本专利技术提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如上所述的语音评测的方法。第五方面,本专利技术还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使计算机执行如上所述的语音评测的方法。本专利技术实施例中提供的一个或多个技术方案,至少具有如下有益效果:通过深度神经网的训练上先选定最合理的神经网络模型,利用Tensorflow基础进行深度训练;在评测过程中以训练过程上充分训练完成的模型为基础,对于实时声音数据发音准确率、语句语调、语句重音、流畅性等多方面评测,处理输出总评分和详细评分;在语句语调和语句重音评测过程上以声音识别引擎为基础获取音素别时间信息,用此时间信息处理评测,有效提高准确性。附图说明...

【技术保护点】
1.一种语音评测的方法,其特征在于:包括以下步骤:/n对目标的声音数据抽出MFCC频率和cepstrum系数的特征量;/n构建神经网络训练模型,对cepstrum系数的特征量进行训练;/n以已经训练完成的神经网络模型为基础,从所述声音数据获取每个单词和音节的时间信息,并对单词和音节的时间信息进行语句评测。/n

【技术特征摘要】
1.一种语音评测的方法,其特征在于:包括以下步骤:
对目标的声音数据抽出MFCC频率和cepstrum系数的特征量;
构建神经网络训练模型,对cepstrum系数的特征量进行训练;
以已经训练完成的神经网络模型为基础,从所述声音数据获取每个单词和音节的时间信息,并对单词和音节的时间信息进行语句评测。


2.根据权利要求1所述的一种语音评测的方法,其特征在于:神经网络训练模型包括基础训练模型以及深度训练模型,所述基础训练模型为RNN神经网络,所述深度训练模型为Tensorflow申请网络。


3.根据权利要求1所述的一种语音评测的方法,其特征在于:所述语句评测包括语调评测、重音评测以及流畅性评测。


4.根据权利要求3所述的一种语音评测的方法,其特征在于:
所述语调评测包括以下步骤:
获取声音数据中的句子所在的音素列表和每个音素的发音时间信息;将窗宽度设置为第一阈值时间,窗间隔设置为第二阈值时间,对声音数据中的句子进行高速傅里叶变换,构成声音数据的spectrogram;以每个音素的发音时间信息为基础获取对应的Formant数据;
将句子的音素顺序设定为X坐标,以每个音素的Formant数据设定为Y坐标,获取声音数据中的句子的语调曲线;
从标准语句语调数据库获取对应句子的语句语调曲线,移动所述标准语句语调曲线,当所述标准语句语调曲线与目标评测的声音数据的语句语调曲线之间的距离变成最小,停止移动所述标准语句语调曲线;计算每个音素的分值。


5.根据权利要求3所述的一种语音评测的方法,其特征在于:
所述重音评测包括以下步骤:
获取声音数据中的句子所在的音素列表和每个音素的发音时间信息;将窗宽度设置为第一阈值时间,窗间隔设置为第二阈值时间,对声音数据中的句子进行高速傅里叶变换;
获取每个音素的平均振幅、基准频率以及发音时间;
通过平均振幅、基准频率以及发音时间获取句子中的重音的概率;
得到每个音素的语句重音强度。


6.根据权利要求3所述的一种语音评测的方法,其特征在于:
所述流畅性测评包括以下步骤:
训练时将声音数据保存到数据库;
按照数据库上的已完成训练的句子的训练数据中,计算得出平均值和分...

【专利技术属性】
技术研发人员:刘秦煜
申请(专利权)人:天闻数媒科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1