一种基于发音模型的语音质量评测方法技术

技术编号：3987303 阅读：274 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种基于发音模型的语音质量评测方法，包括１．１）确定发音质量音素集；１．２）对训练数据划分发音质量等级；１．３）依据发音质量等级训练发音模型；２．１）提取待评测发音段的语音特征；２．２）构建基于所述发音模型的解码网络，进行Ｖｉｔｅｒｂｉ解码；２．３）对每个音素计算基于发音模型的置信度；２．４）根据所述置信度得出所述待评测发音段的发音质量。本发明专利技术不仅对不同的音素进行建模，还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络，可以充分利用发音质量的差异，从而获得更为准确的音素分割点，基于发音模型的置信度计算更接近理想的音素后验概率值，因此这种基于发音模型的语音质量评测方法具有更好的评估性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于发音质量评估
，具体地说，本专利技术涉及。
技术介绍
在自然条件下使用发音质量评估系统，不同于在理想实验环境下的使用，这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语，在语音中会参杂很多非语音，譬如非正常停顿、咳嗽声以及很多的环境噪声，这都给发音质量评估系统达到原有的评估精度造成了困难。另外，用户说的词汇如果不在发音质量评估系统预先设定的领域范围内或者用户的发音带有一定的方言特色，也较容易造成评估误差。总之，对于商业化的发音质量评估系统，用户的期望是尽可能的准确评估发音质量，与此同时还要求比较快的评估速度。因此，目前各种语音质量评测方法都是围绕这两点来展开的。语音质量评测方法可以对连续语音进行音素段的切分，然后在特定音素段内对目标发音进行假设检验，通过预先训练的阈值对待评估发音段的准确性进行评价，从而判断出用户的发音水平。目前，采用声学模型和语音识别的框架进行音素切分和置信度计算来进行语音质量评测是一种应用较广的做法。例如，图1为一种现有的语音质量评测方法的示意图。如图1所示，输入语音首先利用声学模型对目标词序列作强制对齐。在这个过程中，可以获得对应于输入语音的音素分割点以及状态分割点。然后，计算出目标文本在待评估语音下的音素后验概率作为置信度，最后通过分数预测器获得机器自动评估的发音质量分数。在现有方法中，解码和置信度计算均使用了声学模型。声学模型是对标准发音声学空间中各个音素单元的建模，因此它没有对不同的发音质量进行描述，所以当遇到发音水平比较差的用户时，采用声学模型不能获得较为准确的音素...

【技术保护点】
一种基于发音模型的语音质量评测方法，其特征在于：该方法包括发音模型的构建步骤和语音质量评测步骤；其中发音模型构建步骤包括下列子步骤：１．１）确定发音质量音素集；１．２）对训练数据划分发音质量等级；１．３）依据发音质量等级训练发音模型；语音质量评测步骤包括下列子步骤：２．１）提取待评测发音段的语音特征；２．２）构建基于所述发音模型的解码网络，进行Ｖｉｔｅｒｂｉ解码；２．３）对每个音素计算基于发音模型的置信度；２．４）根据所述置信度得出所述待评测发音段的发音质量。

【技术特征摘要】

【专利技术属性】
技术研发人员：葛凤培，颜永红，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人