一种基于发音模型的语音质量评测方法技术

技术编号:3987303 阅读:274 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于发音模型的语音质量评测方法,包括1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。本发明专利技术不仅对不同的音素进行建模,还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络,可以充分利用发音质量的差异,从而获得更为准确的音素分割点,基于发音模型的置信度计算更接近理想的音素后验概率值,因此这种基于发音模型的语音质量评测方法具有更好的评估性能。

【技术实现步骤摘要】

本专利技术属于发音质量评估
,具体地说,本专利技术涉及。
技术介绍
在自然条件下使用发音质量评估系统,不同于在理想实验环境下的使用,这时发 音质量评估系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂很多非语 音,譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给发音质量评估系统达到原有的评 估精度造成了困难。另外,用户说的词汇如果不在发音质量评估系统预先设定的领域范围 内或者用户的发音带有一定的方言特色,也较容易造成评估误差。总之,对于商业化的发音 质量评估系统,用户的期望是尽可能的准确评估发音质量,与此同时还要求比较快的评估 速度。因此,目前各种语音质量评测方法都是围绕这两点来展开的。语音质量评测方法可以对连续语音进行音素段的切分,然后在特定音素段内对目 标发音进行假设检验,通过预先训练的阈值对待评估发音段的准确性进行评价,从而判断 出用户的发音水平。目前,采用声学模型和语音识别的框架进行音素切分和置信度计算来进行语音质 量评测是一种应用较广的做法。例如,图1为一种现有的语音质量评测方法的示意图。如 图1所示,输入语音首先利用声学模型对目标词序列作强制对齐。在这个过程中,可以获得 对应于输入语音的音素分割点以及状态分割点。然后,计算出目标文本在待评估语音下的 音素后验概率作为置信度,最后通过分数预测器获得机器自动评估的发音质量分数。在现 有方法中,解码和置信度计算均使用了声学模型。声学模型是对标准发音声学空间中各个 音素单元的建模,因此它没有对不同的发音质量进行描述,所以当遇到发音水平比较差的 用户时,采用声学模型不能获得较为准确的音素分割点和音素后验概率值,从而很不利于 发音质量评估系统的在线使用和实际推广。
技术实现思路
本专利技术的目的在于克服现有技术的不足,在未明显增加计算量的情况下,以提高 系统稳健性为主要目标,提出。该方法充分利用发 音质量评估和语音识别的差别,对不同的发音质量等级进行区分性建模,构建出一个比声 学空间更为广阔的发音空间,从而在解码时获得更准确的音素分割点,在置信度计算时获 得更精确的音素后验概率,从而提高评估性能。为实现上述专利技术目的,本专利技术提供的基于发音模型的语音质量评测方法,该方法 包括发音模型的构建步骤和语音质量评测步骤;其中发音模型构建步骤包括下列子步骤1. 1)确定发音质量音素集;1. 2)对训练数据划分发音质量等级;1. 3)依据发音质量等级训练发音模型;语音质量评测步骤包括下列子步骤2. 1)提取待评测发音段的语音特征;2. 2)构建基于所述发音模型的解码网络,进行Viterbi解码;2. 3)对每个音素计算基于发音模型的置信度;2. 4)根据所述置信度得出所述待评测发音段的发音质量。所述步骤1. 1)中对每个音素分为三个不同的发音质量等级。所述步骤1. 2)中训练数据的发音质量等级划分包括如下步骤准备训练数据的 原始语音和音素标注文本;采用Viterbi解码算法,将原始语音和音素标注进行强制对齐, 计算每个音素的后验概率;按照音素后验概率值的大小划分发音质量等级。所述步骤1. 3)中,所述发音模型采用传统隐马尔可夫模型的框架构建。所述步骤2. 2)中搭建基于发音模型的解码网络包括如下步骤利用发音字典将 目标文本转换成音素串序列;对每个音素将其各个发音质量并联;将音素串序列转换成各 个音素质量并联子网络的串联宏网络即获得基于发音模型的解码网络。所述步骤2. 3)中对每个音素计算基于发音模型的置信度包括如下步骤利用步 骤2. 2)中Viterbi解码获得的音素分割点信息,在指定音素段间搭建音素混淆网络;在音 素混淆网络的每条路径上利用Viterbi算法获得声学似然值;计算音素后验概率作为发音 质量评价的依据,取目标音素最优质量对应的路径上的声学似然值作为所述音素后验概率 的分子,混淆网络的所有路径上的声学似然值的和作为所述音素后验概率的分母。所述步骤2. 4)中采用线性预测器得出所述待评测发音段的发音质量。本专利技术的优点是,将不同的发音质量引入到模型训练和评测过程中。在现有技术 中,发音质量评估系统的解码和置信度计算均采用声学模型进行,声学模型通常都是以音 素为基本单元训练的,训练数据为标准发音,这样不同发音质量信息没有被利用。本专利技术充 分利用了发音质量评估和语音识别的应用目标差异,对不同的发音质量等级进行区分性建 模,构建出一个比声学空间更为广阔的发音空间,是对发音质量评估系统的应用空间更为 精细的描述,从而在解码时获得更准确的音素分割点,在置信度计算时获得更精确的音素 后验概率值。附图说明图1是现有技术的语音质量评测方法的示意图;图2是本专利技术的基于发音模型的语音质量评测方法一个实施例的流程图;图3是本专利技术的基于发音模型的语音质量评测方法中的解码网络状态图的搭建示意图;图4是本专利技术的基于发音模型的语音质量评测方法中的音素混淆网络的搭建示 意图;图5是本专利技术的基于发音模型的语音质量评测方法的基于状态图的强制对齐示 意图。具体实施例方式下面结合附图及具体实施例对本专利技术的基于发音模型的语音质量评测方法做进 一步地描述。图2是本专利技术的基于发音模型的语音质量评测方法一个实施例的流程图。如图2 所示,该实施例提供的基于发音模型的语音质量评测方法包括如下步骤1)构建发音模型1. 1)确定发音质量音素集。对每一个音素建模单元,本实施例将其发音质量分为 三个等级,即好、中、差。以音素“zh”为例,三个等级的音素分别标记为“zh_l”、“zh_2”和 “zh_3”,“zh_l”为发音质量最好的,即音素“zh”的标准发音。假设目标语言有η个音素, 这样发音模型的音素集中就定为η*3个建模单元。1.2)对训练数据划分质量等级。人工标注发音质量劳动强度大,加之训练数据量 很大,这样使得人工获取训练数据的音素发音质量等级有很大困难。本实施例按照音素后 验概率大小的原则,采用机器自动划分的方式完成发音质量的划分,具体包含三个步骤1. 2-1)准备训练数据的原始语音和音素标注文本;1. 2-2)提取语音特征,利用音素标注和声学模型,采用Viterbi解码算法,将原始 语音和音素序列进行强制对齐。然后,在各个音素语音段内,计算音素后验概率值。1. 2-3)按照音素后验概率值的大小排序,从大到小划分发音质量等级,使得每个 等级的数据个数均衡,采用相异的符号对不同音素的不同发音质量等级进行标记。1. 3)类似声学模型的训练过程,同样采用隐马尔科夫模型(HMM)的框架训练发音 模型。2)采用发音模型进行语音评测2. 1)提取语音特征;2.2)利用目标文本和发音词典,构建发音空间的解码网络,进行Viterbi解码。本步骤中解码网络状态图的构建方法如下图3是本专利技术的基于发音模型的语音质量评测方法中的解码网络状态图的搭建 示意图。如图3所示,首先根据目标文本搭建起一个词串的搜索空间,即包含在目标文本中 所有词的串联网络。然后,借助发音字典的信息,把词网展开成一个音素网络。在每个音素 节点上,该音素对应的所有发音质量等级构成一个并联子网络。最后,每个音素再被发音模 型中相对应的HMM所取代,每个HMM由三个状态组成。这样,最终的搜索空间就变成了一个 状态图,状态图中的任意一条路径代表一个音素本文档来自技高网
...

【技术保护点】
一种基于发音模型的语音质量评测方法,其特征在于:该方法包括发音模型的构建步骤和语音质量评测步骤;其中发音模型构建步骤包括下列子步骤:1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;语音质量评测步骤包括下列子步骤:2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。

【技术特征摘要】

【专利技术属性】
技术研发人员:葛凤培颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利