用于紧凑声学建模的泡分裂法制造技术

技术编号:3046463 阅读:167 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种构建用于语音识别器的紧凑声学模型的改进方法。该方法包括:根据至少一种语音相关标准(即声道长度)划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;使用每个组合中的语音数据为该组合训练一个声学泡模型。

【技术实现步骤摘要】

本专利技术涉及语音识别,尤其涉及用于训练语音识别器中所用紧凑声学模型的最优化技术。
技术介绍
越大词汇表连续语音识别系统的应用包括多媒体索引和呼叫中心自动化。训练这样的语音识别系统所采用的单个声学模型需要一个超大型语音数据库。该声学模型通常是与说话人无关,与性别无关的。也就是说,训练该模型使用的数据来自于大量的不同说话人,包含男性和女性。与说话人无关的连续语音建模的主要困难在于语音信号的重要变化是由说话人之间的易变性引起的,使得谱分布具有高于相应的与说话人有关的谱分布的方差。因此,不同语音单元之间的重叠导致弱的鉴别能力。说话人适应训练是一种估计用于与说话人无关的连续语音识别的连续密度隐式马尔可夫模型(HMM)的参数的方法。其目的是减少说话人之间的易变性以获得增强的与说话人无关的模型。通过减少说话人之间的易变性,说话人适应得到的与说话人无关的声学模型可以看作是数据库中的压缩中心点。这种模型将是紧凑的,具有减少的方差,并且很适合于适应。虽然这种构造声学模型的方法功能强大,但是通过极大规模的数据库进行说话人适应训练的性能会很快达到极限。直观地说,要得到准确地为整个数据库建模的一个独特的紧凑声学模型是不可能的。因此,希望提供一种改进的技术,构建用于超大词汇表连续语音识别系统的紧凑声学模型。
技术实现思路
本专利技术提出了一种构造用于语音识别器的紧凑声学模型的方法。该方法包括根据至少一种语音相关标准划分来自多个说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;使用每个组合中的语音数据为该组合训练一个声学泡模型。每个声学泡模型可以用各种规格化技术进一步压缩。另一方面,本专利技术提出了一种定义用于语音处理的声道长度规格化变换的方法。该方法包括从一说话人训练语音中提取第一组声学矢量,该说话人具有已知的声道长度;对语音功率谱的频率轴进行扭曲,从而定义表示不同声道长度的扭曲语音;从扭曲语音中提取第二组声学矢量;采用最小二乘法估计第一和第二组声学矢量的线性变换矩阵。本专利技术的其它应用领域在下面的详细描述中将会变得清楚明白。应该理解详细描述和特定的实例指示了本专利技术的优选实施例,其目的仅仅是为了说明而不是限制本专利技术的范畴。附图简述附图说明图1示出了根据本专利技术构造紧凑声学模型的方法;图2是描述根据本专利技术定义一个声道长度规格化变换方法的流程图;图3是得自无扭曲语音数据的一帧倒谱系数及其一阶和二阶导数的可视化图形;图4是示出根据本专利技术的最小二乘估计技术得到的一个示例结果变换矩阵的图形;图5示出了根据本专利技术的一个实施例的泡分裂过程;图6A和6B分别是本专利技术的说话人规格化训练技术的训练循环和解码过程方框图;图7是包含本专利技术的说话人规格化训练技术的语音训练过程的方框图; 图8是本专利技术的规格化说话人适应训练技术的训练循环的方框图;以及图9A-9C示出根据本专利技术的Q收敛估计技术。具体实施例方式图1示出了根据本专利技术构造紧凑声学模型的一种方法。该技术的目的是通过对语音数据库的易变性进行更加有效地处理,优化声学模型的训练。这种处理的基本思想是分裂训练集以形成同类说话人组合,然后用每一个组合中的语音数据训练用于该组合的一个泡声学模型,从而获得加性增益。将一个相对较大的训练数据库12作为构造紧凑声学模型的起点。如本领域中众所周知,训练数据库12包含的语音数据来自于多个训练说话人。如在16所示,首先按照一维语音参数对训练数据库中的语音数据进行分裂或划分。为了补偿说话人之间的易变性,声道长度规格化(VTLN)在语音识别中得到了广泛应用。这里,声道长度是用于分裂训练数据库的优选语音标准。但是显而易见,其它的语音相关标准也可以用于数据库分裂。语音相关标准可以从包含(但不限于)环境相关标准(如背景噪声)、说话人相关标准(如说话人的母语、方言、说话人的年龄、性别)和语音输入信道标准(如麦克风的类型)的组及其组合中选取。一般来说,声道长度规格化估计每位说话人或说话的声道长度比例因子(又称扭曲(warping)因子),然后将语音信号规格化至平均声道长度,从而使参数化的语音与这种类型的说话人之间的变化无关。具体地,声道长度规格化按照一个扭曲函数φα→, (1)ω→ω~=φα(ω)]]>对功率谱的频率轴进行扭曲,消除由每个说话人的声道长度引起的说话人之间的易变性。其中,φ是扭曲函数,α是扭曲因子。设定VTLN在倒谱域相当于线性变换,为VTLN框架提出一种新方法。实际上,如果考虑倒谱系数Ck(k∈),其中ω仅仅表示真实物理频率的标度,则与扭曲谱的第n个倒谱系数 之间存在线性关系,可以用下面的公式表示c~n(α)=Σk=0KAnk(α)ck,---(2)]]>和Ank(α)=2π∫0ncos(ω~n)cos(φα(-1)(ω~)k)dω~,---(3)]]>其中ω~=φα(ω)]]>。显然,线性形式Ank(α)依赖于所选的扭曲函数和对于分段和双线性情况提取封闭解。但是还已知,在频率域,说话人特定的Mel标度要好于分段/双线性扭曲VTLNMα(f)=1127log(1+f700α)---(4)]]>使得倒谱系数Ck和扭曲谱的倒谱系数之间存在线性变换,但不幸的是如果考虑Mel标度则该等式没有封闭解。但是如果将前面的等式作为扭曲函数,可以直接得到下面的等式,该等式仅仅可以得到近似解或数值解。Ank(α)=cste∫0Mα(π)cos{Mα(ω)n]cos(ωk)αα0=ωdω.---(5)]]>VTLN在倒谱域相当于线性变换意味着整个框架可以用预定义数目的线性变换来代替。例如,我们采用15个线性变换对应于按步长0.02增长的扭曲因子α∈。因为采用Mel标度没有封闭线性解,我们可以估计解。在一个实施例中,特征空间包含39维的观察矢量(即计算23个过滤器组系数,并通过离散余弦变换和过滤导出13个倒谱系数)。这些倒谱系数与其一阶导数(x’(t))和二阶导数(x”(t))组合以生成一个39维的矢量。如果 代表来自于伸长或压缩谱的矢量,o(t)代表当α=1时的同一矢量,则根据公式(2)线性关系可以表示为o~(t)=Aαo(t)=Aαx(t)x′(t)x′′(t)---(6)]]>其中Aα是矢量两者之间39×39的线性变换。尽管这些描述本文档来自技高网...

【技术保护点】
一种构建用于语音识别器的紧凑声学模型的方法,包括:根据至少一种语音相关标准划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;以及使用每个组合中的语音数据为该组合训练一 个声学泡模型。

【技术特征摘要】
US 2003-8-13 10/639,9741.一种构建用于语音识别器的紧凑声学模型的方法,包括根据至少一种语音相关标准划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;以及使用每个组合中的语音数据为该组合训练一个声学泡模型。2.权利要求1的方法,其中语音相关标准从包含环境相关标准,说话人相关标准,语音输入信道标准的组或其组合中选取。3.权利要求1的方法,其中划分语音数据的步骤进一步包含基于训练说话人的声道长度划分语音数据。4.权利要求1的方法,其中划分语音数据的步骤进一步包含根据第一个语音标准划分语音数据,然后再根据与第一个语音标准不同的第二个语音标准划分语音数据。5.权利要求1的方法,其中划分语音数据的步骤进一步包含根据训练说话人的性别划分语音数据,然后再根据训练说话人的声道长度划分语音数据。6.权利要求1的方法,其中组合划分好的语音数据的步骤进一步包含采用语音相关标准组合划分好的数据。7.权利要求1的方法,其中组合划分好的语音数据的步骤进一步包含基于声道长度组合划分好的数据。8.权利要求7的方法,进一步包含将声道长度规格化因子约为1的训练说话人的语音数据组合在一起,将声道长度规格化因子小于1的训练说话人的语音数据组合在一起,将声道长度规格化因子大于1的训练说话人的语音数据组合在一起。9.权利要求1的方法,其中组合划分好的语音数据的步骤进一步包含组合语音数据,使得给定说话人的语音数据位于两个或更多个语音数据组合中。10.权利要求1的方法,其中训练声学泡模型的步骤进一步包含对每一个语音数据组合应用最大似然估计。11.权利要求1的方法,其中训练声学泡模型的步骤进一步包含对每一个语音数据组合应用最大后验MAP估计。12.权利要求1的方法,其中训练声学泡模型的步骤进一步包含对每一个语音数据组合应用最大似然线性回归MLLR。13.权利要求1的方法,进一步包含声学泡模型规格化,从而产生一组紧凑声学模型。14.权利要求13的方法,其中声学泡模型规格化步骤进一步包含对每个声学泡模型进行说话人适应训练。15.权利要求13的方法,其中声学泡模型规格化步骤进一步包含对每个声学泡模型进...

【专利技术属性】
技术研发人员:安布鲁瓦兹米泰尔帕特里克耐格伊恩卢卡里加齐奥
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1