一种语音识别方法及装置制造方法及图纸

技术编号:13591552 阅读:45 留言:0更新日期:2016-08-26 00:35
本发明专利技术涉及语音技术,公开了一种语音识别方法及装置。本发明专利技术中,预先根据通过模型训练得到的N个高斯进行软性聚类计算,得到M个软聚类高斯;在进行语音识别时,将语音转换得到特征向量,并根据该特征向量计算得分最高的前L个软聚类高斯,其中L小于M;将L个软聚类高斯内的各成员高斯,作为语音识别过程中声学模型里需要参与计算的高斯,进行声学模型似然度的计算。本发明专利技术提供的方法在语音识别的时候采用动态高斯选择的方式,减少识别过程中声学模型里需要评估的高斯个数,提高了声学模型似然度评估的速度和准确性。

【技术实现步骤摘要】

本专利技术涉及语音技术,特别涉及一种语音识别方法。
技术介绍
随着语音识别技术的发展,近年来语音识别技术的准确率随着深度学习的推广取得了巨大的进步,特别是在基于云的服务中。现有的语音识别服务多数在云端实现,语音需要上传至服务器,服务器对上传的语音进行声学评估,从而给出识别结果。为了提高识别率,服务器大多采用深度学习的方法对语音进行评估。但深度学习需要耗费巨大的计算资源,在本地或者嵌入式设备中不适用。而且在很多不能联网的使用场景下,只能依赖本地语音识别技术。由于本地计算和存储资源有限,隐马尔科夫模型(HMM)和高斯混合模型(GMM)仍然是不可或缺的技术选择。这种技术框架具有以下优点:1、系统尺寸可控:高斯混合模型中的高斯数量易于在训练时控制。2、系统速度可控:使用动态高斯选择技术可以大幅度降低运算时间所谓高斯选择即在模型训练阶段,把语音识别系统中所有的高斯作为成员高斯进行聚类,形成聚类高斯;在识别的时候首先利用声学特征评估每个聚类高斯,那些似然度高的聚类高斯所对应的成员高斯被选中进行进一步的评估。而其他成员高斯被丢弃。传统的高斯选择技术有以下缺点:1、在聚类的时候采用硬聚类,即一个成员高斯只属于一个聚类高斯。聚类精确度较低。2、聚类时直接把成员高斯的均值和方差作为聚类的输入,在训练聚类
高斯的时候直接把均值和方差做简单的算术平均,聚类精度极低。3、聚类的时候,没有有效的迭代方法,致使聚类收敛于局部最优。4、识别时的高斯选择不能做到动态更新,导致过多的成员高斯保留在计算中,识别速度慢。
技术实现思路
本专利技术的目的在于提供一种语音识别方法及装置,使得语音识别过程中可以减少声学模型里需要评估的高斯个数,比传统的高斯选择更加准确和高效,从而提高了声学模型似然度评估的速度和准确性。为解决上述技术问题,本专利技术的实施方式提供了一种语音识别方法,包含以下步骤:预先根据通过模型训练得到的N个高斯,进行软性聚类计算,得到M个软聚类高斯;在进行语音识别时,将语音转换得到特征向量,并根据所述特征向量计算得分最高的前L个软聚类高斯,其中L小于所述M;将L个软聚类高斯内的各成员高斯,作为语音识别过程中声学模型里需要参与计算的高斯,进行声学模型似然度的计算。本专利技术的实施方式还提供了一种语音识别装置,包含:软性聚类获取模块,用于根据通过模型训练得到的N个高斯,进行软性聚类计算,得到M个软聚类高斯;向量转换模块,用于在进行语音识别时,将语音转换得到特征向量;选择模块,用于根据所述特征向量计算得分最高的前L个软聚类高斯,并将所述前L个软聚类高斯的各成员高斯,作为选择的高斯;所述L小于所
述M;计算模块,用于将所述选择模块选择的高斯,作为语音识别过程中声学模型里需要参与计算的高斯,进行声学模型似然度的计算。本专利技术实施方式相对于现有技术而言,通过对模型训练得到的N个高斯进行软性聚类,得到M个软聚类高斯,再根据特征向量对M个软聚类高斯进行计算得到分数最高的前L个软聚类高斯,然后将L个软聚类高斯内的各成员高斯进行声学模型似然度的计算,得到识别输出结果。通过软性聚类可以使一个成员高斯属于多个聚类高斯,提高了聚类的精确度,而且在识别的时候采用动态高斯选择的方式,减少了识别过程中声学模型里需要评估的高斯个数,使得在本地识别过程中,可将GMM中每个成员高斯的得分计算量从整个计算时间的70%左右降低到20%,从而提高了声学模型似然度评估速度和准确率,尤其适用于本地语音识别,唤醒,和语音端点检测(检测语音的起始点)。另外,根据通过模型训练得到的N个高斯,进行软性聚类计算的步骤中,包含以下子步骤:将N个高斯按预设权重分配给聚类高斯;根据各高斯对所属的各聚类高斯的更新权重,重新估计聚类高斯,得到M个软聚类高斯。通过软性聚类计算,使得每个成员高斯可以属于多个聚类高斯,提高了模型的描述能力,从而提高识别率。另外,在采用K均值算法重新估计聚类高斯时,计算各聚类高斯的最小聚类代价;对最小聚类代价求导,获取每个成员高斯对每个聚类高斯的更新权重;根据获取到的每个成员高斯对每个聚类高斯的更新权重,计算各聚类高
斯的均值和方差,得到重新估计的聚类高斯;将该重新估计的聚类高斯,作为M个软聚类高斯。通过计算各聚类高斯的最小聚类代价使得聚类高斯的划分达到平方误差最小。采用精确的K均值(K-Means)方法对高斯进行软性聚类(即一个成员高斯可属于多个聚类高斯),聚类个数逐步增加,并且每次增加的方式反映了模型分布的规律,一方面保证了同一聚类内各成员高斯的相似度,另一方面可使得类与类之间的区别明显,从而提高了聚类的精度。另外,所述L的取值为满足下列条件的最小值:Σi=1Lp(Gi|Y)α>0.95Σj=1M*0.2p(Gj|Y)α]]>其中,p(Gi|Y)≥p(Gi+1|Y)所述Y表示所述特征向量,α是一个对高斯“后验”概率的压缩指数,Gi表示第i个聚类高斯,p(Gi|Y)表示第i个聚类高斯的“后验”概率。将根据上述公式计算得出的最小值作为L的取值,可以使识别过程中声学模型里需要评估的高斯个数较少,提高了声学模型似然度评估速度。另外,根据特征向量计算出得分最高的前L个软聚类高斯的步骤中,包含以下子步骤:根据以下公式,获取各软聚类高斯的得分:fm(Y)=1(2π)d/2|Σm|1/2exp(-12(Y-μm)′Σm-1(Y-μm))]]>所述Y表示所述特征向量,μm表示第m个软聚类高斯的均值,Σm表示第m个软聚类高斯的方差。附图说明图1是根据本专利技术实施方式的语音识别系统示意图;图2是根据第一实施方式中软性聚类的计算流程图;图3是根据第一实施方式的语音识别方法流程图;图4是根据第一实施方式的动态高斯选择示意图;图5是根据第四实施方式的语音识别装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。语音识别目的是在观察到一段语音信号的情况下,给出可能性最高的文本。如图1所示,一个基于HMM+GMM的识别系统按帧读取一段语音,系统把每帧语音信号变成特征向量。系统结合每帧特征向量评估声学模型中每个高斯的似然度,同时假设多种词的组合,对这些词的组合利用语言模型进行似然度评估,声学似然度和语言似然度总和最高的词组合作为识别结果输出。本专利技术的第一实施方式涉及一种语音识别方法。在本实施方式中,需要预先根据通过模型训练得到的N个高斯,进行软性聚类计算,得到M个软聚类高斯。在进行语音识别时,通过用动态高斯选择的方式,控制需要计算的成员高斯个数。在本实施方式中,软性聚类的计算流程如图2所示。在步骤201中,通过模型训练得到N个高斯,如得到1000个高斯。在步骤202中,将N个高斯按预设权重分配给聚类高斯。在步骤203中,根据各高斯对所属的各聚类高斯的更新权重,重新估计聚类高斯,得到M个软聚本文档来自技高网
...

【技术保护点】
一种语音识别方法,其特征在于,包含以下步骤:预先根据通过模型训练得到的N个高斯,进行软性聚类计算,得到M个软聚类高斯;在进行语音识别时,将语音转换得到特征向量,并根据所述特征向量计算出得分最高的前L个软聚类高斯,所述L小于所述M;将所述L个软聚类高斯内的各成员高斯,作为语音识别过程中声学模型里需要参与计算的高斯,进行声学模型似然度的计算。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包含以下步骤:预先根据通过模型训练得到的N个高斯,进行软性聚类计算,得到M个软聚类高斯;在进行语音识别时,将语音转换得到特征向量,并根据所述特征向量计算出得分最高的前L个软聚类高斯,所述L小于所述M;将所述L个软聚类高斯内的各成员高斯,作为语音识别过程中声学模型里需要参与计算的高斯,进行声学模型似然度的计算。2.根据权利要求1所述的语音识别方法,其特征在于,所述根据通过模型训练得到的N个高斯,进行软性聚类计算的步骤中,包含以下子步骤:将所述N个高斯按预设权重分配给聚类高斯;根据各高斯对所属的各聚类高斯的更新权重,重新估计聚类高斯,得到所述M个软聚类高斯。3.根据权利要求2所述的语音识别方法,其特征在于,所述根据通过模型训练得到的N个高斯,进行软性聚类计算的步骤中,采用以下任意算法,进行所述软性聚类的计算:K均值算法、C均值算法、自组织图算法。4.根据权利要求3所述的语音识别方法,其特征在于,在采用K均值算法重新估计聚类高斯时,计算各聚类高斯的最小聚类代价;对所述最小聚类代价求导,获取每个成员高斯对每个聚类高斯的更新权重;根据获取到的每个成员高斯对每个聚类高斯的更新权重,计算各聚类高
\t斯的均值和方差,得到所述重新估计的聚类高斯;将所述重新估计的聚类高斯,作为所述M个软聚类高斯。5.根据权利要求4所述的语音识别方法,其特征在于,根据以下公式计算所述最小聚类代价Q:Q=Σn=1N(Σi=1mg(i,n)WSKLD(i,n)+γΣm=1Mg(i,n)log1g(i,n))]]>其中,g(i,n)表示第n个高斯对第i个聚类高斯的更新权重;γ为预设的聚类软硬度参数;WSKLD表示作为高斯之间距离判据的加权对称KL散度。6.根据权利要求1所述的语音识别方法...

【专利技术属性】
技术研发人员:王育军侯锐
申请(专利权)人:乐视致新电子科技天津有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1