语音识别方法和装置制造方法及图纸

技术编号:13795133 阅读:56 留言:0更新日期:2016-10-06 11:44
本发明专利技术公开了一种语音识别方法和装置,该方法和装置通过在语音信号中提取多个语音数据包,对每个语音数据包进行语音识别,并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量,无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程,使得语音识别效率和准确性均达到很高水准。

【技术实现步骤摘要】

本专利技术实施例涉及语音信号处理
,尤其涉及一种语音识别方法和装置
技术介绍
语音识别是语音信号处理
中一个重要的研究方向,是将采集到的语音信号中反映说话人生理和行为特征的语音特征与已有声学模型做比对,从而得出语音内容的过程,随着当前电话语音、在线视频语音等语音产品的快速发展,语音识别的需求越来越多。在进行语音识别的过程中,由于不同说话人的说话习惯不一样,说话速度也会有较大差异,而已有声学模型多是基于正常语速的自然语音产生的,在说话速度过快时,常会产生语音与声学模型的失配,导致语音识别准确率低。现有技术中,一般采用如下方法来解决说话速度过快时,语音与声学模型易失配的问题,该方法具体包括如下步骤:1、采集用户所说的全部语音信号。2、语音信号的语速评估,分为后端评估和前端评估两个步骤,后端评估是指利用人工标注或者利用识别器对语音信号进行识别和标注,使用标注信息来计算语速,前端评估是指在信号层面,比如利用声学信号在时域上的能量包络的变化率,作为语速的参考值。3、语音信号或声学模型的语速适应,也分为前端适应和后端适应两个步骤,在说话速度过快时,前端适应是指对语音信号进行拉伸以放慢语速,后端适应是指调整声学模型的结构或参数和调节识别参数来匹配说话速度。4、完成语速适应后,对整句语音进行语音识别。然而,在实现本专利技术过程中,该现有技术中至少存在如下问题:由于在语音识别过程中需收集当前用户请求的全部语音信号并对全部语音信号进行语速评估和预设适应之后,才能进行语音识别,在全部语音信号的数据量较大时,使得语音识别前的处理周期较长,该处理周期所产生的系统延时甚至大于全部语音的时长,降低了语音识别的效率。
技术实现思路
本专利技术实施例提供一种语音识别方法和装置,用以解决现有技术中语音识别效率较低的技术问题。本专利技术实施例提供一种语音识别方法,包括:获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包;从所述第一语音数据包中提取第一数量的第一语音特征向量;根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;根据所述第一语音语速与标准语音语速,确定第二数量;从所述第二语音数据包提取第二数量的第二语音特征向量;根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。本专利技术实施例还提供一种语音识别装置,包括:该语音识别装置包括:语音数据包提取模块,获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包;第一特征向量提取模块,从所述第一语音数据包中提取第一数量的第一语音特征向量;第一语音语速确定模块,根据各第一语音特征向量与预设的马尔科夫声学
模型,确定所述第一语音数据包的第一语音语速;第二数量确定模块,根据所述第一语音语速与标准语音语速,确定第二数量;第二特征向量提取模块,从所述第二语音数据包提取第二数量的第二语音特征向量;第二识别结果确定模块,根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。本专利技术实施例所提供的语音识别方法和装置,通过在语音信号中提取多个语音数据包,对每个语音数据包分别进行语音识别,并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量,无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程,使得语音识别效率和准确性均达到很高水准。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中语音识别方法的过程;图2为本专利技术实施例中语音识别方法内根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速的具体过程;图3为本专利技术实施例中语音识别方法内根据第一最优识别路径的跳转概率更新马尔科夫声学模型条状概率的具体过程;图4为本专利技术实施例中语音识别装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。现有技术通过获取完整语音信号来进行语音识别的过程中,可能存在语音识别效率低的问题,本专利技术实施例提供一种解决前述问题的语音识别方法,以下结合附图详细描述本方法。图1为本专利技术实施例中语音识别方法的过程,具体包括如下步骤。S10、获取语音信号,在语音信号中提取多个语音数据包,前述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包。由于所获取的语音信号为时域上连续的信号,以时间为基准,在该语音信号中提取多个语音数据包,并保证相邻的两个语音数据包在时间上连续。本专利技术实施例中,每个语音数据包的时长设定为0.5秒,在获取语音信号的过程中,每隔0.5秒便生成一个语音数据包,通过对每个语音数据包进行语音识别并获得识别结果,后续将所有语音数据包的识别结果进行汇总,则能够得到语音信号的完整识别结果。值得注意的是,第一语音数据包和第二语音数据包是泛指从语音信号中提取的在时间上连续的任意两个语音数据包,并非特指从语音信号中提取出的第一个和第二个语音数据包,在此不做赘述。S20、从第一语音数据包中提取第一数量的第一语音特征向量。本专利技术实施例中,在获取第一语音数据包后,通过傅里叶转换和采样处理将时域上连续的第一语音数据包转换为在频域上离散的、第一数量的第一语音特征向量。前述第一语音特征向量可以是预设帧长的语音频谱信号,也可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)。其中,通过傅里叶转换和采样处理来得到第一语音特征向量为业内常规手段,在此不做赘述。S30、根据各第一语音特征向量与预设的马尔科夫声学模型,确定第一语音数据包的第一语音语速。预设的马尔科夫声学模型通过大量的自然语音语料训练得到的统计模型,并根据目标区域的人种、发音习惯进行了调整,以确保后续语音识别的准确性。通过将第一语音特征向量与马尔科夫声学模型作比对,得到第一语音数据包中各个第一语音特征向量的第一识别子结果。将这些第一识别子结果进行对比,明确其中发生了多少次自跳和跳转,从而得到第一识别子结果中跳转概率,将跳转概率与第一语音数据包的时长做比对,则可得出第一语音语速。S40、根据所述第一语音语速与标准语音语速,确定第二数量。标准语音语速为预先设定,一般以普通自然人的常规语速做标准。本专利技术实施例中,第一语音数据包和第二语音数据包的时长相同,前述第二数量为将第一语音语速和标准语音语速的比值与第一数量作乘积的结果。以根据第一语音特征向量得到第一语音语速是标准语速的2倍为例,第二数量为第一数量的2倍,即在第二语音数据本文档来自技高网
...

【技术保护点】
一种语音识别方法,其特征在于,包括:获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包;从所述第一语音数据包中提取第一数量的第一语音特征向量;根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;根据所述第一语音语速与标准语音语速,确定第二数量;从所述第二语音数据包提取第二数量的第二语音特征向量;根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包;从所述第一语音数据包中提取第一数量的第一语音特征向量;根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;根据所述第一语音语速与标准语音语速,确定第二数量;从所述第二语音数据包提取第二数量的第二语音特征向量;根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速,具体包括:将各第一语音特征向量与预设马尔科夫声学模型做比对,得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值;获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻,得到位于所述收敛时刻的第一语音特征向量,作为第一收敛特征向量;获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果;根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径;获取所述第一最优识别路径的跳转概率;根据所述第一最优识别路径的跳转概率和所述第一语音数据包的时长得到第一语音语速。3.根据权利要求2所述的语音识别方法,其特征在于,所述第一收敛特
\t征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。4.根据权利要求3所述的语音识别方法,其特征在于,获取所述第一语音特征向量的第一识别子结果的数量上的收敛时刻之前,所述语音识别方法还包括:仅保留每个第一语音特征向量中参考概率值大于预设概率阈值的第一识别子结果。5.根据权利要求2述的语音识别方法,其特征在于,根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径,具体包括:以所述参考概率值最大的第一识别子结果为基准,根据马尔科夫声学模型得到跳转至所述第一识别子结果的参考概率值最大的前一第一语音特征向量的第一识别子结果;以第一识别子结果为基准,根据马尔科夫声学模型得到所述第一识别子结果跳转的参考概率值最大的后一第一语音特征向量的第一识别子结果;判断是否已经得到所有第一语音特征向量的第一识别子结果;将得到所有第一语音特征向量的第一识别子结果做汇总,作为第一最优识别路径。6.根据权利要求1所述的语音识别方法,其特征在于,根据所述第一语音语速与标准语音语速,确定第二数量,具体包括:将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果,作为第二数量。7.根据权利要求1所述的语音识别方法,其特征在于,从所述第二语音数据包提取第二数量的第二语音特征向量,具体包括:获取相邻第一语音特征向量之间的第一帧移;根据所述第二数量和第一数量调整所述第一帧移,得到第二帧移;根据所述第二帧移,从所述第二语音数据包提取第二语音特征向量,以使得所述第二语音特征向量的数量为第二数量。8.根据权利要求1所述的语音识别方法,其特征在于,从所述第二语音数据包提取第二数量的第二语音特征向量,具体包括:从所述第二语音数据包中提取第一数量的第二语音特征向量;在相邻的第二语音特征向量之间提取特定数量的第二语音特征向量,将所述第二语音特征向量的数...

【专利技术属性】
技术研发人员:王育军
申请(专利权)人:乐视致新电子科技天津有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1