语音识别方法和装置制造方法及图纸

技术编号：13795133 阅读：56 留言：0更新日期：2016-10-06 11:44

本发明专利技术公开了一种语音识别方法和装置，该方法和装置通过在语音信号中提取多个语音数据包，对每个语音数据包进行语音识别，并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量，无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程，使得语音识别效率和准确性均达到很高水准。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及语音信号处理
，尤其涉及一种语音识别方法和装置。
技术介绍
语音识别是语音信号处理
中一个重要的研究方向，是将采集到的语音信号中反映说话人生理和行为特征的语音特征与已有声学模型做比对，从而得出语音内容的过程，随着当前电话语音、在线视频语音等语音产品的快速发展，语音识别的需求越来越多。在进行语音识别的过程中，由于不同说话人的说话习惯不一样，说话速度也会有较大差异，而已有声学模型多是基于正常语速的自然语音产生的，在说话速度过快时，常会产生语音与声学模型的失配，导致语音识别准确率低。现有技术中，一般采用如下方法来解决说话速度过快时，语音与声学模型易失配的问题，该方法具体包括如下步骤：1、采集用户所说的全部语音信号。2、语音信号的语速评估，分为后端评估和前端评估两个步骤，后端评估是指利用人工标注或者利用识别器对语音信号进行识别和标注，使用标注信息来计算语速，前端评估是指在信号层面，比如利用声学信号在时域上的能量包络的变化率，作为语速的参考值。3、语音信号或声学模型的语速适应，也分为前端适应和后端适应两个步骤，在说话速度过快时，前端适应是指对语音信号进行拉伸以放慢语速，后端适应是指调整声学模型的结构或参数和调节识别参数来匹配说话速度。4、完成语速适应后，对整句语音进行语音识别。然而，在实现本专利技术过程中，该现有技术中至少存在如下问题：由于在语音识别过程中需收集当前用户请求的全部语音信号并对全部语音信号进行语速评估和预设适应之后，才能进行语音识别，在全部语音信号的数据量较大时，使得语音识别前的处理周期较长，该处理周期所产生的系统延时...

【技术保护点】
一种语音识别方法，其特征在于，包括：获取语音信号，在所述语音信号中提取多个语音数据包，所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包；从所述第一语音数据包中提取第一数量的第一语音特征向量；根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速；根据所述第一语音语速与标准语音语速，确定第二数量；从所述第二语音数据包提取第二数量的第二语音特征向量；根据所述第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取语音信号，在所述语音信号中提取多个语音数据包，所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包；从所述第一语音数据包中提取第一数量的第一语音特征向量；根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速；根据所述第一语音语速与标准语音语速，确定第二数量；从所述第二语音数据包提取第二数量的第二语音特征向量；根据所述第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。2.根据权利要求1所述的语音识别方法，其特征在于，根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速，具体包括：将各第一语音特征向量与预设马尔科夫声学模型做比对，得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值；获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻，得到位于所述收敛时刻的第一语音特征向量，作为第一收敛特征向量；获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果；根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径；获取所述第一最优识别路径的跳转概率；根据所述第一最优识别路径的跳转概率和所述第一语音数据包的时长得到第一语音语速。3.根据权利要求2所述的语音识别方法，其特征在于，所述第一收敛特
\t征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。4.根据权利要求3所述的语音识别方法，其特征在于，获取所述第一语音特征向量的第一识别子结果的数量上的收敛时刻之前，所述语音识别方法还包括：仅保留每个第一语音特征向量中参考概率值大于预设概率阈值的第一识别子结果。5.根据权利要求2述的语音识别方法，其特征在于，根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径，具体包括：以所述参考概率值最大的第一识别子结果为基准，根据马尔科夫声学模型得到跳转至所述第一识别子结果的参考概率值最大的前一第一语音特征向量的第一识别子结果；以第一识别子结果为基准，根据马尔科夫声学模型得到所述第一识别子结果跳转的参考概率值最大的后一第一语音特征向量的第一识别子结果；判断是否已经得到所有第一语音特征向量的第一识别子结果；将得到所有第一语音特征向量的第一识别子结果做汇总，作为第一最优识别路径。6.根据权利要求1所述的语音识别方法，其特征在于，根据所述第一语音语速与标准语音语速，确定第二数量，具体包括：将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果，作为第二数量。7.根据权利要求1所述的语音识别方法，其特征在于，从所述第二语音数据包提取第二数量的第二语音特征向量，具体包括：获取相邻第一语音特征向量之间的第一帧移；根据所述第二数量和第一数量调整所述第一帧移，得到第二帧移；根据所述第二帧移，从所述第二语音数据包提取第二语音特征向量，以使得所述第二语音特征向量的数量为第二数量。8.根据权利要求1所述的语音识别方法，其特征在于，从所述第二语音数据包提取第二数量的第二语音特征向量，具体包括：从所述第二语音数据包中提取第一数量的第二语音特征向量；在相邻的第二语音特征向量之间提取特定数量的第二语音特征向量，将所述第二语音特征向量的数...

【专利技术属性】
技术研发人员：王育军，
申请(专利权)人：乐视致新电子科技天津有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人