语音识别方法、语音识别装置、电子设备及可读存储介质制造方法及图纸

技术编号：41732069 阅读：17 留言：0更新日期：2024-06-19 12:53

本申请公开了一种语音识别方法、语音识别装置、电子设备及可读存储介质，所述方法包括：通过对待识别音频进行特征分析，得到第一融合特征；在通过对所述第一融合特征进行处理，得到与所述待识别音频对应的多个第一时间块的情况下，针对每个第一时间块，基于场景权值对所述第一时间块的长度进行调整，得到与所述第一时间块对应的第二时间块，其中，所述场景权值用于表示所述第一时间块所处场景的模糊程度；根据多个所述第二时间块重新划分所述待识别音频，得到多个第三时间块；针对每一所述第三时间块，基于所述第三时间块的声学特征和所述第三时间块的上下文嵌入向量平均值，确定与所述第三时间块对应的语音识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于计算机，具体涉及一种语音识别方法、语音识别装置、电子设备及可读存储介质。

技术介绍

1、随着流式语音识别技术的发展，在进行流式语音识别时，通常借助于对声学特征序列进行建模、解码和后处理，来实现对连续语音输入流的实时或近实时识别，但是传统的流式语音识别技术采用的是固定时长划分的方式，这样可能会导致在某些场景下识别精度不足、语音块之间可能将丢失一些上下文信息的问题，从而导致流式语音识别结果不够准确。

技术实现思路

1、本申请实施例提供一种语音识别方法、语音识别装置、电子设备及可读存储介质，能够解决因采用固定时长划分的方式，导致流式语音识别结果不够准确的问题。

2、第一方面，本申请实施例提供了一种语音识别方法，该方法包括：通过对待识别音频进行特征分析，得到第一融合特征；在通过对所述第一融合特征进行处理，得到与所述待识别音频对应的多个第一时间块的情况下，针对每个第一时间块，基于场景权值对所述第一时间块的长度进行调整，得到与所述第一时间块对应的第二时间块，其中，所述场景权值用于...

【技术保护点】

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过对所述第一融合特征进行处理，得到与所述待识别音频对应的多个第一时间块，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于场景权值对所述第一时间块的长度进行调整，得到与所述第一时间块对应的第二时间块，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定与所述第一时间块对应的场景权值，包括：

...

【技术特征摘要】

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过对所述第一融合特征进行处理，得到与所述待识别音频对应的多个第一时间块，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于场景权值对所述第一时间块的长度进行调整，得到与所述第一时间块对应的第二时间块，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定与所述第一时间块对应的场景权值，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据多个所述第二时间块重新划分所述待识别音频，得到多个第三时间块，包括以下至少之一：

8.根据权利要求1所述的方法，其特征在于，所述基于所述第三时间块的声学特征和所述第三时间块的上下文嵌入向量平均值，确定与所述第三时间块对应的语音识别结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述生成与所述第三时间块对应的所述未来时间块，包括：

【专利技术属性】
技术研发人员：曹雪峰，张岩，刘妮妮，李阳，沈红星，
申请(专利权)人：中移雄安信息通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人