语音识别方法、语音识别模型的训练方法及装置制造方法及图纸

技术编号：39009499 阅读：11 留言：0更新日期：2023-10-07 10:40

本公开提供一种语音识别方法、语音识别模型的训练方法及装置，包括：获取待识别语音信号的初始局部语音特征和初始全局语音特征，基于初始全局语音特征，对初始局部语音特征表示待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于初始局部语音特征，对初始全局语音特征表示待识别语音信号的能力进行增强处理，得到目标全局语音特征，根据目标全局语音特征和目标局部语音特征确定待识别语音信号的语音文本，充分考虑了全局语音特征和局部语音特征之间的互补特征，避免了语音信息的丢失，提高了语音识别的准确性和可靠性。提高了语音识别的准确性和可靠性。提高了语音识别的准确性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、语音识别模型的训练方法及装置

[0001]本公开涉及人工智能
，尤其涉及一种语音识别方法、语音识别模型的训练方法及装置。

技术介绍

[0002]随着深度学习的发展，语音识别技术取得了快速的进步和发展。目前语音识别成为许多应用领域的重要技术之一，包括智能家居、智能客服、语音助手、智能手机、车载语音交互等。它可以让计算机更好地理解人类语言，使得人机交互更加自然和高效，提高计算机系统的易用性。同时，它也可以帮助人们更好地理解语言，提高语言学习和交流的能力。
[0003]在相关技术中，可以采用提取待识别语音信号的全局语音特征或者局部语音特征，以基于全局语音特征或者局部语音特征确定待识别语音信号的语音文本。
[0004]然而，采用上述方法可能存在语音信息缺失，从而导致语音识别的准确性偏低的问题。
[0005]
技术介绍
部分的内容仅仅是专利技术人个人所知晓的信息，并不代表上述信息在本公开申请日之前已经进入公共领域，也不代表其可以成为本公开的现有技术。

技术实现思路

[0006]本公开提供一种语音识别方法、语音识别模型的训练方法及装置，用以提高语音识别的准确性。
[0007]第一方面，本公开提供一种语音识别方法，包括：获取待识别语音信号的初始局部语音特征和初始全局语音特征；基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征；基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别语音信号的初始局部语音特征和初始全局语音特征；基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征；基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征；根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本。2.根据权利要求1所述的方法，其特征在于，基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征，包括：对所述初始局部语音特征进行激活处理，得到交互权重；基于所述交互权重，对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理，得到所述目标全局语音特征。3.根据权利要求2所述的方法，其特征在于，基于所述交互权重，对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理，得到所述目标全局语音特征，包括：对所述初始全局语音特征进行逐点卷积，得到待交互全局语音特征；对所述待交互全局语音特征与所述交互权重进行点乘，得到所述目标全局语音特征。4.根据权利要求1所述的方法，其特征在于，基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征，包括：对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征。5.根据权利要求1所述的方法，其特征在于，所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的；所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的。6.根据权利要求1
‑
5中任一项所述的方法，其特征在于，根据所述目标全局语音特征和所述目标局部语音特征确定与所述待识别语音信号的语音文本，包括：对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还...

【专利技术属性】
技术研发人员：殷绪成，赖志豪，张天昊，魏丽芳，陈松路，陈峰，
申请(专利权)人：珠海亿智电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人