语音识别方法、语音识别模型的训练方法及装置制造方法及图纸

技术编号:39009499 阅读:11 留言:0更新日期:2023-10-07 10:40
本公开提供一种语音识别方法、语音识别模型的训练方法及装置,包括:获取待识别语音信号的初始局部语音特征和初始全局语音特征,基于初始全局语音特征,对初始局部语音特征表示待识别语音信号的能力进行增强处理,得到目标局部语音特征,基于初始局部语音特征,对初始全局语音特征表示待识别语音信号的能力进行增强处理,得到目标全局语音特征,根据目标全局语音特征和目标局部语音特征确定待识别语音信号的语音文本,充分考虑了全局语音特征和局部语音特征之间的互补特征,避免了语音信息的丢失,提高了语音识别的准确性和可靠性。提高了语音识别的准确性和可靠性。提高了语音识别的准确性和可靠性。

【技术实现步骤摘要】
语音识别方法、语音识别模型的训练方法及装置


[0001]本公开涉及人工智能
,尤其涉及一种语音识别方法、语音识别模型的训练方法及装置。

技术介绍

[0002]随着深度学习的发展,语音识别技术取得了快速的进步和发展。目前语音识别成为许多应用领域的重要技术之一,包括智能家居、智能客服、语音助手、智能手机、车载语音交互等。它可以让计算机更好地理解人类语言,使得人机交互更加自然和高效,提高计算机系统的易用性。同时,它也可以帮助人们更好地理解语言,提高语言学习和交流的能力。
[0003]在相关技术中,可以采用提取待识别语音信号的全局语音特征或者局部语音特征,以基于全局语音特征或者局部语音特征确定待识别语音信号的语音文本。
[0004]然而,采用上述方法可能存在语音信息缺失,从而导致语音识别的准确性偏低的问题。
[0005]
技术介绍
部分的内容仅仅是专利技术人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。

技术实现思路

[0006]本公开提供一种语音识别方法、语音识别模型的训练方法及装置,用以提高语音识别的准确性。
[0007]第一方面,本公开提供一种语音识别方法,包括:获取待识别语音信号的初始局部语音特征和初始全局语音特征;基于所述初始全局语音特征,对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理,得到目标局部语音特征;基于所述初始局部语音特征,对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理,得到目标全局语音特征;根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本。
[0008]在一些实施例中,基于所述初始局部语音特征,对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理,得到目标全局语音特征,包括:对所述初始局部语音特征进行激活处理,得到交互权重;基于所述交互权重,对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理,得到所述目标全局语音特征。
[0009]在一些实施例中,基于所述交互权重,对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理,得到所述目标全局语音特征,包括:对所述初始全局语音特征进行逐点卷积,得到待交互全局语音特征;对所述待交互全局语音特征与所述交互权重进行点乘,得到所述目标全局语音特
征。
[0010]在一些实施例中,基于所述初始全局语音特征,对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理,得到目标局部语音特征,包括:对所述初始全局语音特征进行动态激活处理,得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域;基于所述作用域,对所述初始全局语音特征和所述初始局部语音特征进行交互处理,得到所述目标局部语音特征。
[0011]在一些实施例中,所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的;所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的。
[0012]在一些实施例中,根据所述目标全局语音特征和所述目标局部语音特征确定与所述待识别语音信号的语音文本,包括:对所述目标全局语音特征和所述目标局部语音特征进行拼接处理,得到拼接语音特征;依次对所述拼接语音特征进行平均值计算、线性处理、激活处理,得到降低通道维度的语音特征;对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原,得到还原后的局部语音特征和还原后的全局语音特征;对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合,得到聚合语音特征;基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子,并根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征,并根据所述融合语音特征确定所述语音文本。
[0013]第二方面,本公开提供一种语音识别模型的训练方法,包括:获取样本语音信号的初始局部语音特征和初始全局语音特征;基于所述初始全局语音特征,对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理,得到目标局部语音特征;基于所述初始局部语音特征,对所述初始全局语音特征表示所述样本待识别语音信号的能力进行增强处理,得到目标全局语音特征;根据所述目标全局语音特征和所述目标局部语音特征预测所述待识别语音信号的预测语音文本,并根据所述预测语音文本与预设的语音文本真值生成语音识别模型。
[0014]第三方面,本公开提供一种语音识别装置,包括:获取单元,用于获取待识别语音信号的初始局部语音特征和初始全局语音特征;第一处理单元,用于基于所述初始全局语音特征,对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理,得到目标局部语音特征;第二处理单元,用于基于所述初始局部语音特征,对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理,得到目标全局语音特征;确定单元,用于根据所述目标全局语音特征和所述目标局部语音特征确定所述待
识别语音信号的语音文本。
[0015]在一些实施例中,所述第二处理单元,包括:第一激活子单元,用于对所述初始局部语音特征进行激活处理,得到交互权重;第一交互子单元,用于基于所述交互权重,对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理,得到所述目标全局语音特征。
[0016]在一些实施例中,所述第一交互子单元,包括:卷积模块,用于对所述初始全局语音特征进行逐点卷积,得到待交互全局语音特征;点乘模块,用于对所述待交互全局语音特征与所述交互权重进行点乘,得到所述目标全局语音特征。
[0017]在一些实施例中,所述第一处理单元,包括:第二激活子单元,用于对所述初始全局语音特征进行动态激活处理,得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域;第二交互子单元,用于基于所述作用域,对所述初始全局语音特征和所述初始局部语音特征进行交互处理,得到所述目标局部语音特征。
[0018]在一些实施例中,所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的;所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的。
[0019]在一些实施例中,所述确定单元,包括:拼接子单元,用于对所述目标全局语音特征和所述目标局部语音特征进行拼接处理,得到拼接语音特征;处理子单元,用于依次对所述拼接语音特征进行平均值计算、线性处理、激活处理,得到降低通道维度的语音特征;还原子单元,用于对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原,得到还原后的局部语音特征和还原后的全局语音特征;聚合子单元,用于对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合,得到聚合语音特征;第一确定子单元,用于基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子;选取子单元,用于根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别语音信号的初始局部语音特征和初始全局语音特征;基于所述初始全局语音特征,对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理,得到目标局部语音特征;基于所述初始局部语音特征,对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理,得到目标全局语音特征;根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本。2.根据权利要求1所述的方法,其特征在于,基于所述初始局部语音特征,对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理,得到目标全局语音特征,包括:对所述初始局部语音特征进行激活处理,得到交互权重;基于所述交互权重,对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理,得到所述目标全局语音特征。3.根据权利要求2所述的方法,其特征在于,基于所述交互权重,对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理,得到所述目标全局语音特征,包括:对所述初始全局语音特征进行逐点卷积,得到待交互全局语音特征;对所述待交互全局语音特征与所述交互权重进行点乘,得到所述目标全局语音特征。4.根据权利要求1所述的方法,其特征在于,基于所述初始全局语音特征,对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理,得到目标局部语音特征,包括:对所述初始全局语音特征进行动态激活处理,得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域;基于所述作用域,对所述初始全局语音特征和所述初始局部语音特征进行交互处理,得到所述目标局部语音特征。5.根据权利要求1所述的方法,其特征在于,所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的;所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的。6.根据权利要求1

5中任一项所述的方法,其特征在于,根据所述目标全局语音特征和所述目标局部语音特征确定与所述待识别语音信号的语音文本,包括:对所述目标全局语音特征和所述目标局部语音特征进行拼接处理,得到拼接语音特征;依次对所述拼接语音特征进行平均值计算、线性处理、激活处理,得到降低通道维度的语音特征;对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原,得到还原后的局部语音特征和还...

【专利技术属性】
技术研发人员:殷绪成赖志豪张天昊魏丽芳陈松路陈峰
申请(专利权)人:珠海亿智电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1