语音数据处理方法、装置和电子设备制造方法及图纸

技术编号:34503989 阅读:19 留言:0更新日期:2022-08-13 20:45
本发明专利技术提供了一种语音数据处理方法、装置和电子设备。其中,该方法应用于语音设备,语音设备包括预先训练完成的语音唤醒模型;该方法包括:采集语音数据;对语音数据进行预处理;预处理包括降噪和/或消除回声;将预处理后的语音数据输入语音唤醒模型中,得到唤醒结果;如果唤醒结果表征语音唤醒成功,将预处理后的语音数据发送至云端,以使设置在云端的语音内容识别模型识别语音数据的语音内容。该方式中,预处理和语音唤醒的流程可以在语音设备中离线处理,语音内容识别可以在云端进行处理,可以减少神经网络模型的训练时间和训练难度,提升训练效果,加快响应速度,降低云端识别系统开发难度,有助于后期维护和优化。有助于后期维护和优化。有助于后期维护和优化。

【技术实现步骤摘要】
语音数据处理方法、装置和电子设备


[0001]本专利技术涉及语音识别
,尤其是涉及一种语音数据处理方法、装置和电子设备。

技术介绍

[0002]语音前端处理,一般是指为了达到更好的识别效果,在语音信号输入到语音识别系统之前对语音信号进行的一些预处理。例如,在实际生活中,为了使语音识别系统能在嘈杂的环境中达到很好的识别效果,需要降低语音信号中的噪声水平,这就是一种语音前端处理的方式。
[0003]实际应用中的语音识别系统一般包含两部分功能,第一部分是语音唤醒,第二部分是语音内容识别,在实际使用过程中,用户需要说出特定的唤醒词并成功进行语音唤醒之后,才能进行后续的语音内容识别。现有的语音识别系统的服务及产品,大多都是把这两部分放在一起进行处理,即建立同一套语音信号处理机制,以及同一套声学模型和语言模型。
[0004]然而,目前的语音识别系统大都基于深度学习技术,通过对超大语料库的训练和学习来建立声学模型和语言模型。如果语音唤醒和语音内容识别共用一套处理机制,那么将需要更大的语料库和更复杂的模型结构,使得训练时间变长,训练难度加大。同时,利用深度学习技术建立语音识别系统,往往会忽略对数据的预处理,这会使得训练更加困难,比如,带噪声的语料中语音特征不明显,会使得训练不容易收敛,训练效果不好。另外,一般大型的连续语音识别系统都建立在云端,需要联网才能进行语音唤醒和识别,这将会带来一定的时间延迟,而为了有更好的使用体验,用户都希望语音唤醒能够快速响应,这个要求将进一步加大建立识别模型的难度。
专利技术内容
[0005]有鉴于此,本专利技术的目的在于提供一种语音数据处理方法、装置和电子设备,以减少神经网络模型的训练时间和训练难度,提升训练效果,降低云端识别系统开发难度,有助于后期维护和优化。
[0006]第一方面,本专利技术实施例提供了一种语音数据处理方法,应用于语音设备,语音设备包括预先训练完成的语音唤醒模型;方法包括:采集语音数据;对语音数据进行预处理;预处理包括降噪和/或消除回声;将预处理后的语音数据输入语音唤醒模型中,得到唤醒结果;如果唤醒结果表征语音唤醒成功,将预处理后的语音数据发送至云端,以使设置在云端的语音内容识别模型识别语音数据的语音内容。
[0007]在本专利技术较佳的实施例中,上述语音数据包括来自语音设备的回声数据和来自语音设备所处环境的环境数据;语音设备包括通道控制器和与通道控制器连接的麦克风;麦克风包括用于采集环境数据的第一通道和第二通道,以及用于采集回声数据的第三通道;上述采集语音数据的步骤,包括:通过通道控制器确定当前语音采集选用的目标通道;如果
目标通道为第一通道和第二通道,通过第一通道和第二通道采集环境数据;如果目标通道为第三通道,通过第三通道采集回声数据。
[0008]在本专利技术较佳的实施例中,上述通过第一通道和第二通道采集环境数据的步骤,包括:通过第一通道采集第一环境数据;通过第二通道采集第二环境数据;计算第一环境数据和第二环境数据的均值,将均值作为环境数据。
[0009]在本专利技术较佳的实施例中,上述对语音数据进行预处理的步骤,包括:判断语音数据中是否包含回声数据;如果是,消除语音数据中的回声数据,并且降低语音数据中的噪声;如果否,降低语音数据中的噪声。
[0010]在本专利技术较佳的实施例中,上述降低语音数据中的噪声的步骤,至少包括以下之一:将语音数据输入预先训练完成的神经网络降噪模型,输出降噪后的声音数据;对语音数据进行非线性化处理,对非线性化处理后的语音数据进行降噪;基于预设的谱减降噪算法对语音数据进行降噪。
[0011]在本专利技术较佳的实施例中,上述对语音数据进行预处理的步骤,包括:确定语音数据的声音起始点和声音结束点;对声音起始点和声音结束点之间的语音数据进行预处理。
[0012]在本专利技术较佳的实施例中,上述将预处理后的语音数据输入语音唤醒模型中,得到唤醒结果的步骤,包括:将预处理后的语音数据输入语音唤醒模型;通过语音唤醒模型从预处理后的语音数据中提取第一语音特征;将第一语音特征与语音唤醒模型预先保存的第二语音特征进行比对,得到唤醒结果。
[0013]在本专利技术较佳的实施例中,上述语音唤醒模型包括声学模型和语言模型,语音唤醒模型对第二语音特征进行建模和识别。
[0014]第二方面,本专利技术实施例还提供一种语音数据处理装置,应用于语音设备,语音设备包括预先训练完成的语音唤醒模型;装置包括:语音数据采集模块,用于采集语音数据;语音数据预处理模块,用于对语音数据进行预处理;预处理包括降噪和/或消除回声;唤醒结果输出模块,用于将预处理后的语音数据输入语音唤醒模型中,得到唤醒结果;语音数据发送模块,用于如果唤醒结果表征语音唤醒成功,将预处理后的语音数据发送至云端,以使设置在云端的语音内容识别模型识别语音数据的语音内容。
[0015]第三方面,本专利技术实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述的语音数据处理方法的步骤。
[0016]第四方面,本专利技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的语音数据处理方法的步骤。
[0017]本专利技术实施例带来了以下有益效果:
[0018]本专利技术实施例提供的一种语音数据处理方法、装置和电子设备,可以在语音设备中对语音数据进行预处理,将预处理后的语音数据输入语音唤醒模型中,得到唤醒结果,如果唤醒结果表征语音唤醒成功,将预处理后的语音数据发送至云端,由云端的语音内容识别模型识别语音数据的语音内容。该方式中,预处理和语音唤醒的流程可以在语音设备中离线处理,语音内容识别可以在云端进行处理,可以减少神经网络模型的训练时间和训练难度,提升训练效果,加快响应速度,降低云端识别系统开发难度,有助于后期维护和优化。
[0019]本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0020]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0021]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本专利技术实施例提供的一种语音数据处理方法的流程图;
[0023]图2为本专利技术实施例提供的另一种语音数据处理方法的流程图;
[0024]图3为本专利技术实施例提供的一种语音数据处理方法的示意图;
[0025]图4为本专利技术实施例提供的一种语音数据处理装置的结构示意图;
...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,应用于语音设备,所述语音设备包括预先训练完成的语音唤醒模型;所述方法包括:采集语音数据;对所述语音数据进行预处理;所述预处理包括降噪和/或消除回声;将预处理后的所述语音数据输入所述语音唤醒模型中,得到唤醒结果;如果所述唤醒结果表征语音唤醒成功,将预处理后的所述语音数据发送至云端,以使设置在所述云端的语音内容识别模型识别所述语音数据的语音内容。2.根据权利要求1所述的方法,其特征在于,所述语音数据包括来自所述语音设备的回声数据和来自所述语音设备所处环境的环境数据;所述语音设备包括通道控制器和与所述通道控制器连接的麦克风;所述麦克风包括用于采集所述环境数据的第一通道和第二通道,以及用于采集所述回声数据的第三通道;采集语音数据的步骤,包括:通过所述通道控制器确定当前语音采集选用的目标通道;如果所述目标通道为所述第一通道和所述第二通道,通过所述第一通道和所述第二通道采集所述环境数据;如果所述目标通道为所述第三通道,通过所述第三通道采集所述回声数据。3.根据权利要求2所述的方法,其特征在于,通过所述第一通道和所述第二通道采集所述环境数据的步骤,包括:通过所述第一通道采集第一环境数据;通过所述第二通道采集第二环境数据;计算所述第一环境数据和所述第二环境数据的均值,将所述均值作为所述环境数据。4.根据权利要求2所述的方法,其特征在于,对所述语音数据进行预处理的步骤,包括:判断所述语音数据中是否包含所述回声数据;如果是,消除所述语音数据中的回声数据,并且降低所述语音数据中的噪声;如果否,降低所述语音数据中的噪声。5.根据权利要求4所述的方法,其特征在于,降低所述语音数据中的噪声的步骤,至少包括以下之一:将所述语音数据输入预先训练完成的神经网络降噪模型,输出降噪后的声音数据;对所述语音数据进行非线性化处理,对非线性化处理后的所述语音数据进行降噪;基于预设的谱减降噪算法...

【专利技术属性】
技术研发人员:孙廷玮曹海涛李家科宋国瑞
申请(专利权)人:美的集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1