语音数据处理方法、装置和电子设备制造方法及图纸

技术编号：34503989 阅读：19 留言：0更新日期：2022-08-13 20:45

本发明专利技术提供了一种语音数据处理方法、装置和电子设备。其中，该方法应用于语音设备，语音设备包括预先训练完成的语音唤醒模型；该方法包括：采集语音数据；对语音数据进行预处理；预处理包括降噪和/或消除回声；将预处理后的语音数据输入语音唤醒模型中，得到唤醒结果；如果唤醒结果表征语音唤醒成功，将预处理后的语音数据发送至云端，以使设置在云端的语音内容识别模型识别语音数据的语音内容。该方式中，预处理和语音唤醒的流程可以在语音设备中离线处理，语音内容识别可以在云端进行处理，可以减少神经网络模型的训练时间和训练难度，提升训练效果，加快响应速度，降低云端识别系统开发难度，有助于后期维护和优化。有助于后期维护和优化。有助于后期维护和优化。

全部详细技术资料下载

【技术实现步骤摘要】
语音数据处理方法、装置和电子设备

[0001]本专利技术涉及语音识别
，尤其是涉及一种语音数据处理方法、装置和电子设备。

技术介绍

[0002]语音前端处理，一般是指为了达到更好的识别效果，在语音信号输入到语音识别系统之前对语音信号进行的一些预处理。例如，在实际生活中，为了使语音识别系统能在嘈杂的环境中达到很好的识别效果，需要降低语音信号中的噪声水平，这就是一种语音前端处理的方式。
[0003]实际应用中的语音识别系统一般包含两部分功能，第一部分是语音唤醒，第二部分是语音内容识别，在实际使用过程中，用户需要说出特定的唤醒词并成功进行语音唤醒之后，才能进行后续的语音内容识别。现有的语音识别系统的服务及产品，大多都是把这两部分放在一起进行处理，即建立同一套语音信号处理机制，以及同一套声学模型和语言模型。
[0004]然而，目前的语音识别系统大都基于深度学习技术，通过对超大语料库的训练和学习来建立声学模型和语言模型。如果语音唤醒和语音内容识别共用一套处理机制，那么将需要更大的语料库和更复杂的模型结构，使得训练时间变长，训练难度加大。同时，利用深度学习技术建立语音识别系统，往往会忽略对数据的预处理，这会使得训练更加困难，比如，带噪声的语料中语音特征不明显，会使得训练不容易收敛，训练效果不好。另外，一般大型的连续语音识别系统都建立在云端，需要联网才能进行语音唤醒和识别，这将会带来一定的时间延迟，而为了有更好的使用体验，用户都希望语音唤醒能够快速响应，这个要求将进一步加大建立识别模型的难度。
专利技

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，应用于语音设备，所述语音设备包括预先训练完成的语音唤醒模型；所述方法包括：采集语音数据；对所述语音数据进行预处理；所述预处理包括降噪和/或消除回声；将预处理后的所述语音数据输入所述语音唤醒模型中，得到唤醒结果；如果所述唤醒结果表征语音唤醒成功，将预处理后的所述语音数据发送至云端，以使设置在所述云端的语音内容识别模型识别所述语音数据的语音内容。2.根据权利要求1所述的方法，其特征在于，所述语音数据包括来自所述语音设备的回声数据和来自所述语音设备所处环境的环境数据；所述语音设备包括通道控制器和与所述通道控制器连接的麦克风；所述麦克风包括用于采集所述环境数据的第一通道和第二通道，以及用于采集所述回声数据的第三通道；采集语音数据的步骤，包括：通过所述通道控制器确定当前语音采集选用的目标通道；如果所述目标通道为所述第一通道和所述第二通道，通过所述第一通道和所述第二通道采集所述环境数据；如果所述目标通道为所述第三通道，通过所述第三通道采集所述回声数据。3.根据权利要求2所述的方法，其特征在于，通过所述第一通道和所述第二通道采集所述环境数据的步骤，包括：通过所述第一通道采集第一环境数据；通过所述第二通道采集第二环境数据；计算所述第一环境数据和所述第二环境数据的均值，将所述均值作为所述环境数据。4.根据权利要求2所述的方法，其特征在于，对所述语音数据进行预处理的步骤，包括：判断所述语音数据中是否包含所述回声数据；如果是，消除所述语音数据中的回声数据，并且降低所述语音数据中的噪声；如果否，降低所述语音数据中的噪声。5.根据权利要求4所述的方法，其特征在于，降低所述语音数据中的噪声的步骤，至少包括以下之一：将所述语音数据输入预先训练完成的神经网络降噪模型，输出降噪后的声音数据；对所述语音数据进行非线性化处理，对非线性化处理后的所述语音数据进行降噪；基于预设的谱减降噪算法...

【专利技术属性】
技术研发人员：孙廷玮，曹海涛，李家科，宋国瑞，
申请(专利权)人：美的集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人