语音处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：39420224 阅读：21 留言：0更新日期：2023-11-19 16:09

本公开涉及语音识别技术领域，公开了语音处理方法、装置、计算机设备及存储介质，本公开提供的方法包括获取待识别语音，待识别语音用于对目标对象进行语音控制；将待识别语音输入语音识别模型中，得到语音识别结果，语音识别模型是基于样本语音的特征以及样本语音的文本标注分别进行编码并融合后的数据训练得到的；基于语音识别结果以及目标对象的预设控制信息，对目标对象进行控制。由于语音识别模型是基于样本语音的特征以及样本语音的文本标注分别编码并融合后的数据训练得到的，使得语音识别模型的声学编码更加关心文本标注的发音，提高了语音识别模型的准确性，从而提高了语音识别结果的准确性，进而提高了语音交互的效果。效果。效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、计算机设备及存储介质

[0001]本公开涉及语音识别领域，具体涉及语音处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]在语音处理中，关键字检测技术(keyword
‑
spotting detection，简称为KWS)是指检测音频流中的特定单词或短语(通常称为关键字)的技术。该技术被广泛应用于各种终端设备中作为语音交互的入口组件，例如，智能家居的设备唤醒和设备操控，智能座舱的人车语音交互等等。为了实现较好的语音交互效果，对语音识别的准确性具有较高的要求。

技术实现思路

[0003]有鉴于此，本公开提供了一种语音处理方法、装置、计算机设备及存储介质，以解决由于语音识别的准确性带来的语音交互效果的问题。
[0004]第一方面，本公开提供了一种语音识别方法，所述方法包括：
[0005]获取待识别语音，所述待识别语音用于对目标对象进行语音控制；
[0006]将所述待识别语音输入语音识别模型中，得到语音识别结果，所述语音识别模型是基于样本语音的...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取待识别语音，所述待识别语音用于对目标对象进行语音控制；将所述待识别语音输入语音识别模型中，得到语音识别结果，所述语音识别模型是基于样本语音的特征以及样本语音的文本标注分别进行编码并融合后的数据训练得到的；基于所述语音识别结果以及所述目标对象的预设控制信息，对所述目标对象进行控制。2.根据权利要求1所述的方法，其特征在于，所述语音识别模型是通过如下方式得到的：获取所述样本语音的特征以及所述文本标注；将所述样本语音的特征以及所述文本标注分别输入预设语音识别模型中，得到所述样本语音的预测文本，所述预设语音识别模型包括声学编码器、文本编码器、注意力单元以及预测单元，所述声学编码器用于对所述样本语音的特征进行编码得到第一编码信息，所述文本编码器用于对所述文本标注进行编码得到第二编码信息，所述注意力单元用于基于所述第一编码信息以及所述第二编码信息进行注意力处理得到融合编码信息，所述预测单元用于基于所述第一编码信息以及所述融合编码信息进行预测得到所述预测文本；基于所述预测文本以及所述文本标注，更新所述预设语音识别模型的参数，以确定所述语音识别模型。3.根据权利要求2所述的方法，其特征在于，获取所述文本标注包括：获取所述样本语音的标注文本；将所述标注文本转换为标注音节；基于音节与数字标识得到对应关系，确定所述标注文本对应的目标数字标识，以得到所述文本标注。4.根据权利要求1所述的方法，其特征在于，所述预设控制信息的确定方式包括：获取自定义语音以及所述自定义语音对应的自定义文本；将所述自定义语音的特征以及所述自定义文本输入所述语音识别模型中，以得到所述预设控制信息。5.根据权利要求4所述的方法，其特征在于，所述将所述自定义语音以及所述自定义文本输入所述语音识别模型中，以得到所述预设控制信息，包括：将所述自定义语音的特...

【专利技术属性】
技术研发人员：范文之，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人