音频数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37134595 阅读：19 留言：0更新日期：2023-04-06 21:33

本发明专利技术公开了一种音频数据处理方法、装置、电子设备及存储介质，该方法通过调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵，然后确定待处理音频数据的第二音素预测矩阵，并根据第一音素预测矩阵和待处理音频数据的第二音素预测矩阵确定目标音素预测矩阵，最后根据目标音素预测矩阵确定待处理音频数据与预设的关键词的匹配结果，从而能够根据匹配结果判定待处理音频数据是否为用户个性化定制的关键词，进而实现语音唤醒功能。采用本发明专利技术实施例，能够解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。的需求的问题。的需求的问题。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据处理方法、装置、电子设备及存储介质

[0001]本专利技术涉及语音识别
，尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]语音唤醒功能是当前人机交互系统的必备功能之一，广泛应用于智能音箱、车载、手机等智能语音系统。但目前主流的语音唤醒系统，大多是基于单个唤醒词的深度定制，其模型只能针对一个固定的唤醒词进行唤醒响应，无法满足用户个性化定制唤醒词，乃至个性化定制命令词的需求。

技术实现思路

[0003]本专利技术实施例的目的是提供一种音频数据处理方法、装置、电子设备及存储介质，以解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。
[0004]第一方面，本专利技术实施例提供了一种音频数据处理方法，包括：
[0005]调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵；
[0006]确定待处理音频数据的第二音素预测矩阵；
[0007]根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵；
[...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法，其特征在于，包括：调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵；确定所述待处理音频数据的第二音素预测矩阵；根据所述第一音素预测矩阵和所述第二音素预测矩阵，确定目标音素预测矩阵；根据所述目标音素预测矩阵，确定所述待处理音频数据与预设的关键词的匹配结果。2.如权利要求1所述的方法，其特征在于，所述调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵之前，还包括：对获取的多个音频数据进行转换处理，得到与各所述音频数据对应的多个音素字符串；以所述多个音频数据作为待训练的语音识别模型的输入数据，以所述多个音素字符串作为所述待训练的语音识别模型的标签数据构建训练样本集合；所述待训练的语音识别模型依次由卷积层、池化层、翻译层以及全连接层相连接而构成；根据所述训练样本集合中的训练样本，对所述待训练的语音识别模型进行训练，并基于设定的目标损失函数进行模型参数优化以生成所述已训练的语音识别模型。3.如权利要求2所述的方法，其特征在于，所述对获取的多个音频数据进行转换处理，得到与各所述音频数据对应的多个音素字符串，包括：将获取的多个音频数据的中文标签转换为对应的多个拼音序列，得到与所述多个音频数据对应的多个音素字符串。4.如权利要求1
‑
3任一项所述的方法，其特征在于，所述确定所述待处理音频数据的第二音素预测矩阵，包括：将预设的关键词转换为关键音素字符串；根据所述关键音素字符串，构建所述待处理音频数据的第二音素预测矩阵；其中，所述第二音素预测矩阵中的所述关键音素字符串的概率值为第一预设阈值，除所述关键音素字符串外的其他音素字符串的概率值为第二预设阈值，所述第一预设阈值大于所述第二预设阈值。5.如权利要求4所述的方法，其特征在于，所述根据所述第一音素预测矩阵和所述第二音素预测矩阵，确定目标音素预测矩阵，包括：将所述第一音素预测矩阵中音素字符串的概率值，对应加上所述第二音...

【专利技术属性】
技术研发人员：唐延欢，
申请(专利权)人：TCL科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人