语音唤醒及模型训练方法、装置、相关设备及程序产品制造方法及图纸

技术编号:45646985 阅读:23 留言:0更新日期:2025-06-27 18:51
本申请公开了一种语音唤醒及模型训练方法、装置、相关设备及程序产品,在训练语音唤醒模型时所采用的第一训练数据同时包含了本地录制音频及第一合成音频,该第一合成音频是基于本地录制音频的声纹特征,及第一文本所合成的音频。本申请仅需收集少量的真实用户录制音频用于提取声纹特征,即可合成第一文本的音频,降低了人工录制音频的成本,合成音频是以本地录制音频的声纹特征作为指导,使得合成音频更贴近于真实用户的录制音频,第一训练数据可以覆盖更多的地方口音和个人说话风格。第一文本覆盖语音唤醒模型的使用场景下的完备说法,保证合成音频可以覆盖完备说法,提升了训练后的语音唤醒模型的唤醒效果。

【技术实现步骤摘要】

本申请涉及语音信号处理,更具体的说,是涉及一种语音唤醒及模型训练方法、装置、相关设备及程序产品


技术介绍

1、语音唤醒技术的日益成熟使得智能家具、车载等具备更高的可交互性,极大程度上便利了用户的日常生活。

2、现有语音唤醒训练方案一般基于大量录制音频构造训练数据,训练预先构建的唤醒模型。大量的录制音频数据无疑会增加录制时间及人力成本。为降低成本,现有唤醒方案结合语音合成技术,用合成数据或真实、合成音频的混合数据构造训练数据,有效节省录制的时间和人力成本。现有语音合成技术主要包含语言分析和声学系统两部分,语言分析针对输入文本进行结构判断、音素转换以及韵律预测,声学系统基于文本信息合成音频。采用该语音合成技术所合成的音频风格单一,往往难以覆盖地方口音或较强的个人说话风格,进而导致训练出来的语音识别模型对部分用户的唤醒效果较差。


技术实现思路

1、鉴于上述问题,提出了本申请以便提供一种语音唤醒及模型训练方法、装置、相关设备及程序产品,以提高语音唤醒模型的唤醒效果。具体方案如下:p>

2、第一方本文档来自技高网...

【技术保护点】

1.一种语音唤醒模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一训练数据过程,包括:

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,所述第二文本还包括:待优化说法,所述待优化说法为根据用户真实使用所汇总的唤醒率低于设定阈值的说法。

5.根据权利要求3所述的方法,其特征在于,提取所述回流音频数据的声纹特征的过程,包括:

6.根据权利要求5所述的方法,其特征在于,基于所述回流音频数据的声纹特征及所述第二文本进行语音合成,得到第二合成音频的过程,包...

【技术特征摘要】

1.一种语音唤醒模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一训练数据过程,包括:

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,所述第二文本还包括:待优化说法,所述待优化说法为根据用户真实使用所汇总的唤醒率低于设定阈值的说法。

5.根据权利要求3所述的方法,其特征在于,提取所述回流音频数据的声纹特征的过程,包括:

6.根据权利要求5所述的方法,其特征在于,基于所述回流音频数据的声纹特征及所述第二文本进行语音合成,得到第二合成音频的过程,包括:

7.根据权利要求6所述的方法,其特征...

【专利技术属性】
技术研发人员:龚婷婷潘嘉吴航申凯熊世富高建清刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1