一种基音混合方法及装置制造方法及图纸

技术编号：24332706 阅读：56 留言：0更新日期：2020-05-29 20:29

本发明专利技术实施例提供了一种基音混合方法及装置，应用于人工智能系统，所述方法包括：当所述人工智能系统接收唤醒指令时，获取当前的环境音频数据；接收用户输入的用户音频数据；将所述环境音频数据拆分成拆分音频数据；合并所述用户音频数据与所述多路拆分音频数据，生成混合音频数据。本实施例提出的方法操作简便，可以从语音数据中提取出各个语言特征以及不同的语音数据，并利用不同的语音数据或语音特征和预设的语音数据进行混合，可以实现人工智能系统的基音混合，同时在混合过程中的计算量小，也降低了系统功耗，而且可以采用混合音频数据进行语音训练，也提高了人工智能系统识别的准确度，可以准确识别用户的指令。

A method and device of pitch mixing

全部详细技术资料下载

【技术实现步骤摘要】
一种基音混合方法及装置
本专利技术涉及互联网
，特别是涉及一种基音混合方法以及一种基音混合装置。
技术介绍
随着互联网的不断普及，人工智能系统也逐渐进入人们的生活一部分，为人们生活提供便利。人工智能系统可以通过识别用户的语音数据，从而执行语音数据对应的操作，为用户的生活提供便利。目前的人工智能系统都是在获取语音数据后，执行对应的操作。为了可以提高识别识别的准确率，普遍采用人工录制以及人工标注的方式，得到用于训练深度神经元网络的语音数据。而常用的方法只能标注人声或单一声音，混音方法单一，范围窄，只能按照单一声音进行混合利用，大大限制了人工智能系统的工作。
技术实现思路
鉴于上述问题，提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基音混合方法以及一种基音混合装置。为了解决上述问题，本专利技术实施例公开了一种基音混合方法，所述方法应用于人工智能系统，所述方法包括；当所述人工智能系统接收唤醒指令时，获取当前的环境音频数据；接收用...

【技术保护点】
1.一种基音混合方法，其特征在于，应用于人工智能系统，所述方法包括：/n当所述人工智能系统接收唤醒指令时，获取当前的环境音频数据；/n接收用户输入的用户音频数据；/n将所述环境音频数据拆分成拆分音频数据；/n合并所述用户音频数据与所述多路拆分音频数据，生成混合音频数据。/n

【技术特征摘要】
1.一种基音混合方法，其特征在于，应用于人工智能系统，所述方法包括：
当所述人工智能系统接收唤醒指令时，获取当前的环境音频数据；
接收用户输入的用户音频数据；
将所述环境音频数据拆分成拆分音频数据；
合并所述用户音频数据与所述多路拆分音频数据，生成混合音频数据。

2.根据权利要求1所述的方法，其特征在于，所述拆分音频数据包括人声数据、噪声数据，所述将所述环境音频数据拆分成拆分音频数据，包括：
采用预设的声音检测模型识别所述环境音频数据的音频波形；
计算所述音频波的幅值是否大于预设值；
若所述音频波形的幅值大于预设值，则将所述环境音频数据拆分成人声数据和噪声数据。

3.根据权利要求2所述的方法，其特征在于，所述合并所述用户音频数据与所述多路拆分音频数据，包括：
获取所述用户音频数据的用户波形，与所述人声数据的人声波形；
判断所述用户波形与所述人声波形是否相同；
若所述用户波形与所述人声波形相同，则合并所述用户音频数据与所述环境音频数据，生成混合音频数据；
若所述用户波形与所述人声波形不相同，则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并，生成混合音频数据。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：
若所述音频波形的幅值小于预设值，则分别从所述用户音频数据中提取用户语音特征，和从所述环境音频数据中提取环境音频特征；
合并所述用户语音特征和所述环境音频特征，生成训练语音特征；
采用所述训练语音特征进行语音训练。

5.一种基音混合装置，其特征在于，应用于人工智能系统，所述装置包括：
获取模块，用于当所述人工智能系统接收唤醒指令时，获取当前的环境音频数据；
接收模块，用于接收用户输入的用户音频数据；
拆分模块，用于将所述环境音频数据拆...

【专利技术属性】
技术研发人员：张尉雄，
申请(专利权)人：深圳市瑞讯云技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人