基于人工智能的音频处理方法和装置制造方法及图纸

技术编号：15642656 阅读：62 留言：0更新日期：2017-06-16 16:13

本申请公开了基于人工智能的音频处理方法和装置。该方法的一具体实施方式包括：转换待处理音频为待处理图片；提取待处理图片的内容特征；根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；将目标图片转换为处理后的音频。该实施方式在不改变待处理音频的内容的同时，实现了处理后的音频带有模板音频风格的处理效果，提高了音频处理的效率和灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的音频处理方法和装置
本申请涉及计算机
，具体涉及音频处理领域，尤其涉及基于人工智能的音频处理方法和装置。
技术介绍
人工智能(ArtificialIntelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。目前的对音频的处理主要有以下两种，一种是通过改变音频的基频或者共振峰对音频进行处理；另一种是语音合成，进行语音合成时，首先要采集带标注的模板音频的数据，然后基于采集到的数据训练模型，模型的输入为文本，因此需要先对待合成的音频首先要进行语音识别，再将识别出的文本输入训练好的模型生成音频。上述第一种方法对音频的处理缺乏灵活性，不能实现很好的处理效果，第二种方法所需样本音频数据量大，且处理时需要先将待处理音频转换为文本，处理效率低。
技术实现思路
本申请的目的在于提出一种改进的基于人工智能的音频处理方法和装置，来解决以上
技术介绍
部分提到的技术问题。第一方面，本申请提供了一种基于人工智能的音频处理方法，该方法包括：转换待处理音频为待处理图片；提取待处理图片的内容特征；根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；将目标图片转换为处理后的音频。在一些实施例中，转换待处理音频为待处理图片，包括：按照预设时间间隔将待处理音频切分为音频片段；将音频片段的声波图...
基于人工智能的音频处理方法和装置

【技术保护点】
一种基于人工智能的音频处理方法，其特征在于，所述方法包括：转换待处理音频为待处理图片；提取所述待处理图片的内容特征；根据风格特征和所述待处理图片的内容特征确定目标图片，所述风格特征从模板音频转换成的模板图片中得到；将所述目标图片转换为处理后的音频。

【技术特征摘要】
1.一种基于人工智能的音频处理方法，其特征在于，所述方法包括：转换待处理音频为待处理图片；提取所述待处理图片的内容特征；根据风格特征和所述待处理图片的内容特征确定目标图片，所述风格特征从模板音频转换成的模板图片中得到；将所述目标图片转换为处理后的音频。2.根据权利要求1所述的方法，其特征在于，所述转换待处理音频为待处理图片，包括：按照预设时间间隔将所述待处理音频切分为音频片段；将所述音频片段的声波图、频谱图或语谱图确定为待处理图片。3.根据权利要求1所述的方法，其特征在于，所述提取所述待处理图片的内容特征，包括：将所述待处理图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；将所述卷积神经网络中至少一个卷积层输出的矩阵，作为所述待处理图片的内容特征。4.根据权利要求1所述的方法，其特征在于，所述风格特征是经由以下步骤确定的：将所述模板图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；将所述卷积神经网络中至少一个卷积层输出的矩阵作为所述模板图片的风格特征。5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据风格特征和所述待处理图片的内容特征确定目标图片，包括：将所述待处理图片的内容特征导入预设的风格迁移模型，获取所述风格迁移模型的输出作为目标图片。6.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据风格特征和所述待处理图片的内容特征确定目标图片，包括：提取初始目标图片的内容特征和风格特征；根据所述待处理图片的内容特征，和所述初始目标图片的内容特征确定内容损失函数；根据所述模板图片的风格特征，和所述初始目标图片的风格特征确定风格损失函数；根据所述内容损失函数和所述风格损失函数确定总损失函数；根据所述总损失函数调整所述初始目标图片，得到目标图片。7.根据权利要求6所述的方法，其特征在于，所述内容损失函数根据所述待处理图片的内容特征和所述初始目标图片的内容特征的均方差得到。8.根据权利要求6所述的方法，其特征在于，所述风格损失函数根据以下步骤确定：根据所述模板图片的风格特征和所述初始目标图片的风格特征，分别确定所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵；根据所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵的均方差，确定所述风格损失函数。9.根据权利要求6所述的方法，其特征在于，所述总损失函数根据加权后的所述内容损失函数和加权后的所述风格损失函数之和得到。10.根据权利要求6所述的方法，其特征在于，所述根据所述总损失函数调整所述初始目标图片，得到目标图片，进一步包括：基于梯度下降法和所述总损失函数调整所述初始目标图片，使得所述总损失函数取得极小值；将所述总损失函数的极小值对应的调整后的图片作为目标图片。11.一种基于人工智能的音频处理装置，其特征在于，所述装置包括：第一转换单元，用于转换待处理音频为待处理图片...

【专利技术属性】
技术研发人员：王知践，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人