基于人工智能的音频处理方法和装置制造方法及图纸

技术编号:15642656 阅读:62 留言:0更新日期:2017-06-16 16:13
本申请公开了基于人工智能的音频处理方法和装置。该方法的一具体实施方式包括:转换待处理音频为待处理图片;提取待处理图片的内容特征;根据风格特征和待处理图片的内容特征确定目标图片,风格特征从模板音频转换成的模板图片中得到;将目标图片转换为处理后的音频。该实施方式在不改变待处理音频的内容的同时,实现了处理后的音频带有模板音频风格的处理效果,提高了音频处理的效率和灵活性。

【技术实现步骤摘要】
基于人工智能的音频处理方法和装置
本申请涉及计算机
,具体涉及音频处理领域,尤其涉及基于人工智能的音频处理方法和装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。目前的对音频的处理主要有以下两种,一种是通过改变音频的基频或者共振峰对音频进行处理;另一种是语音合成,进行语音合成时,首先要采集带标注的模板音频的数据,然后基于采集到的数据训练模型,模型的输入为文本,因此需要先对待合成的音频首先要进行语音识别,再将识别出的文本输入训练好的模型生成音频。上述第一种方法对音频的处理缺乏灵活性,不能实现很好的处理效果,第二种方法所需样本音频数据量大,且处理时需要先将待处理音频转换为文本,处理效率低。
技术实现思路
本申请的目的在于提出一种改进的基于人工智能的音频处理方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种基于人工智能的音频处理方法,该方法包括:转换待处理音频为待处理图片;提取待处理图片的内容特征;根据风格特征和待处理图片的内容特征确定目标图片,风格特征从模板音频转换成的模板图片中得到;将目标图片转换为处理后的音频。在一些实施例中,转换待处理音频为待处理图片,包括:按照预设时间间隔将待处理音频切分为音频片段;将音频片段的声波图、频谱图或语谱图确定为待处理图片。在一些实施例中,提取待处理图片的内容特征,包括:将待处理图片输入预先训练的卷积神经网络,卷积神经网络用于提取图像特征;将卷积神经网络中至少一个卷积层输出的矩阵,作为待处理图片的内容特征。在一些实施例中,风格特征是经由以下步骤确定的:将模板图片输入预先训练的卷积神经网络,卷积神经网络用于提取图像特征;将卷积神经网络中至少一个卷积层输出的矩阵作为模板图片的风格特征。在一些实施例中,根据风格特征和待处理图片的内容特征确定目标图片,包括:将待处理图片的内容特征导入预设的风格迁移模型,获取风格迁移模型的输出作为目标图片。在一些实施例中,根据风格特征和待处理图片的内容特征确定目标图片,包括:提取初始目标图片的内容特征和风格特征;根据待处理图片的内容特征,和初始目标图片的内容特征确定内容损失函数;根据模板图片的风格特征,和初始目标图片的风格特征确定风格损失函数;根据内容损失函数和风格损失函数确定总损失函数;根据总损失函数调整初始目标图片,得到目标图片。在一些实施例中,内容损失函数根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到。在一些实施例中,风格损失函数根据以下步骤确定:根据模板图片的风格特征和初始目标图片的风格特征,分别确定模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵;根据模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵的均方差,确定风格损失函数。在一些实施例中,总损失函数根据加权后的内容损失函数和加权后的风格损失函数之和得到。在一些实施例中,根据总损失函数调整初始目标图片,得到目标图片,进一步包括:基于梯度下降法和总损失函数调整初始目标图片,使得总损失函数取得极小值;将总损失函数的极小值对应的调整后的图片作为目标图片。第二方面,本申请提供了一种基于人工智能的音频处理的装置,该装置包括:第一转换单元,用于转换待处理音频为待处理图片;提取单元,用于提取待处理图片的内容特征;确定单元,用于根据风格特征和待处理图片的内容特征确定目标图片,风格特征从模板音频转换成的模板图片中得到;第二转换单元,用于将目标图片转换为处理后的音频。在一些实施例中,第一转换单元包括:切分子单元,用于按照预设时间间隔将待处理音频切分为音频片段;待处理图片确定子单元,用于将音频片段的声波图、频谱图或语谱图确定为待处理图片。在一些实施例中,提取单元包括:输入子单元,用于将待处理图片输入预先训练的卷积神经网络,卷积神经网络用于提取图像特征;内容特征确定子单元,用于将卷积神经网络中至少一个卷积层输出的矩阵,作为待处理图片的内容特征。在一些实施例中,装置还包括:风格特征确定单元,用于将模板图片输入预先训练的卷积神经网络,卷积神经网络用于提取图像特征;将卷积神经网络中至少一个卷积层输出的矩阵作为模板图片的风格特征。在一些实施例中,确定单元进一步用于:将待处理图片的内容特征导入预设的风格迁移模型,获取风格迁移模型的输出作为目标图片。在一些实施例中,确定单元包括:提取子单元,用于提取初始目标图片的内容特征和风格特征;内容损失函数确定子单元,用于根据待处理图片的内容特征,和初始目标图片的内容特征确定内容损失函数;风格损失函数确定子单元,用于根据模板图片的风格特征,和初始目标图片的风格特征确定风格损失函数;总损失函数确定子单元,用于根据内容损失函数和风格损失函数确定总损失函数;调整子单元,用于根据总损失函数调整初始目标图片,得到目标图片。在一些实施例中,内容损失函数确定子单元进一步用于:根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到内容损失函数。在一些实施例中,风格损失函数确定子单元进一步用于:根据模板图片的风格特征和初始目标图片的风格特征,分别确定模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵;根据模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵的均方差,确定风格损失函数。在一些实施例中,总损失函数确定子单元进一步用于:根据加权后的内容损失函数和加权后的风格损失函数之和得到总损失函数。在一些实施例中,其特征在于,调整子单元进一步用于:基于梯度下降法和总损失函数调整初始目标图片,使得总损失函数取得极小值;将总损失函数的极小值对应的调整后的图片作为目标图片。本申请提供的音频处理方法和装置,通过转换待处理音频为待处理图片,而后提取待处理图片的内容特征,之后根据风格特征和待处理图片的内容特征确定目标图片,最后将目标图片转换为处理后的音频,在不改变待处理音频的内容的同时,实现了处理后的音频带有模板音频风格的处理效果,提高了音频处理的效率和灵活性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的音频处理方法的一个实施例的示意性流程图;图3A是根据本申请的音频处理方法的应用场景中待处理图片的示意图;图3B是根据本申请的音频处理方法的应用场景中风格图片的示意图;图3C是根据本申请的音频处理方法的应用场景中目标图片的示意图;图3D是根据本申请的音频处理方法的应用场景中语谱图的示意图;图4是根据本申请的音频处理方法的又一个实施例的示意性流程图;图5是根据本申请的音频处理的装置的一个实施例的示例性结构图;图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了本文档来自技高网...
基于人工智能的音频处理方法和装置

【技术保护点】
一种基于人工智能的音频处理方法,其特征在于,所述方法包括:转换待处理音频为待处理图片;提取所述待处理图片的内容特征;根据风格特征和所述待处理图片的内容特征确定目标图片,所述风格特征从模板音频转换成的模板图片中得到;将所述目标图片转换为处理后的音频。

【技术特征摘要】
1.一种基于人工智能的音频处理方法,其特征在于,所述方法包括:转换待处理音频为待处理图片;提取所述待处理图片的内容特征;根据风格特征和所述待处理图片的内容特征确定目标图片,所述风格特征从模板音频转换成的模板图片中得到;将所述目标图片转换为处理后的音频。2.根据权利要求1所述的方法,其特征在于,所述转换待处理音频为待处理图片,包括:按照预设时间间隔将所述待处理音频切分为音频片段;将所述音频片段的声波图、频谱图或语谱图确定为待处理图片。3.根据权利要求1所述的方法,其特征在于,所述提取所述待处理图片的内容特征,包括:将所述待处理图片输入预先训练的卷积神经网络,所述卷积神经网络用于提取图像特征;将所述卷积神经网络中至少一个卷积层输出的矩阵,作为所述待处理图片的内容特征。4.根据权利要求1所述的方法,其特征在于,所述风格特征是经由以下步骤确定的:将所述模板图片输入预先训练的卷积神经网络,所述卷积神经网络用于提取图像特征;将所述卷积神经网络中至少一个卷积层输出的矩阵作为所述模板图片的风格特征。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据风格特征和所述待处理图片的内容特征确定目标图片,包括:将所述待处理图片的内容特征导入预设的风格迁移模型,获取所述风格迁移模型的输出作为目标图片。6.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据风格特征和所述待处理图片的内容特征确定目标图片,包括:提取初始目标图片的内容特征和风格特征;根据所述待处理图片的内容特征,和所述初始目标图片的内容特征确定内容损失函数;根据所述模板图片的风格特征,和所述初始目标图片的风格特征确定风格损失函数;根据所述内容损失函数和所述风格损失函数确定总损失函数;根据所述总损失函数调整所述初始目标图片,得到目标图片。7.根据权利要求6所述的方法,其特征在于,所述内容损失函数根据所述待处理图片的内容特征和所述初始目标图片的内容特征的均方差得到。8.根据权利要求6所述的方法,其特征在于,所述风格损失函数根据以下步骤确定:根据所述模板图片的风格特征和所述初始目标图片的风格特征,分别确定所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵;根据所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵的均方差,确定所述风格损失函数。9.根据权利要求6所述的方法,其特征在于,所述总损失函数根据加权后的所述内容损失函数和加权后的所述风格损失函数之和得到。10.根据权利要求6所述的方法,其特征在于,所述根据所述总损失函数调整所述初始目标图片,得到目标图片,进一步包括:基于梯度下降法和所述总损失函数调整所述初始目标图片,使得所述总损失函数取得极小值;将所述总损失函数的极小值对应的调整后的图片作为目标图片。11.一种基于人工智能的音频处理装置,其特征在于,所述装置包括:第一转换单元,用于转换待处理音频为待处理图片...

【专利技术属性】
技术研发人员:王知践
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1