基于自注意力的音频美化方法、装置、设备及存储介质制造方法及图纸

技术编号:38563318 阅读:10 留言:0更新日期:2023-08-22 21:02
本发明专利技术公开了一种基于自注意力的音频美化方法,该方法包括获取待处理音频;获取音频模型,对所有待处理音频进行内容提取,得到音频内容;对所有待处理音频进行音色提取,得到音频音色;对所有所述待处理音频进行能量提取,得到音频能量;将音频内容、音频音色和音频能量进行连接,得到音频特征;通过音频模型编码端对音频特征进行编码处理,得到编码特征;获取标准音频特征以及音频音高,通过音频模型解码端对标准音频特征、编码特征以及音频音高进行解码,得到美化音频。本发明专利技术通过在训练过程中采用训练加测试,使得整体的模型具有轻量化。通过引入位置嵌入和注意力机制,提高了模型的鲁棒性。引入能量特征并隐形表示,改善了音频质量。音频质量。音频质量。

【技术实现步骤摘要】
基于自注意力的音频美化方法、装置、设备及存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种基于自注意力的音频美化方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的不断的发展,数字音乐已经在网络上掀起了一轮又一轮的热潮。然而,绝大部分普通人由于技巧的欠缺导致发出的声音不太令人满意。因此,对音频进行美化是极其重要的。
[0003]现有技术中,对原始音频进行美化包括音高校准和音色美化两部分,现有的模型均是以生成式模型(CVAE)为主体,仅仅只能提取局部特征且感受野较小。而对音色的改变只是简单的线性处理,并不能很好地改善音质。再通过合成器将音高校准和音色美化后的音频进行融合,但合成音频质量不高,导致音频美化程度较低。

技术实现思路

[0004]本专利技术实施例提供一种基于自注意力的音频美化方法、装置、设备及存储介质,以解决现有技术中音频美化程度较低的问题。
[0005]一种基于自注意力的音频美化方法,包括:
[0006]获取至少一个待处理音频;
[0007]获取音频模型,通过所述音频模型中内容编码器对所有所述待处理音频进行内容提取,得到与各所述待处理音频对应的音频内容;
[0008]通过所述音频模型中音色编码器对所有所述待处理音频进行音色提取,得到与各所述待处理音频对应的音频音色;
[0009]通过所述音频模型中能量编码器对所有所述待处理音频进行能量提取,得到与各所述待处理音频对应的音频能量;
[0010]对所述音频内容、所述音频音色和所述音频能量进行位置嵌入,得到音频特征;
[0011]通过所述音频模型的编码端对所述音频特征进行编码处理,得到编码特征;
[0012]获取标准音频特征以及音频音高,通过所述音频模型的解码端对所述标准音频特征、所述编码特征以及所述音频音高进行解码,得到美化音频。
[0013]一种基于自注意力的音频美化装置,包括:
[0014]音频获取模块,用于获取至少一个待处理音频;
[0015]音频内容模块,用于获取音频模型,通过所述音频模型中内容编码器对所有所述待处理音频进行内容提取,得到与各所述待处理音频对应的音频内容;
[0016]音频音色模块,用于通过所述音频模型中音色编码器对所有所述待处理音频进行音色提取,得到与各所述待处理音频对应的音频音色;
[0017]音频能量模块,用于通过所述音频模型中能量编码器对所有所述待处理音频进行能量提取,得到与各所述待处理音频对应的音频能量;
[0018]音频特征模块,用于对所述音频内容、所述音频音色和所述音频能量进行位置嵌入,得到音频特征;
[0019]音频编码模块,用于通过所述音频模型的编码端对所述音频特征进行编码处理,得到编码特征;
[0020]音频解码模块,用于获取标准音频特征以及音频音高,通过所述音频模型的解码端对所述标准音频特征、所述编码特征以及所述音频音高进行解码,得到美化音频。
[0021]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于自注意力的音频美化方法。
[0022]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于自注意力的音频美化方法。
[0023]本专利技术提供一种基于自注意力的音频美化方法、装置、设备及存储介质,该方法通过音频模型分别对待处理音频中的能量、内容和音色进行提取,实现了对音频中的音频能量、音频内容以及音频音色的提取,实现了对音频中噪音和杂音的剔除,进而通过加入能量特征并隐形表示,提高了音频美化程度。通过加入位置向量和音频模型中注意力机制,明确了对音色改善的位置。通过音高预测器对待处理音频的音高进行预测,使得音高校准更加准确,进而在改变音高的同时,保持音色特征不变。并通过音频模型中解码端将标准音频特征、编码特征和音频音高进行解码,实现了对音频中音高和音色的美化,进而实现了对美化音频的确定。
附图说明
[0024]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术一实施例中基于自注意力的音频美化方法的应用环境示意图;
[0026]图2是本专利技术一实施例中基于自注意力的音频美化方法的流程图;
[0027]图3是本专利技术一实施例中基于自注意力的音频美化方法步骤S20的流程图;
[0028]图4是本专利技术一实施例中基于自注意力的音频美化方法步骤S60的流程图;
[0029]图5是本专利技术一实施例中基于自注意力的音频美化装置的原理框图;
[0030]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]本专利技术实施例提供的基于自注意力的音频美化方法,该基于自注意力的音频美化方法可应用如图1所示的应用环境中。具体地,该基于自注意力的音频美化方法应用在基于
自注意力的音频美化装置中,该基于自注意力的音频美化装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中音频美化程度较低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
[0033]在一实施例中,如图2所示,提供一种基于自注意力的音频美化方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0034]S10:获取至少一个待处理音频。
[0035]可理解地,待处理音频可以是普通人演唱的歌曲,亦或者可以是不同人之间的谈话,或者一个人的朗诵转换后得到的二维频域数据即梅尔频谱。待处理音频可以是从不同数据库中采集得到的,也可以是从客户端发送到数据库中的预先准备好的。例如,普通人所唱的歌曲,或者某首诗歌的朗诵的梅尔频谱图。
[0036]S20:获取音频模型,通过所述音频模型中内容编码器对所有所述待处理音频进行内容提取,得到与各所述待处理音频对应的音频内容。
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力的音频美化方法,其特征在于,包括:获取至少一个待处理音频;获取音频模型,通过所述音频模型中内容编码器对所有所述待处理音频进行内容提取,得到与各所述待处理音频对应的音频内容;通过所述音频模型中音色编码器对所有所述待处理音频进行音色提取,得到与各所述待处理音频对应的音频音色;通过所述音频模型中能量编码器对所有所述待处理音频进行能量提取,得到与各所述待处理音频对应的音频能量;对所述音频内容、所述音频音色和所述音频能量进行位置嵌入,得到音频特征;通过所述音频模型的编码端对所述音频特征进行编码处理,得到编码特征;获取标准音频特征以及音频音高,通过所述音频模型的解码端对所述标准音频特征、所述编码特征以及所述音频音高进行解码,得到美化音频。2.如权利要求1所述的基于自注意力的音频美化方法,其特征在于,所述通过所述音频模型中内容编码器对所有所述待处理音频进行内容提取,得到与各所述待处理音频对应的音频内容,包括:通过所述内容编码器中下采样层对所述待处理音频进行采样处理,得到下采样特征;通过所述内容编码器中注意力层对所述下采样特征进行注意力处理,得到注意力特征;通过所述内容编码器中卷积层对所述注意力特征进行卷积处理,得到音频内容。3.如权利要求1所述的基于自注意力的音频美化方法,其特征在于,所述对所述音频内容、所述音频音色和所述音频能量进行位置嵌入,得到音频特征,包括:对所述音频内容、所述音频音色和所述音频能量进行位置嵌入,得到与所述音频内容对应的内容位置向量、与所述音频音色对应的音色位置向量和与所述音频能量对应的能量位置向量;通过所述内容位置向量、所述音色位置向量和所述能量位置向量对所述音频内容、所述音频音色和所述音频能量进行连接,得到音频特征。4.如权利要求1所述的基于自注意力的音频美化方法,其特征在于,所述获取音频音高之前,包括:获取音高预测器,通过所述音高预测器中第一卷积层对所述待处理音频进行一维卷积处理,得到第一卷积特征;通过所述音高预测器中第二卷积层对所述第一卷积特征进行卷积处理,得到第二卷积特征;通过所述音高预测器中第三卷积层对所述第二卷积特征进行一维卷积处理,得到音频音高。5.如权利要求1所述的基于自注意力的音频美化方法,其特征在于,所述获取音频模型之前,包括:获取样本训练数据集,所述样本训练数据集包括至少一个样本训练数据;一个所述样本训练数据对应一个样本标签;获取预设训练模型,通...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁季圣鹏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1