音频生成的方法、装置、设备及存储介质制造方法及图纸

技术编号：26847579 阅读：33 留言：0更新日期：2020-12-25 13:12

本申请公开了一种音频生成的方法、装置、设备及存储介质，属于计算机技术领域。所述方法包括：基于预设时长对目标音频进行切分，得到多个音频段；基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。通过本申请可以增强用户听歌体验。

全部详细技术资料下载

【技术实现步骤摘要】
音频生成的方法、装置、设备及存储介质
本申请涉及计算机
，特别涉及一种音频生成的方法、装置、设备及存储介质。
技术介绍
音频数据库中需要存储的音频的数量非常庞大，需要的存储空间也非常庞大。为了满足这种存储需求，音频数据库的运营方经常会将音频中的高频数据去除，这样在对音频编码时可以提高压缩率降低数据量，从而可以降低存储空间的占用。这样处理后的音频，其中的声音还是能够正常被人耳听到的。不过，对音频去除高频数据后，对音频的音质会有比较大的影响。
技术实现思路
本申请实施例提供了一种音频生成的方法、装置、设备及存储介质,能够解决用户听歌体验差的问题。所述技术方案如下：一方面，提供了一种音频生成的方法，所述方法包括：基于预设时长对目标音频进行切分，得到多个音频段，其中，所述预设时长是所述目标音频的帧间隔时长的N倍，N为大于1的整数；基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；基于频域扩展模型的第二频域扩展...

【技术保护点】
1.一种音频生成方法，其特征在于，所述方法包括：/n基于预设时长对目标音频进行切分，得到多个音频段，其中，所述预设时长是所述目标音频的帧间隔时长的N倍，N为大于1的整数；/n基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；/n基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；/n对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；/n对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。/n

【技术特征摘要】
1.一种音频生成方法，其特征在于，所述方法包括：
基于预设时长对目标音频进行切分，得到多个音频段，其中，所述预设时长是所述目标音频的帧间隔时长的N倍，N为大于1的整数；
基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵；
基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵；
对于每个音频段，基于所述音频段的第一中间结果矩阵与第二中间结果矩阵，确定包含高频数据的音频段；
对每个包含高频数据的音频段进行组合，得到包含高频数据的目标音频。

2.根据权利要求1所述的方法，其特征在于，所述基于预设时长对目标音频进行切分之前，还包括：
获取原始音频，对所述原始音频进行解码处理以及短时傅里叶变换处理，得到目标音频。

3.根据权利要求1所述的方法，其特征在于，所述基于频域扩展模型的第一频域扩展模块，分别对每个音频段的幅度矩阵进行处理，得到每个音频段对应的第一中间结果矩阵，包括：
将每个音频段的幅度矩阵依次基于第一频域扩展模块的输入层、长短时记忆层、输出层进行处理，得到每个音频段对应的第一中间结果矩阵；
所述基于频域扩展模型的第二频域扩展模块，分别对每个音频段的幅度矩阵的转置矩阵进行处理，得到每个音频段对应的第二中间结果矩阵，包括：
将每个音频段的幅度矩阵的转置矩阵依次基于第二频域扩展模块的输入层、长短时记忆层、输出层进行处理，得到每个音频段对应的第二中间结果矩阵。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一中间结果矩阵与所述第二中间结果矩阵，确定包含高频数据的音频段，包括：
对所述第二中间结果矩阵进行转置，得到所述第二中间结果矩阵的转置矩阵；
基于所述第一中间结果矩阵与所述第二中间结果矩阵的转置，确定包含高频数据的音频段的幅度矩阵；
基于所述音频段中每个时间点和每个频点对应的相位数据，以及所述包含高频数据的音频段的幅度矩阵中每个时间点和每个频点对应的幅度数据，生成包含高频数据的音频段。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一中间结果矩阵与所述第二中间结果矩阵的转置矩阵，确定包含高频数据的音频段的幅度矩阵，包括：
将所述第一中间结果矩阵与所述第二中间结果矩阵的转置矩阵相加，得到包含高频数据的音频段的幅度矩阵。

6.一种频域扩展模型训练的方法，其特征在于，所述方法包括：
获取样本音频段；
对所述样本音频段进行高频数据去除处理，得到不包含有高频数据的样本音频段；
将所述不包含有高频数据的样本音频段输入初始频域扩展模型，得到输出音频段；
基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别；
基于所述识别结果对所述初始频域扩展模型进行训练，得到目标频域扩展模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述不包含有高频数据的样本音频段与所述样本音频段的映射关系、所述不包含有高频数据的样本音频段与所述输出音频段的映射关系输入初始判别模型进行识别，包括：
获取所述不包含有高频数据的样本音频段与所述样本音频段的映射关系，并将所述不包含有高频数据的样本音频段与所述样本音频段的映射关系，输入初始判别模型，得到第一判别结果；
获取所述不包含有高频数据的样本音频段与所述输出音频段的映射关系，并将所述不包含有高频数据的样本音频段与所述输出音频段的映射关系，输入初始判别模型，得到第二判别结果；
其中，所述初始判别模型用于判别输入的一个音频段是否为在输入的另一个音频段中正确添加高频数据后所得；
所述基于所述识别结果对所述初始频域扩展模型进行训练，得到目标频域扩展模型，包括：
基于所述第一判别结果、所述包含有高频数据的样本音频段和所述输出音频段，对所述初始频域扩展模型进行参数更新，得到频域扩展模型。

8.根据权利要求6所述的方法，其特征在于，所述将所述不包含有高频数据的样本音频段与所述输出音频段，输入初始判别模型，得到第一判别结果，并将所述不包含有高频数据的样本音频段与所述包含有高频数据的样本音频段，输入初始判别模型，得到第二判别结果之后，还包括：
基于所述第一...

【专利技术属性】
技术研发人员：张斌，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人