编辑音频的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31094644 阅读:15 留言:0更新日期:2021-12-01 13:03
本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。且支持合成未出现在语料库中的新词的功能。且支持合成未出现在语料库中的新词的功能。

【技术实现步骤摘要】
编辑音频的方法、装置、电子设备及存储介质


[0001]本申请涉及语音处理领域,尤其涉及一种编辑音频的方法、装置、电子设备及存储介质。

技术介绍

[0002]互联网的迅速发展加速了信息的传播。有各种各样的媒体供学习、娱乐和交流,例如电影、视频、交互式在线教育等。这些媒体的制作往往离不开音频内容编辑。典型的音频内容编辑界面显示语音的可视化,如波形和/或频谱图,并为用户提供标准的选择、剪切、复制、粘贴和音量调整,这些都应用于波形本身,还支持一些高级操作,如时间拉伸、俯仰弯曲和去噪。这些工具为媒体制作者提供了极大的便利,并具有广泛的应用场景。
[0003]一些系统允许编辑器对音频对应的文本执行选择、剪切和粘贴操作,并相应地更改音频内容,这称为基于文本的音频内容编辑。传统的基于文本的音频内容编辑技术离不开人工的复制粘贴,该方法会导致修改后的基频不连续,并且也难以使合成的语音和上下文之间有一个自然的衔接,在听感上会有明显的不自然的现象。更大的问题是,上述编辑技术不支持合成未出现在转录文本中的新词的能力。对于人来说,键入一个没有出现在语料库中的新词是很容易的,但如何通过编辑器合成新词相应的语音却不容易。当然,可以录制新的语音,但需要访问原始说话人,这将给音频内容编辑过程带来很大困难。随着语音生成任务中深度学习的快速发展,机器合成的语音可以与人类媲美。然而,这些任务是在给定文本的情况下合成相应的语音,却无法在合成中编辑特定的单词。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请的实施例提供了一种编辑音频的方法、装置、电子设备及存储介质。
[0005]第一方面,本申请的实施例提供了一种编辑音频的方法,包括以下步骤:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频。
[0006]优选地,所述获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本,包括:通过将已知的修改文本添加至已知的所述待编辑音频的原始文本中得到修改后文本,和/或利用已知的修改文本替换已知的所述待编辑音频的原始文本的部分文字得到修
改后文本。
[0007]优选地,所述预测所述修改文本对应的音频持续时长通过预先训练的时长预测模型实现。
[0008]优选地,所述修改文本的类型包括添加和替换中的至少一种,所述根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频,包括:在待编辑区域的指定位置添加掩码部分,并确保所述掩码部分与所述修改文本对应的音频持续时长一致;和/或在待编辑区域对待替换文本对应的音频进行掩码,得到掩码部分,并在掩码部分添加或删减帧,使得掩码部分与所述修改文本对应的音频持续时长一致;将带有掩码部分的待编辑音频作为调整后的待编辑音频。
[0009]优选地,所述基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,包括:从调整后的待编辑音频中提取声学特征;将提取的声学特征和修改后文本输入预先训练的粗解码器,得到所述提取的声学特征的掩码部分对应的粗声学特征;将粗声学特征和掩码后声学特征输入预先训练的细解码器,得到掩码部分对应的细声学特征;将细声学特征与所述提取的声学特征整合后输入到声码器中,得到编辑后音频。
[0010]优选地,所述音频编辑模型通过以下步骤训练得到:从已知的音频中提取原始声学特征;对原始声学特征的部分区域进行掩码,得到掩码后声学特征;利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型,得到音频编辑模型。
[0011]优选地,所述神经网络模型包括粗解码器和细解码器,所述利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型,得到音频编辑模型,包括:将掩码后声学特征和已知音频的文本输入粗解码器,得到掩码后声学特征的掩码部分对应的粗声学特征;将粗声学特征和掩码后声学特征输入细解码器,得到掩码部分对应的细声学特征;对比细声学特征与原始声学特征;当细声学特征与原始声学特征之间的差值小于或等于预设阈值时,当前的粗解码器和细解码器的串联结构作为音频编辑模型;当细声学特征与原始声学特征之间的差值大于预设阈值时,调整当前的粗解码器和细解码器的参数,直至细声学特征与原始声学特征之间的差值小于或等于预设阈值为止。
[0012]优选地,通过以下表达式,将提取的声学特征和修改后文本输入预先训练的粗解码器,得到所述提取的声学特征的掩码部分对应的粗声学特征,包括:
其中,表示为粗声学特征,表示为输入的掩码后的声学特征,x表示文本信息,θ表示为模型需要学习的参数,表示为第t帧的声学参数。
[0013]优选地,通过以下表达式,将粗声学特征和掩码后声学特征输入预先训练的细解码器,得到掩码部分对应的细声学特征,包括:其中,表示为细声学特征,表示为粗声学特征,表示为输入的掩码后的声学特征,x表示文本信息,θ表示为模型需要学习的参数,表示为第t帧的声学参数。
[0014]第二方面,本申请的实施例提供了一种编辑音频的装置,包括:修改模块,其用于获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测模块,其用于预测所述修改文本对应的音频持续时长;调整模块,其用于根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;编辑模块,其用于基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频。
[0015]第三方面,本申请的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1

7任一项所述的编辑音频的方法的步骤。
[0016]第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1

7任一项所述的编辑音频的方法的步骤。
[0017]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。
附图说明
[0018]此处的附图被并入说明书本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种编辑音频的方法,其特征在于,包括以下步骤:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频。2.根据权利要求1所述的方法,其特征在于,所述获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本,包括:通过将已知的修改文本添加至已知的所述待编辑音频的原始文本中得到修改后文本,和/或利用已知的修改文本替换已知的所述待编辑音频的原始文本的部分文字得到修改后文本。3.根据权利要求1所述的方法,其特征在于,所述预测所述修改文本对应的音频持续时长通过预先训练的时长预测模型实现。4.根据权利要求1所述的方法,其特征在于,所述修改文本的类型包括添加和替换中的至少一种,所述根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频,包括:在待编辑区域的指定位置添加掩码部分,并确保所述掩码部分与所述修改文本对应的音频持续时长一致;和/或在待编辑区域对待替换文本对应的音频进行掩码,得到掩码部分,并在掩码部分添加或删减帧,使得掩码部分与所述修改文本对应的音频持续时长一致;将带有掩码部分的待编辑音频作为调整后的待编辑音频。5.根据权利要求1所述的方法,其特征在于,所述音频编辑模型通过以下步骤训练得到:从已知的音频中提取原始声学特征;对原始声学特征的部分区域进行掩码,得到掩码后声学特征;利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型,得到音频编辑模型。6.根据权利要求5所述的方法,其特征在于,所述神经网络模型包括粗解码器和细解码器,所述利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型,得到音频编辑模型,包括:将掩码后声学特征和已知音频的文本输入粗解码器,得到掩码后声学特征的掩码部分对应的粗声学特征;将粗声学特征和掩码后声学特征输入细解码器,得到掩码部分对应的细声学特征;对比细声学特征与原始声学特征;当细声学特征与原始声学特征之间的差值小于或等于预设阈值时,当前的粗解码器和细解码器的串联结构作为音频编辑模型;
当细声学特征与原始声学特征之间的差值大于预设阈值...

【专利技术属性】
技术研发人员:陶建华汪涛易江燕傅睿博
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1