编辑音频的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31094644 阅读:33 留言:0更新日期:2021-12-01 13:03
本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。且支持合成未出现在语料库中的新词的功能。且支持合成未出现在语料库中的新词的功能。

【技术实现步骤摘要】
编辑音频的方法、装置、电子设备及存储介质


[0001]本申请涉及语音处理领域,尤其涉及一种编辑音频的方法、装置、电子设备及存储介质。

技术介绍

[0002]互联网的迅速发展加速了信息的传播。有各种各样的媒体供学习、娱乐和交流,例如电影、视频、交互式在线教育等。这些媒体的制作往往离不开音频内容编辑。典型的音频内容编辑界面显示语音的可视化,如波形和/或频谱图,并为用户提供标准的选择、剪切、复制、粘贴和音量调整,这些都应用于波形本身,还支持一些高级操作,如时间拉伸、俯仰弯曲和去噪。这些工具为媒体制作者提供了极大的便利,并具有广泛的应用场景。
[0003]一些系统允许编辑器对音频对应的文本执行选择、剪切和粘贴操作,并相应地更改音频内容,这称为基于文本的音频内容编辑。传统的基于文本的音频内容编辑技术离不开人工的复制粘贴,该方法会导致修改后的基频不连续,并且也难以使合成的语音和上下文之间有一个自然的衔接,在听感上会有明显的不自然的现象。更大的问题是,上述编辑技术不支持合成未出现在转录文本中的新词的能力。对于人来说,键入一个没有出现在语料库中的新词是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种编辑音频的方法,其特征在于,包括以下步骤:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频。2.根据权利要求1所述的方法,其特征在于,所述获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本,包括:通过将已知的修改文本添加至已知的所述待编辑音频的原始文本中得到修改后文本,和/或利用已知的修改文本替换已知的所述待编辑音频的原始文本的部分文字得到修改后文本。3.根据权利要求1所述的方法,其特征在于,所述预测所述修改文本对应的音频持续时长通过预先训练的时长预测模型实现。4.根据权利要求1所述的方法,其特征在于,所述修改文本的类型包括添加和替换中的至少一种,所述根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频,包括:在待编辑区域的指定位置添加掩码部分,并确保所述掩码部分与所述修改文本对应的音频持续时长一致;和/或在待编辑区域对待替换文本对应的音频进行掩码,得到掩码部分,并在掩码部分添加或删减帧,使得掩码部分与所述修改文本对应的音频持续时长一致;将带有掩码部分的待编辑音频作为调整后的待编辑音频。5.根据权利要求1所述的方法,其特征在于,所述音频编辑模型通过以下步骤训练得到:从已知的音频中提取原始声学特征;对原始声学特征的部分区域进行掩码,得到掩码后声学特征;利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型,得到音频编辑模型。6.根据权利要求5所述的方法,其特征在于,所述神经网络模型包括粗解码器和细解码器,所述利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型,得到音频编辑模型,包括:将掩码后声学特征和已知音频的文本输入粗解码器,得到掩码后声学特征的掩码部分对应的粗声学特征;将粗声学特征和掩码后声学特征输入细解码器,得到掩码部分对应的细声学特征;对比细声学特征与原始声学特征;当细声学特征与原始声学特征之间的差值小于或等于预设阈值时,当前的粗解码器和细解码器的串联结构作为音频编辑模型;
当细声学特征与原始声学特征之间的差值大于预设阈值...

【专利技术属性】
技术研发人员:陶建华汪涛易江燕傅睿博
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1