【技术实现步骤摘要】
本专利技术涉及语音处理,尤其涉及一种文本生成音频方法及系统。
技术介绍
1、文本生成音频(text-to-audio,tta)生成是一种新兴应用,旨在基于文本提示合成多样化的音频输出。随着人工智能在生成式人工智能(artificial intelligencegenerated content,aigc)领域的整合,tta应用的范围显著扩大,涵盖了电影配音、音乐创作等领域。
2、早期的tta模型主要依赖于单一标签,导致音频生成单调,受限于有限的标签空间和生成能力。与之相反,自然描述性文本提供了更全面和细致的信息。因此,后续的工作开发了基于文本内容的模型。一些研究使用扩散模型框架实现文本生成音频,另外其他模型使用基于transformer解码器结构的自回归模型。
3、现有技术在通过文本合成音频的过程中,通常需要首先将参考的音频转化为梅尔频谱,经过梅尔编码器得到梅尔隐式特征,再结合梅尔隐式特征和文本生成合成的音频,梅尔频谱虽然为对照原始音频的数据,但是梅尔频谱并没有对原始音频的数据进行进一步的处理,导致最终合成的音频
<本文档来自技高网...【技术保护点】
1.一种文本生成音频方法,其特征在于,所述方法的步骤包括扩散模型训练和音频推理;
2.根据权利要求1所述的文本生成音频方法,其特征在于,在基于所述目标图像特征向量得到目标音频的步骤中,对所述目标图像特征向量通过图像解码器进行解码,得到对应的目标梅尔图像,将所述目标梅尔图像构建为目标梅尔频谱,将所述目标梅尔频谱通过声码器构建为目标音频。
3.根据权利要求2所述的文本生成音频方法,其特征在于,在将所述目标梅尔图像构建为目标梅尔频谱的步骤中,将所述目标梅尔图像压缩为单通道图像,获取单通道的目标梅尔图像对应的目标梅尔频谱。
4.根据权利要求
...【技术特征摘要】
1.一种文本生成音频方法,其特征在于,所述方法的步骤包括扩散模型训练和音频推理;
2.根据权利要求1所述的文本生成音频方法,其特征在于,在基于所述目标图像特征向量得到目标音频的步骤中,对所述目标图像特征向量通过图像解码器进行解码,得到对应的目标梅尔图像,将所述目标梅尔图像构建为目标梅尔频谱,将所述目标梅尔频谱通过声码器构建为目标音频。
3.根据权利要求2所述的文本生成音频方法,其特征在于,在将所述目标梅尔图像构建为目标梅尔频谱的步骤中,将所述目标梅尔图像压缩为单通道图像,获取单通道的目标梅尔图像对应的目标梅尔频谱。
4.根据权利要求3所述的文本生成音频方法,其特征在于,获取单通道的目标梅尔图像对应的目标梅尔频谱的步骤还包括,对单通道的目标梅尔图像对应的目标梅尔频谱中每个频谱点进行逆标准化处理,结合每个逆标准化处理后的频谱点,得到逆标准化处理后的目标梅尔频谱。
5.根据权利要求1所述的文本生成音频方法,其特征在于,将所述第一梅尔频谱构建为第一梅尔图像的步骤包括:
6.根据权利要求1~5任一项所述的文本生成音频方法,其特征在于,扩散模型包括顺序设置的多个扩散网络,在将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中,对所述扩散模型进行训练的步骤中,所述图像特征向量通过多个噪声融合步骤将多个训练噪声向量进行融合,将融合后的图像特征向量和...
【专利技术属性】
技术研发人员:李雅,薛锦隆,邓雅月,高迎明,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。