基于扩散注意力模型的视频对齐的文本生成音频方法及系统技术方案

技术编号：43135599 阅读：27 留言：0更新日期：2024-10-29 17:41

本发明专利技术公开了一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统，包括：S1，获取待处理音频信号、视频信号及文本提示，提取文本特征和视觉特征；S2，基于视觉特征利用时间自注意层获取时间视觉表示，将时间视觉表示和文本特征输入多模态残差网络进行特征融合，同时基于预设批次利用CLAP模型将时间视觉表示和文本特征对齐以获取视觉对齐文本嵌入；S3，利用STFT基于音频信号获取时频谱图，基于时频谱图利用预设音频编码器获取音频特征；S4，将视觉对齐文本嵌入和音频特征输入预设音频生成模型获取对齐音频嵌入，基于音频解码器获取对齐音频表示。本发明专利技术显著增强了TTA生成的准确性和一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，具体涉及一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统。

技术介绍

1、近年来，扩散模型和大型语言模型(llms)的显著进展极大地推动了人工智能生成内容(artificial intelligence generated content,aigc)领域的发展。其中，文本到音频(text to audio,tta)作为一种新兴的aigc应用，旨在根据自然语言提示生成音频，受到了越来越多的关注。然而，现有的tta研究在生成质量和文本-音频对齐方面，尤其是在处理复杂文本输入时，仍然面临诸多挑战。目前传统的tta方法主要有以下问题：

2、1.生成质量问题：这是早期tta模型面临的主要挑战之一。传统的tta模型通常依赖于单一标签生成音频，这种方法的局限性在于，生成的音频往往单调且受限于预定义的标签空间和生成能力。这不仅限制了音频的多样性和细腻程度，也难以满足用户对高质量生成音频的需求。相比之下，描述性文本可以提供更全面和细致的信息，使得生成的音频更具表现力和灵活性。然而，如何充分利用描述性文本中的信息仍...

【技术保护点】

1.一种基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤S2中，所述时间视觉表示的表达式为：

3.根据权利要求2所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，所述视觉对齐文本嵌入的表达式为：

4.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤S3中，在基于时频谱图利用预设的音频编码器获取音频特征之前，还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列。

5....

【技术特征摘要】

1.一种基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤s2中，所述时间视觉表示的表达式为：

3.根据权利要求2所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，所述视觉对齐文本嵌入的表达式为：

4.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤s3中，在基于时频谱图利用预设的音频编码器获取音频特征之前，还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列。

5.根...

【专利技术属性】
技术研发人员：王闻宇，王晓飞，张青青，师小云，
申请(专利权)人：派欧云计算上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人