【技术实现步骤摘要】
本专利技术属于计算机,具体涉及一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统。
技术介绍
1、近年来,扩散模型和大型语言模型(llms)的显著进展极大地推动了人工智能生成内容(artificial intelligence generated content,aigc)领域的发展。其中,文本到音频(text to audio,tta)作为一种新兴的aigc应用,旨在根据自然语言提示生成音频,受到了越来越多的关注。然而,现有的tta研究在生成质量和文本-音频对齐方面,尤其是在处理复杂文本输入时,仍然面临诸多挑战。目前传统的tta方法主要有以下问题:
2、1.生成质量问题:这是早期tta模型面临的主要挑战之一。传统的tta模型通常依赖于单一标签生成音频,这种方法的局限性在于,生成的音频往往单调且受限于预定义的标签空间和生成能力。这不仅限制了音频的多样性和细腻程度,也难以满足用户对高质量生成音频的需求。相比之下,描述性文本可以提供更全面和细致的信息,使得生成的音频更具表现力和灵活性。然而,如何充分利用描述性文本中的信息仍
...【技术保护点】
1.一种基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,在步骤S2中,所述时间视觉表示的表达式为:
3.根据权利要求2所述的基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,所述视觉对齐文本嵌入的表达式为:
4.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,在步骤S3中,在基于时频谱图利用预设的音频编码器获取音频特征之前,还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列
5....
【技术特征摘要】
1.一种基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,在步骤s2中,所述时间视觉表示的表达式为:
3.根据权利要求2所述的基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,所述视觉对齐文本嵌入的表达式为:
4.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法,其特征在于,在步骤s3中,在基于时频谱图利用预设的音频编码器获取音频特征之前,还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列。
5.根...
【专利技术属性】
技术研发人员:王闻宇,王晓飞,张青青,师小云,
申请(专利权)人:派欧云计算上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。