【技术实现步骤摘要】
本专利技术涉及数字人表情生成,尤其涉及基于双向对偶耦合的数字人表情编辑方法。
技术介绍
1、在数字化飞速发展的时代,语音驱动的视频生成技术作为人机交互和内容创作领域的关键技术之一,备受关注。该技术旨在实现语音内容与面部表情在语义上的精准匹配,并在此基础上生成丰富多样、自然流畅的表情和唇形动态,以此淋漓尽致地展现语音所承载的复杂情感和语义信息,为用户带来高度沉浸的交互体验。
2、然而,当前的现有技术在实际应用中暴露出诸多亟待解决的问题。其中,表情变化单一问题尤为突出。在实际场景中,当数字人面对表达不同情绪的语句时,比如愤怒、喜悦、悲伤等截然不同的情感表达,其面部表情差异却并不明显。这使得数字人在传达情感时显得极为生硬和刻板,无法让观众真切感受到语音背后所蕴含的丰富情感,严重削弱了内容的感染力和表现力。
3、同时,生成的表情还普遍存在细节缺失的情况。具体来说,面部的嘴角、眼睛、眉毛等局部解剖区域,在人类表达情感和意图时发挥着至关重要的作用。但现有技术却难以精准呈现这些区域的细微动态变化。例如,在微笑时,嘴角微妙的上扬
...【技术保护点】
1.一种基于双向对偶耦合的数字人表情编辑方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于双向对偶耦合的数字人表情编辑方法,其特征在于:在步骤S1中,正向扩散模型依据输入视频Xv和音频条件获得体现目标表情和唇形变化的生成视频Yv,且正向生成表达式如下:
3.根据权利要求2所述的基于双向对偶耦合的数字人表情编辑方法,其特征在于:在步骤S1中,训练时,正反向扩散模型共享特征表示并交互对偶信息,每个时间步t,正向的生成视频反馈至反向扩散模型优化音频特征预测,同时反向生成的音频特征作用于正向扩散模型条件设计。
4.根据权利要求2
...【技术特征摘要】
1.一种基于双向对偶耦合的数字人表情编辑方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于双向对偶耦合的数字人表情编辑方法,其特征在于:在步骤s1中,正向扩散模型依据输入视频xv和音频条件获得体现目标表情和唇形变化的生成视频yv,且正向生成表达式如下:
3.根据权利要求2所述的基于双向对偶耦合的数字人表情编辑方法,其特征在于:在步骤s1中,训练时,正反向扩散模型共享特征表示并交互对偶信息,每个时...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。