一种语音驱动主播口型和表情同步的智能生成方法技术

技术编号：45078865 阅读：25 留言：0更新日期：2025-04-25 18:19

本发明专利技术公开了一种语音驱动主播口型和表情同步的智能生成方法，对主播播报视频进行处理，预先训练音频‑图像同步模型和图像‑表情同步模型，使用预训练的音频‑图像同步模型和图像‑表情同步模型作为生成模型损失函数，使用对抗生成网络训练语音和图像之间的映射关系得到生成模型，输入音频和参考图像/视频到生成模型，生成与音频同步口型和表情的主播播报视频。主播播报视频标注了快乐、热情、兴奋、悲伤、愤怒、紧急、中性的情感，通过预训练图像‑表情同步模型，使在使用对抗生成网络的生成模型同步生成图像时会根据音频的情感调整口型和面部表情；从而实现能够快速生成口型清晰、能够通过表情表达情感的口型同步视频。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人生成领用，具体是一种语音驱动主播口型和表情同步的智能生成方法。

技术介绍

1、随着人工智能技术的迅猛发展，语音驱动说话数字人视频生成技术已成为虚拟数字人领域的研究前沿。说话数字人利用输入的音频信息，以及一张包含目标人物特征的图像或视频片段，通过信息提取，语义扩充、融合和对齐等步骤，生成一段目标人物自然表达这些信息的视频。这一技术的核心在于多模态数据的融合和呈现，旨在以直观的视觉形式展现目标人物的语音内容。

2、同时，随着抖音、小红书、bilibili等多种社交媒体的普及,说话数字人的应用领域得到了极大的扩展和深化。这些平台为说话数字人提供了展示和互动的新舞台，只需准备一段需要播报的内容、一段包含人物的图像或视频片段，使用数字人合成功能就能获得一段数字人播报视频，大大减少了人工播报和剪辑的成本。

3、在数字人生成的技术中，语音驱动口型同步技术对提升数字人的真实感和自然度至关重要；对于知识传播来说，使用视频进行知识传播，对学习者来说吸引力更大；其中使用专业虚拟主播形象进行内容的播报，可以塑造专业的...

【技术保护点】

1.一种语音驱动主播口型和表情同步的智能生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法，其特征在于，第1步中，对主播播报视频进行预处理，具体包括：

3.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法，其特征在于，第2步中，对从第1步获得的预处理后的视频中抽取音频文件和带情感标签的视频帧图像序列，具体包括：

4.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法，其特征在于，第7步中，所述的生成模型包括：音频编码器、图像编码器、图像解码器和生成损失模块，所述的音频编码器、图像...

【技术特征摘要】

1.一种语音驱动主播口型和表情同步的智能生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法，其特征在于，第1步中，对主播播报视频进行预处理，具体包括：

4.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法，其特征在于，第7步中，所述的...

【专利技术属性】
技术研发人员：俞定国，杨子叶，张随雨，徐垚，林强，傅议萱，马婷，
申请(专利权)人：浙江传媒学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人