【技术实现步骤摘要】
本专利技术涉及数字人生成领用,具体是一种语音驱动主播口型和表情同步的智能生成方法。
技术介绍
1、随着人工智能技术的迅猛发展,语音驱动说话数字人视频生成技术已成为虚拟数字人领域的研究前沿。说话数字人利用输入的音频信息,以及一张包含目标人物特征的图像或视频片段,通过信息提取,语义扩充、融合和对齐等步骤,生成一段目标人物自然表达这些信息的视频。这一技术的核心在于多模态数据的融合和呈现,旨在以直观的视觉形式展现目标人物的语音内容。
2、同时,随着抖音、小红书、bilibili等多种社交媒体的普及,说话数字人的应用领域得到了极大的扩展和深化。这些平台为说话数字人提供了展示和互动的新舞台,只需准备一段需要播报的内容、一段包含人物的图像或视频片段,使用数字人合成功能就能获得一段数字人播报视频,大大减少了人工播报和剪辑的成本。
3、在数字人生成的技术中,语音驱动口型同步技术对提升数字人的真实感和自然度至关重要;对于知识传播来说,使用视频进行知识传播,对学习者来说吸引力更大;其中使用专业虚拟主播形象进行内容的播报,可以塑造专业的
...【技术保护点】
1.一种语音驱动主播口型和表情同步的智能生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法,其特征在于,第1步中,对主播播报视频进行预处理,具体包括:
3.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法,其特征在于,第2步中,对从第1步获得的预处理后的视频中抽取音频文件和带情感标签的视频帧图像序列,具体包括:
4.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法,其特征在于,第7步中,所述的生成模型包括:音频编码器、图像编码器、图像解码器和生成损失模块,所
...【技术特征摘要】
1.一种语音驱动主播口型和表情同步的智能生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法,其特征在于,第1步中,对主播播报视频进行预处理,具体包括:
3.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法,其特征在于,第2步中,对从第1步获得的预处理后的视频中抽取音频文件和带情感标签的视频帧图像序列,具体包括:
4.根据权利要求1所述的语音驱动主播口型和表情同步的智能生成方法,其特征在于,第7步中,所述的...
【专利技术属性】
技术研发人员:俞定国,杨子叶,张随雨,徐垚,林强,傅议萱,马婷,
申请(专利权)人:浙江传媒学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。