一种播报数字人形态生成与控制方法技术

技术编号:38002217 阅读:9 留言:0更新日期:2023-06-30 10:16
本发明专利技术公开了一种播报数字人形态生成与控制方法,涉及AI领域。本发明专利技术包括以下步骤:S1:采集人像素材,所述人像素材包括音频和面部表情;S2:将音频与面部表情中的唇部动作相匹配;S3:通过设置不同的控制参量,协同驱动面部表情动画的生成;S4:基于面部表情动画根据播报内容匹配合适的手势,生成手势模型。本发明专利技术从表情生成和动作驱动两个方面入手,实现数字人形态的自动生成和控制。字人形态的自动生成和控制。字人形态的自动生成和控制。

【技术实现步骤摘要】
一种播报数字人形态生成与控制方法


[0001]本专利技术涉及AI领域,更具体的说是涉及一种播报数字人形态生成与控制方法。

技术介绍

[0002]随着元宇宙概念的火爆,元宇宙的“原住民”——数字人得到了快速发展。虚拟偶像、虚拟代言人、数字人客服、数字人记者、数字人主播
……
数字人产品和服务被应用到各行各业。
[0003]不同于其他行业数字人,新闻播报数字人在媒体行业的应用主要有以下特点:
[0004](1)主播形象相对严肃;
[0005](2)播报时身体姿态相对固定,大多数时间为站姿或坐姿,主要依靠面部表情和手势动作提高人物的动态感;
[0006](3)新闻要求时效性,播报数字人需要在短时间内快速生成出播报视频。
[0007]目前,大部分数字人主要通过动作捕捉的方法控制形态,但是需要花费较多的人力、物力和时间,综合来看不适用于新闻播报数字人的形态驱动。因此,我们需要构建一套低成本、高效率
[0008]、自然协调、高仿真的播报数字人形态生成和控制模型,进一步推广播报数字人在媒体行业的生产和应用。

技术实现思路

[0009]有鉴于此,本专利技术提供了一种播报数字人形态生成与控制方法,从表情生成和动作驱动两个方面入手,实现数字人形态的自动生成和控制,涉及人脸建模和分析、语音合成、语音识别、机器学习、自然语言处理等多种技术。
[0010]为了实现上述目的,本专利技术采用如下技术方案:
[0011]一种播报数字人形态生成与控制方法,包括以下步骤:
[0012]S1:采集人像素材,所述人像素材包括音频和面部表情;
[0013]S2:将音频与面部表情中的唇部动作相匹配;
[0014]S3:通过设置不同的控制参量,协同驱动面部表情动画的生成;
[0015]S4:基于面部表情动画根据播报内容匹配合适的手势,生成手势模型。
[0016]可选的,在S2中具体包括以下步骤:
[0017]对输入音频进行处理,具体包括语音识别和对声韵母拆分,并获取每个字的起始终止时间;
[0018]基于音频处理结果,完成音素与口型的对应。
[0019]可选的,还包括对音素对应的口型进行平滑处理,平滑方法采用时序滤波,滤波器的长度根据帧率不同。
[0020]可选的,所述控制参量包括:眼神,姿态,情绪,眉毛的动作,是否眨眼以及嘴巴的动作。
[0021]可选的,所述生成手势模型的步骤如下:
[0022]获取手势的语义分类方法,构建手势的量化描述语言;
[0023]基于情感语料库,标注不同情感、语义下的对应手势,形成手势文本库;
[0024]结合手势文本库构建基于新闻播报应用场景的数字人手势生成算法。
[0025]可选的,在S1中,将所述人像素材拆分为多个不同表情和动作的小片段。
[0026]可选的,还包括在虚拟人播报过程中,通过自动设置和手动设置两种方式实现手势的产生。
[0027]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种播报数字人形态生成与控制方法,具有以下有益效果:
[0028](1)生成形态动画应用到播报数字人,合成播报视频后,保证了清晰度和动画衔接处的自然;
[0029](2)通过文本或音频驱动唇形,自动生成唇形动画,尤其是适用于中文的的唇形动画;
[0030](3)根据文本/音频内容,自动生成表情神态;
[0031](4)根据文本/音频内容,自动融入手势动作。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0033]图1为本专利技术的流程示意图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]本专利技术实施例公开了一种播报数字人形态生成与控制方法,如图1所示,包括以下步骤:
[0036]S1:采集人像素材,所述人像素材包括音频和面部表情;
[0037]S2:将音频与面部表情中的唇部动作相匹配;
[0038]S3:通过设置不同的控制参量,协同驱动面部表情动画的生成;
[0039]S4:基于面部表情动画根据播报内容匹配合适的手势,生成手势模型。
[0040]在本实施例中,采集素材过程中,保证素材和人像的清晰度和灵活性。将播报过程尽可能多地拆分为多个不同表情和动作的小片段,用于模型训练。其中,人像背景最好为纯绿幕或蓝幕,背景平整;人像服装颜色不得含有背景色或近似背景的颜色,不采用反光材质和配饰;播报过程中声音清晰无噪音和背景音;播报视频中没有无效部分,整个播报过程除手部动作外,躯体最好一直保持同一个播报姿态;每播报一小片段后可以停止1

2s静音闭
嘴状态;帧率为25fps、码率不低于10M、保证音画同步。
[0041]开发中文音素下唇音同步技术:播报数字人内容生产中,唇音同步是最关键的问题之一。由于中文和其它字母型的语言的发音方式有很大的区别,在英文中效果较好的唇形同步技术,在中文中适用效果并不佳。因此,需要实现基于中文音素的数字人唇音同步。具体包括以下步骤:
[0042](1)语音识别
[0043]对输入音频进行语音识别,并获取每个字的起始终止时间。
[0044](2)声韵母拆分
[0045]中文的音素基于汉语拼音,声母对应辅音,韵母对应元音,其中韵母包含单韵母和复韵母。语音识别出的每个字包含了多个音素,需要基于声韵母进行拆分。根据汉语拼音的特征,声母单独作为一个音素,部分复韵母可以是单韵母的组合,如iang可以是i,a,ng三个音素的组合。在进行中文因素匹配时需要注意以下两点:
[0046]声母占比:声母类似辅音,在每个字的发音中占的比重较小;
[0047]时间分配:当一个字持续时间较长时,后面大部分时间都体现最后一个音素的口型,而不是平均分配时间给到各个音素。
[0048](3)时序平滑
[0049]口型在时序上实际是由前一个音素的口型划向下一个音素的口型,所以需要对音素对应的口型进行平滑处理。平滑方法可采用简单的时序滤波,滤波器的长度根据帧率不同,换算成时间为

180ms~180ms,因为一般一个音素的持续时间在120~180ms左右。在平滑处理中需要注意以下两点:
[0050]随机性:对于同一个音素,需要设置每次的权重有少许变化,避免过于刻板本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种播报数字人形态生成与控制方法,其特征在于,包括以下步骤:S1:采集人像素材,所述人像素材包括音频和面部表情;S2:将音频与面部表情中的唇部动作相匹配;S3:通过设置不同的控制参量,协同驱动面部表情动画的生成;S4:基于面部表情动画根据播报内容匹配合适的手势,生成手势模型。2.根据权利要求1所述的一种播报数字人形态生成与控制方法,其特征在于,在S2中具体包括以下步骤:对输入音频进行处理,具体包括语音识别和对声韵母拆分,并获取每个字的起始终止时间;基于音频处理结果,完成音素与口型的对应。3.根据权利要求2所述的一种播报数字人形态生成与控制方法,其特征在于,还包括对音素对应的口型进行平滑处理,平滑方法采用时序滤波,滤波器的长度根据帧率不同。4.根据权利要求1所述...

【专利技术属性】
技术研发人员:王晨任夏楠张乐孙明超张超李良潘昊天
申请(专利权)人:山东未来融媒体有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1