一种三维形象发音口型模拟方法技术

技术编号:36573570 阅读:10 留言:0更新日期:2023-02-04 17:31
本发明专利技术提供了一种三维形象发音口型模拟方法,属于三维虚拟技术领域,该三维形象发音口型模拟方法的步骤包括:在测试人员嘴部粘贴多个小色块,测试人员朗读文本,采集测试人员的朗读录像;对朗读录像按照音频中的音素进行拆分,得到音素录像集并处理得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。本方法考虑了相邻口型,避免了三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉的现象。不真实的感觉的现象。不真实的感觉的现象。

【技术实现步骤摘要】
一种三维形象发音口型模拟方法


[0001]本专利技术属于三维虚拟
,具体而言,涉及一种三维形象发音口型模拟方法。

技术介绍

[0002]口型是角色面部动画的关键视点,口型动画是否逼真、自然直接影响到角色面部整体动画的真实度,因此,口型动画的制作在电影、游戏以及虚拟现实等人机交互方式中占据着重要地位。
[0003]公开号为CN108447474B的中国专利技术专利(专利号:CN201810199537.3)公开了一种虚拟人物语音与口型同步的建模与控制方法,能够减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作。该方法包括:产生待同步语音对应的音素序列;将音素序列转换为音素类别序列;将音素类别序列转换为静态口型配置序列;通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置;将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。该方法可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。
[0004]由于汉语、英语等在连续发音时口型受到相邻音素的影响而产生变化,上述专利技术没有解决相邻音素对口型的影响问题,从而导致三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉。

技术实现思路

[0005]有鉴于此,本专利技术提供一种三维形象发音口型模拟方法能够解决相邻音素对口型的影响问题,避免了三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉的现象。
[0006]本专利技术是这样实现的:本专利技术提供一种三维形象发音口型模拟方法,其中,包括以下步骤:S10:在测试人员嘴部粘贴多个小色块,使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同,其中所述小色块为直径小于2mm的圆形;S20:在测试人员正对面设置三个摄像机,其中所述三个摄像机的镜头相互垂直,并以三个摄像机的空间位置建立三维坐标系;S30:测试人员朗读文本,三个摄像机采集测试人员的朗读录像;S40:对朗读录像按照音频中的音素进行拆分,得到音素录像集,所述音素录像集的每个视频段为一个音素对应的录像;S50:对得到的音素录像集进行处理,得到所述音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集;S60:以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;S70:对单音素小色块轨迹集进行处理得到单音素小色块稳定坐标集;
S80:建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;S90:根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。
[0007]在上述技术方案的基础上,本专利技术的一种三维形象发音口型模拟方法还可以做如下改进:其中,所述步骤S50中,对得到的音素录像集进行处理的具体步骤包括:步骤一:将音素录像集中包含的视频段进行清晰化处理;步骤二:对清晰化处理后的视频段中的每一帧中的各个小色块的中心坐标进行记录作为小色块坐标;步骤三:将小色块坐标按照视频段的时间轴时域集合做为运动轨迹。
[0008]进一步的,所述步骤“将音素录像集中包含的视频段进行清晰化处理”具体为:将视频流信号转成YUV三分量,并获取视频流信号内各帧图像中像素的Y分量;对各像素的Y分量进行加权统计计算;其中,采用如下公式对各像素的Y分量进行加权统计计算:其中,和分别表示第n帧图像中像素的加权统计计算的结果;n为大于0的自然数;i,j为像素的行列坐标;=0;表示第n帧图像当前像素的Y分量;;根据加权统计计算的结果及相应像素的Y分量判断该像素是否存在噪声,根据加权统计计算的结果与相应像素的Y分量进行计算,计算公式如下:根据计算结果L1与L2判断对应帧的像素是否存在噪声;若是,则根据加权统计计算的结果对相应像素进行清晰处理,具体为:获取存在噪声的像素加权统计计算的结果;将加权统计计算的结果赋值给相应像素的Y分量。
[0009]其中,所述步骤S60中,以音素录像集建立相邻录像集并进行处理的步骤具体包括:步骤一:提取相邻录像集中的相邻音素,所述提取方式为除第一个音素外,每一个音素与其前面的一个音素作为相邻音素;步骤二:根据相邻音素中第一个音素和第二个音素的发音时长进行归一处理后作为发音权重,建立相邻音素发音权重序列;步骤三:将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化得到音素变
化小色块轨迹集。
[0010]进一步的,所述“将单音素色小块轨迹集与相邻音素发音权重序列拟合”的具体步骤为:步骤一:将单音素小色块轨迹集与相邻音素发音权重按照音素进行匹配,得到相邻音素发音权重小色块轨迹集;步骤二:在三维坐标轴中,相邻音素发音权重小色块轨迹集的坐标乘以权重,得到相邻音素发音权重序列拟合曲线。
[0011]进一步的,所述“将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化”中,优化的具体步骤为:步骤一:选择全部的具有相同相邻音素的相邻音素发音权重序列拟合曲线作为归类集;步骤二:利用近邻传播聚类算法对所述归类集中的每个相邻音素发音权重序列拟合曲线聚为一类,并得到该类的聚类中心,作为相邻录像对应的音素变化过程的小色块运动轨迹并记为音素变化小色块轨迹集。
[0012]其中,所述步骤S70中具体为:利用近邻传播聚类算法将单音素小色块轨迹集的所有坐标聚为一类,并得到该类的聚类中心作为单音素小色块稳定坐标集。
[0013]其中,所述步骤S10还包括:在测试人员嘴部粘贴多个小色块之前,将测试人员嘴部涂为白色。
[0014]其中,所述测试人员的朗读文本包含所有音素,且包含所有音素的相邻组合。
[0015]其中,所述小色块采用柔性材料制成,所述小色块的颜色与测试人员嘴部颜色有明显不同。
[0016]与现有技术相比较,本专利技术提供的一种三维形象发音口型模拟方法的有益效果是:利用小色块时域运动轨迹代替现有技术中常用的口型关键点,使得整个三维形象发音口型模拟流畅,同时以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程,避免了三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉的现象。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术公开的一种三维形象发音口型模拟方法的流程图;图2为近邻传播聚类(AP)算法框图。
具体实施方式
[0019]如图1所示,是本专利技术提供的一种三维形象发音口型模拟方法的第一实施例,在本
实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维形象发音口型模拟方法,其特征在于,包括以下步骤:S10:在测试人员嘴部粘贴多个小色块,使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同,其中所述小色块为直径小于2mm的圆形;S20:在测试人员正对面设置三个摄像机,其中所述三个摄像机的镜头相互垂直,并以三个摄像机的空间位置建立三维坐标系;S30:测试人员朗读文本,三个摄像机采集测试人员的朗读录像;S40:对朗读录像按照音频中的音素进行拆分,得到音素录像集,所述音素录像集的每个视频段为一个音素对应的录像;S50:对得到的音素录像集进行处理,得到所述音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集;S60:以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;S70:对单音素小色块轨迹集进行处理得到单音素小色块稳定坐标集;S80:建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;S90:根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。2.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤S50中,对得到的音素录像集进行处理的具体步骤包括:步骤一:将音素录像集中包含的视频段进行清晰化处理;步骤二:对清晰化处理后的视频段中的每一帧中的各个小色块的中心坐标进行记录作为小色块坐标;步骤三:将小色块坐标按照视频段的时间轴时域集合做为运动轨迹。3.根据权利要求2所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤“将音素录像集中包含的视频段进行清晰化处理”具体为:将视频流信号转成YUV三分量,并获取视频流信号内各帧图像中像素的Y分量;对各像素的Y分量进行加权统计计算;其中,采用如下公式对各像素的Y分量进行加权统计计算:其中,和分别表示第n帧图像中像素的加权统计计算的结果;n为大于0的自然数;i,j为像素的行列坐标;=0;表示第n帧图像当前像素的Y分量;;根据加权统计计算的结果及相应像素的Y分量判断该像素是否存在噪声,根据加权统计计算的结果与相应像素的Y分量进行计算,计算公式如下:
根据计算结果L1与L2判断对应帧的像素是否存在噪声;若是,则根据加...

【专利技术属性】
技术研发人员:周安斌晏武志李鑫潘见见彭辰
申请(专利权)人:山东金东数字创意股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1