一种三维形象带有语气的口型模拟方法、介质及系统技术方案

技术编号:37621887 阅读:7 留言:0更新日期:2023-05-18 12:13
本发明专利技术提供了一种三维形象带有语气的口型模拟方法、介质及系统,属于三维形象模拟技术领域,该三维形象带有语气的口型模拟方法包括测试人员朗读具有语气变化标记的文本,同时采集测试人员的朗读录像;建立三维坐标系,并获取语气变化时刻拍摄的测试人员脸部图像;确定测试人员脸部图像的变化,并利用混合高斯背景模型区分变化的前景点和背景点;建立三维虚拟形象口型模型,以所有高斯类别为前景的关键点作为语气口型关键点,并以语气口型关键点对三维虚拟形象口型模型进行语气调整;根据需要三维形象朗读具有语气变化标记的文本,以音素口型驱动法根据语气调整之后的三维虚拟形象口型模型生成并输出三维形象带有语气的口型序列。序列。序列。

【技术实现步骤摘要】
一种三维形象带有语气的口型模拟方法、介质及系统


[0001]本专利技术属于三维形象模拟
,具体而言,涉及一种三维形象带有语气的口型模拟方法、介质及系统。

技术介绍

[0002]生活中,人们说话往往带有语气,当前大多数三维形象发言往往没有考虑语气,直接采用口型驱动,使得生成的三维形象发言过程真实度差。
[0003]授权号为CN111081270B的中国专利技术(申请号CN201911314031.3)公开了一种实时音频驱动的虚拟人物口型同步控制方法。该方法包括如下步骤:从实时语音流中识别出视素概率的步骤;对所述视素概率进行滤波的步骤;将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;将所述视素概率转换为标准口型配置并进行口型渲染的步骤。该方法可以避免要求在传递音频流时同步传递音素序列或口型序列信息,可以显著降低系统复杂性、耦合度和实现难度,适用于各种在显示设备上渲染虚拟人物的应用场景。
[0004]上述专利技术能够根据实时音频驱动的虚拟人物口型同步控制,但是不能解决带有语气的音频对虚拟人物口型进行控制的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术提供一种三维形象带有语气的口型模拟方法、介质及系统,能够解决带有语气的音频对虚拟人物口型进行控制的技术问题。
[0006]本专利技术是这样实现的:
[0007]本专利技术的第一方面提供一种三维形象带有语气的口型模拟方法,其中,包含以下步骤:
[0008]S10:测试人员朗读具有语气变化标记的文本,同时采集测试人员的朗读录像;
[0009]S20:建立三维坐标系,并获取语气变化时刻拍摄的测试人员脸部的第一图像和语气稳定时刻拍摄的所述测试人员脸部的第二图像;
[0010]S30:确定所述第一图像的第一变化检测区域和所述第二图像的第二变化检测区域;其中,所述第一变化检测区域为所述第一图像中唇部区域,所述第二变化检测区域为所述第二图像中唇部区域;
[0011]S40:获取所述第一变化检测区域的第一所有面片和所述第二变化检测区域的第二所有面片;
[0012]S50:将所述第一所有面片、所述第二所有面片分别与预设的代表性面片进行变形匹配,得到所述第一变化检测区域的第一面片匹配结果和所述第二变化检测区域的第二面片匹配结果;
[0013]S60:将所述第一面片匹配结果和所述第二面片匹配结果进行局部特征匹配,得到所述第一面片匹配结果相较于所述第二面片匹配结果的变化值;
[0014]S70:将所述第一图像转换成掩膜图像,并将所述掩膜图像输入混合高斯背景模型,得到所述混合高斯背景模型输出的所述待检测区域中的口型关键点的高斯类别,所述高斯类别包括前景和背景;
[0015]S80:建立三维虚拟形象口型模型,以所有高斯类别为前景的关键点作为语气口型关键点,并以语气口型关键点对三维虚拟形象口型模型进行语气调整;
[0016]S90:根据需要三维形象朗读具有语气变化标记的文本,以音素口型驱动法根据语气调整之后的三维虚拟形象口型模型生成口型模型序列,作为三维形象带有语气的口型序列。
[0017]在上述技术方案的基础上,本专利技术的一种三维形象带有语气的口型模拟方法还可以做如下改进:
[0018]其中,所述步骤S20具体包括:
[0019]根据MPEG

4标准建立三维坐标系;
[0020]所述获取语气变化时刻拍摄的测试人员脸部的第一图像和语气稳定时刻拍摄的所述测试人员脸部的第二图像,包括:
[0021]获取所述测试人员脸部在语气变化时刻的原始拍摄图像与所述测试人员脸部在语气稳定时刻的原始拍摄图像;
[0022]提取所述测试人员脸部在语气变化时刻的原始拍摄图像与所述测试人员脸部在语气稳定时刻的原始拍摄图像的特征;其中,所述特征包括面部关键点、纹理特征;
[0023]根据所述特征判断所述测试人员脸部在语气变化时刻与所述测试人员脸部在语气稳定时刻的语气;
[0024]根据所述测试人员脸部在语气变化时刻的语气对所述测试人员脸部在语气变化时刻的原始拍摄图像进行对应的去雾处理或去噪图像增强处理,得到所述语气变化时刻拍摄的测试人员脸部的第一图像;
[0025]根据所述测试人员脸部在语气稳定时刻的语气对所述测试人员脸部在语气稳定时刻的原始拍摄图像进行对应的去雾处理或去噪图像增强处理,得到所述语气稳定时刻拍摄的测试人员脸部的第二图像。
[0026]其中,所述步骤S30具体包括:
[0027]将第一变化检测区域和所述第二变化检测区域分别进行图像增强,得到第一变化检测区域的增强后图像和第二变化检测区域的增强后图像;
[0028]将所述第一变化检测区域的增强后图像和所述第二变化检测区域的增强后图像分别通过均值滤波器进行滤波,得到第一变化检测区域的滤波后图像和第二变化检测区域的滤波后图像;
[0029]将所述第一变化检测区域的滤波后图像和所述第二变化检测区域的滤波后图像分别进行边缘检测与面片寻找,得到所述第一变化检测区域的第一所有面片和所述第二变化检测区域的第二所有面片。
[0030]其中,所述步骤S50具体包括:
[0031]分别计算所述第一所有面片的第一归一化中心矩和所述第二所有面片的第二归一化中心矩;
[0032]根据所述第一归一化中心矩计算得到第一面片特征;并根据所述第二归一化中心
矩计算得到第二面片特征;其中,所述第一面片特征和第二面片特征均包括中心、弧长与面积;
[0033]根据所述第一归一化中心矩和所述第一面片特征计算所述第一所有面片与所述代表性面片的第一相似度;并根据所述第二归一化中心矩和所述第二面片特征计算所述第二所有面片与所述代表性面片的第二相似度;
[0034]根据所述第一相似度得到所述第一变化检测区域的第一面片匹配结果,根据所述第二相似度得到第二变化检测区域的第二面片匹配结果。
[0035]其中,所述步骤S60具体包括:
[0036]将所述第一面片匹配结果和所述第二面片匹配结果进行局部特征匹配,得到所述第一面片匹配结果相较于所述第二面片匹配结果的变化值,具体为:
[0037]通过黑塞矩阵生成所述第一面片匹配结果的第一所有特征点和所述第二面片匹配结果的第二所有特征点;
[0038]通过不同尺寸的盒状滤波器分别对第一面片匹配结果和所述第二面片匹配结果进行卷积,得到第一面片匹配结果的第一尺度空间和第二面片匹配结果的第二尺度空间;
[0039]根据所述第一面片匹配结果的第一所有特征点与第一面片匹配结果的第一尺度空间进行特征点定位,得到第一稳定特征点集合;并根据所述第二面片匹配结果的第二所有特征点与第二面片匹配结果的第二尺度空间进行特征点定位,得到第二稳定特征点集合;
[0040]分别以第一稳定特征点集合和第二稳定特征点集合为圆心统计预设半径内的harr小波特征,得到第一稳定特征点集合的第一主方向集合和第二稳定特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维形象带有语气的口型模拟方法,其特征在于,包含以下步骤:S10:测试人员朗读具有语气变化标记的文本,同时采集测试人员的朗读录像;S20:建立三维坐标系,并获取语气变化时刻拍摄的测试人员脸部的第一图像和语气稳定时刻拍摄的所述测试人员脸部的第二图像;S30:确定所述第一图像的第一变化检测区域和所述第二图像的第二变化检测区域;其中,所述第一变化检测区域为所述第一图像中唇部区域,所述第二变化检测区域为所述第二图像中唇部区域;S40:获取所述第一变化检测区域的第一所有面片和所述第二变化检测区域的第二所有面片;S50:将所述第一所有面片、所述第二所有面片分别与预设的代表性面片进行变形匹配,得到所述第一变化检测区域的第一面片匹配结果和所述第二变化检测区域的第二面片匹配结果;S60:将所述第一面片匹配结果和所述第二面片匹配结果进行局部特征匹配,得到所述第一面片匹配结果相较于所述第二面片匹配结果的变化值;S70:将所述第一图像转换成掩膜图像,并将所述掩膜图像输入混合高斯背景模型,得到所述混合高斯背景模型输出的所述待检测区域中的口型关键点的高斯类别,所述高斯类别包括前景和背景;S80:建立三维虚拟形象口型模型,以所有高斯类别为前景的关键点作为语气口型关键点,并以语气口型关键点对三维虚拟形象口型模型进行语气调整;S90:根据需要三维形象朗读具有语气变化标记的文本,以音素口型驱动法根据语气调整之后的三维虚拟形象口型模型生成口型模型序列,作为三维形象带有语气的口型序列。2.根据权利要求1所述的一种三维形象带有语气的口型模拟方法,其特征在于,所述步骤S20具体包括:根据MPEG

4标准建立三维坐标系;所述获取语气变化时刻拍摄的测试人员脸部的第一图像和语气稳定时刻拍摄的所述测试人员脸部的第二图像,包括:获取所述测试人员脸部在语气变化时刻的原始拍摄图像与所述测试人员脸部在语气稳定时刻的原始拍摄图像;提取所述测试人员脸部在语气变化时刻的原始拍摄图像与所述测试人员脸部在语气稳定时刻的原始拍摄图像的特征;其中,所述特征包括面部关键点、纹理特征;根据所述特征判断所述测试人员脸部在语气变化时刻与所述测试人员脸部在语气稳定时刻的语气;根据所述测试人员脸部在语气变化时刻的语气对所述测试人员脸部在语气变化时刻的原始拍摄图像进行对应的去雾处理或去噪图像增强处理,得到所述语气变化时刻拍摄的测试人员脸部的第一图像;根据所述测试人员脸部在语气稳定时刻的语气对所述测试人员脸部在语气稳定时刻的原始拍摄图像进行对应的去雾处理或去噪图像增强处理,得到所述语气稳定时刻拍摄的测试人员脸部的第二图像。3.根据权利要求1所述的一种三维形象带有语气的口型模拟方法,其特征在于,所述步
骤S30具体包括:将第一变化检测区域和所述第二变化检测区域分别进行图像增强,得到第一变化检测区域的增强后图像和第二变化检测区域的增强后图像;将所述第一变化检测区域的增强后图像和所述第二变化检测区域的增强后图像分别通过均值滤波器进行滤波,得到第一变化检测区域的滤波后图像和第二变化检测区域的滤波后图像;将所述第一变化检测区域的滤波后图像和所述第二变化检测区域的滤波后图像分别进行边缘检测与面片寻找,得到所述第一变化检测区域的第一所有面片和所述第二变化检测区域的第二所有面片。4.根据权利要求1所述的一种三维形象带有语气的口型模拟方法,其特征在于,所述步骤S50具体包括:分别计算所述第一所有面片的第一归一化中心矩和所述第二所有面片的第二归一化中心矩;根据所述第一归一化中心矩计算得到第一面片特征;并根据所述第二归一化中心矩计算得到第二面片特征;其中,所述第一面片特征和第二面片特征均包括中心、弧长与面积;根据所述第一归一化中心矩和所述第一面片特征计算所述第一所有面片与所述代表性面片的第一相似度;并根据所述第二归一化中心矩和所述第二面片特征计算所述第二所有面片与所述代表性面片的第二相似度;根据所述第一相似度得到所述第一变化检测...

【专利技术属性】
技术研发人员:周安斌晏武志李鑫潘见见彭辰
申请(专利权)人:山东金东数字创意股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1