当前位置: 首页 > 专利查询>四川大学专利>正文

语音驱动唇形动画的方法技术

技术编号:4305327 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种语音驱动唇形动画的方法,其特征在于,包括以下步骤:将汉语中的音节结构采用Consonant-Vowel分类;采集若干个人的原始音频数据和视频数据;获取对应唇形信息;获取语音特征数据;对所获取的唇形信息和语音特征数据进行训练和建模,依据训练的模型实时输入语音合成的唇形运动序列。该方法克服了现有技术的缺陷,并且运算数据量小,可操做性强等特点。

【技术实现步骤摘要】

本专利技术涉及三维人脸动画
,具体涉及一种。
技术介绍
唇形动画是人脸表情动画研究的重要内容之一,也是难点之一,人类的语言具有 多模态特性,说话人的声音以及唇部运动,即唇形的状态变化,共同影响着他人对说话者的 语音理解,这表明语音与唇形之间存在着一定的、自然的联系。唇同步是音频流和视频流之 间的一种时间映射关系,是指说话人的语音与唇形运动状态之间的一种同步关系,采用映 射模型是一种广泛使用且有效的算法。 腾讯科技(深圳)有限公司申请的中国专利200910003083. 9公开了一种语音驱 动嘴唇形状变化的方法、获取嘴唇动画的方法及装置,属于计算机
,该语音驱动嘴 唇形状变化的方法包括获取音频信号,根据所述音频信号的特征得到嘴唇形状的运动幅 度比例;获取初始的嘴唇形状模型,根据所述初始的嘴唇形状模型和所述嘴唇形状的运动 幅度比例生成嘴唇形状的运动幅度值;根据所述嘴唇形状的运动幅度值和预先建立的嘴唇 发音模型库,生成变化的嘴唇形状网格模型集合。该方法可操作性较小,由于每个人的口型的形状大小不同,同时说话时口型的运动幅度也有所不同,因此通过语音特征获取口型的 运动幅度的比例会产生一定的误差,而且此方法的实现较复杂。 中国专利CN100369469C(申请号200510093269. X)也公开了一种语音驱动头部图 像合成影音文件的方法,一种语音驱动头部图像合成影音文件的方法。它包括取静态头部 数码图像;提取头部、脸部及五官轮廓特征点数据坐标,并计算图像动画模式数据;生成包 括口形闭合帧、口形张开帧、表情帧以及三种类型图像帧的各自数目在内的图像特征数据 文件;采集语音数码信息;分析、提取语音特征数据,生成包括有声音语音帧和无声音语音 帧在内的语音特征数据文件;将图像特征数据文件和语音特征数据文件同步合成,使得有 声音语音帧对应口形张开帧,无声音语音帧对应口形闭合帧,然后输出。该方法采用将图像 特征数据文件和语音特征数据文件同步合成的方法,由于图像特征的提取较为复杂,很难 达到实时性的要求,而且只区分出有音帧与无音帧对应的唇形,但没有考虑到语音中噪音 的情况,很可能把噪音当作有音帧来处理而发生错误。 中国专利申请200510086646. 7也公开一种基于动态基元选取的语音驱动人脸动 画方法,将输入的任何用户的任何语言的语音转换成语音和三维人脸动画的同步输出。此 方法基于采用运动实时捕获系统建立的多模态数据库,对多模态数据进行音视频分析,分 别获得相应的特征向量;以音素为基元单位对多模态数据进行同步分割;对用户给定的语 音序列,计算每个基元的音频匹配误差和前后基元间的视觉匹配误差,最后在候选的基元 中动态地选择一条最佳路径,输出与语音序列同步的人脸动画参数序列,以驱动三维人脸 动画模型。该方法用于处理任何语言的语音与唇形动画的同步情况,由于每种语言的发音 规律与发音特征各不相同,很难有一个同一的标准处理方法,而且以此方法每个基元的音 频匹配误差和前后基元间的视觉匹配误差,产生的这么误差会很大,从候选的基元中动态地选择一条最佳路径有可能不是最佳路径。
技术实现思路
本专利技术所要解决的问题是如何提供一种,该方法克服 了现有技术的缺陷,并且运算数据量小,可操做性强等特点。 本专利技术所提出的技术问题是这样解决的提供一种,其 特征在于,包括以下步骤 步骤一将汉语中的音节结构采用Consonant-Vowel分类声母包括b、 p、 m、 f、 d、 t、 n、 1、 g、 k、 h、 j、 q、 x、 zh、 ch、 sh、 r、 z、 c、 s禾口零声母,音勻母包括a、 ai、 an、 ang、 ao、 e、 ei、 en、 eng、 er、 o、 ong、 ou、i、il、i2、ia、ian、 iang、 iao、 ie、 in、ng、 iong、 iou、u、im、 imi、imn、 imng、 uei、 uen、 ueng、 uo、 v、 v肌、ve、 vn、 io j 步骤二采集若干个人的原始音频数据和视频数据每个人读声母和韵母单词,同 时使用DV或者摄像机拍摄,以获取音频流和视频流数据; 步骤三获取对应唇形信息把视频流分割成一帧帧图片,找出声母与韵母所对应 的图片帧,使用ASM算法对正面的人脸图片进行检测,获取声母和韵母所对应的唇形信息; 步骤四获取语音特征数据对音频流进行分析处理,提取语音特征数据; 步骤五对步骤三所获取的唇形信息和步骤四所获取的语音特征数据进行训练和 建模,依据训练的模型合成实时输入语音的唇形运动序列将通过ASM算法检测正面的人 脸图片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小 不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为 高维空间上的点,将每个点合成一列高位向量,每一个向量代表一帧唇形图片信息,对所有 向量进行分类与聚类分析处理,并划分到N个基本唇形类别中,利用语音帧和唇形帧在时 间上序列上的一一对应关系,将对应的语音帧也进行聚类划分成N个类别,其中N的取值通 过观察唇形样本状态取值,将已经归类的语音帧和唇形帧的每一个类别建立BP网络模型, 共建N个BP网络模型,分别训练N个BP网络模型中各个节点的连接权值和阀值,经过BP 网络模型处理,把每个实时语音帧归类,以此类推,可得到与语音特征数据所对应的唇形帧 序列,唇形帧序列经过平滑处理,就形成平滑与自然的唇形运动序列。 本专利技术的有益效果本专利技术利用汉语具有较强的音节性这一特征,对声韵母进行 建模处理,分别得到声韵母所对应的唇形类别,对与语音相对应的唇形序列帧进行平滑处 理后可得到逼真的唇形动画效果。而且该方法可操作行较强,实现容易而且该算法运动效 率较高,能达到实时语音与动画输出相同步的效果,此外,该方法是针对汉语语音的唇形动 画的一种处理方式,在汉语语音驱动唇形动画能达到较为自然真实的效果。附图说明 图1是本专利技术所采用的Phoneme-Viseme类别模型流程图; 图2是BP网络模型图; 图3是本专利技术的BP建模结构图; 图4是本专利技术的实时语音处理结构图。具体实施例方式下面结合附图以及具体实施例对本专利技术作进一步描述 本专利技术的大致包括以下步骤 建立语音数据库 各种语言的发音规律不同,与之相对应的口形运动状态也有所差别,此方案 主要是建立汉语语音库以及实现基于汉语语音的唇形动画,具有一定的通用性,若 实现基于其他语言的唇形动画可作为参考,众所周知,汉语中的音节结构是典型的 CV (Consonant-Vowel)结构,其中C是包括零声母在内的声母所对应的辅音,V为韵母所对 应的元音。汉语的声韵结构声母(Initial)有22个(b, p, m, f ;d, t, n, 1 ;g, k, h ; j, q, x ;zh, ch, sh, r ;z, c, s禾口零声母),晉勻母有39个(a, ai, an, ang, ao, e, ei, en, eng, er, o, ong, ou, i, il, i2, ia, ian, iang, iao, ie, in, ing, iong, iou, u, im, imi, imn, imng, uei, uen,本文档来自技高网
...

【技术保护点】
一种语音驱动唇形动画的方法,其特征在于,包括以下步骤:步骤一将汉语中的音节结构采用Consonant-Vowel分类:声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母,韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、il、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io;步骤二采集若干个人的原始音频数据和视频数据:每个人读声母和韵母单词,同时使用DV或者摄像机拍摄,以获取音频流和视频流数据;步骤三获取对应唇形信息:把视频流分割成一帧帧图片,找出声母与韵母所对应的图片帧,使用ASM算法对正面的人脸图片进行检测,获取声母和韵母所对应的唇形信息;步骤四获取语音特征数据:对音频流进行分析处理,提取语音特征数据;步骤五对步骤三所获取的唇形信息和步骤四所获取的语音特征数据进行训练和建模,依据训练的模型合成实时输入语音的唇形运动序列:将通过ASM算法检测正面的人脸图片片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为高维空间上的点,将每个点合成一列高维向量,每一个向量代表一帧唇形图片信息,对所有向量进行分类与聚类分析处理,并划分到N个基本唇形类别中,利用语音帧和唇形帧在时间上序列上的一一对应关系,将对应的语音帧也进行聚类划分成N个类别,其中N的取值通过观察唇形样本状态取值,将已经归类的语音帧和唇形帧的每一个类别建立BP网络模型,共建N个BP网络模型,分别训练N个BP网络模型中各个节点的连接权值和阀值,经过BP网络模型处理,把每个实时语音帧归类,以此类推,可得到与语音特征数据所对应的唇形帧序列,唇形帧序列经过平滑处理,就形成平滑与自然的唇形运动序列。...

【技术特征摘要】

【专利技术属性】
技术研发人员:章毅王平安周激流郑伯川吕建成张蕾彭德中于佳丽张海仙
申请(专利权)人:四川大学
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利