当前位置: 首页 > 专利查询>韩慧健专利>正文

一种基于综合加权算法的口型动画合成方法技术

技术编号:11061858 阅读:214 留言:0更新日期:2015-02-19 08:55
一种基于综合加权算法的口型动画合成方法,包括如下步骤:针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流,基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参数驱动模型的形变,添加背景图像和对噪声的分层次处理和添加,实现了生动、真实,效果好的口型动画合成。

【技术实现步骤摘要】

本专利技术涉及人脸表情动画研究领域,更具体地说涉及到口型与语音匹配的口型动 画合成研究领域。
技术介绍
随着计算机动画技术的不断进步,人们对人机交互中口型动画的要求越来越高。 但是,汉语口型动画的发展相对比较落后。一方面由于口型动画是一个多学科交叉的研究 方向,包括了人机交互、计算机图形学、语音语言学等,而相关学科的发展不均衡,使得构建 一个逼真的、高自动化程度口型动画系统仍是一个极富挑战性的研究课题。另一方面,世界 上有四分之一的人说汉语,汉语口型动画系统具有极其广阔的应用市场,但是由于汉语本 身所具有的复杂性,使得目前针对汉语的语音口型动画系统的研究相对较少,发展也相对 滞后,尤其是国内学者的研究工作仍处于刚起步阶段,缺乏理论积累与技术积淀,导致了能 够实现汉语口型动画设计的软件很少,而比较著名的口型动画设计软件如Poser 口型大师 Mimic、3ds max插件Voice-O-Matic等,都主要针对英文语言,对汉语支持性较差。 针对英语口型动画研究,先后出现了协同发音模型,文本驱动、语音驱动以及混合 驱动的方法,Guiard-Marigny等人提出了 一种基于语音和图像共同作用驱动合成口型动画 的方法,Bregler等人提出了 videoRewrite方法,该方法利用计算机视觉跟踪说话人嘴唇 的特征点,并利用变形技术将这些嘴唇姿态组合成最终的口型动画序列,Kang Liu与Jorn. Osterman提出英文中口型与字母音位的对应关系,并在MPEG-4动画标准的基础上建立脸 部、口型动画合成的算法。针对汉语口型动画方面的研究较少。汉语口型动画合成的真实 感效果在短时间内难以达到并超越国际先进水平。这就对汉语口型动画的研究提出了迫切 的要求。此外,现有技术中缺少对背景噪声以及背景图像的考虑,使得动画不够生动、真实, 并且不能根据实际需要来模拟场景,以及根据需要来调整噪声以提高动画的效果。 本专利技术从构建语音驱动口型动画合成的研究角度出发,对三维唇区模型设计、唇 动序列设计、汉语语音同步算法及个性化口型建模进行深入研究,实现在输入汉语文本信 息的条件下,利用信息技术合成,输出视觉上具有高度真实感与唇音完美协调同步的虚拟 人口型动画,并且通过添加背景图像,使得动画可以根据需要来模拟各种场景,通过对噪声 的分层次处理和添加,从而使得动画生动、真实,提高了动画的效果。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于综合加权算法的口型动画 合成方法,该方法能够输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动 画,并且动画生动、真实、效果好,依次包括以下步骤 : 步骤1 :输入汉语文本,针对输入的汉语文本进行分析,将汉字拆分为不同的汉语 可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流; 步骤2 :基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画 帧参数驱动模型的形变,实现人脸口型动画; 步骤3 :从输入汉语文本中获得与输入汉语文本同步的输入背景噪声,对输入背 景噪声进行分析,进行输入背景噪声平滑处理,得到初始输入背景噪声; 步骤4 :从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入 背景噪声,对音素输入背景噪声进行分析,进行音素输入背景噪声平滑处理,得到初始音素 输入背景噪声; 步骤5 :利用得到的初始音素输入背景噪声,对得到的初始输入背景噪声进行校 正,得到校正后的输入背景噪声; 步骤6 :基于综合加权算法,获得声韵时间控制比例,添加声韵权重值因子,重新 计算单音素口型动画的时间,控制口型动画的合成,将合成的汉语语音与人脸口型动画同 I K 少; 步骤7 :根据动画场景添加背景图像,与合成的汉语语音与人脸口型动画同步; 步骤8 :基于综合加权算法,获得噪声时间控制比例,添加噪声权重值因子,计算 校正后的输入背景噪声的噪声同步时间; 步骤9 :根据动画合成的需求,选择控制添加校正后的输入背景噪声,与合成汉语 语音、人脸口型动画和背景图像的合成动画进行同步,实现逼真的人脸口型动画。 针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素是将汉字按 照标准汉语拼音中声母和韵母的划分,完成口型拼音声部和口型拼音韵部的定义,将汉字 的标准拼音转换成口型声部和口型韵部符号组成的口型拼音。 本专利技术的综合加权算法的口型动画合成方法实现了: (1)基于有限特征点控制方法的三维口型建模,按照MPEG-4定义的人脸特征点参 数,选取或定义唇区特征点,追踪特征点的状态数据并进行综合分析,规范唇区状态数据进 行三维口型建模; (2)基于韵母加权控制方法的唇动序列设计,对声部和韵部所占时间比例采用加 权重来控制其在动画合成中所起的作用; (3)创新性地将汉语文本中标点符号对文本朗读中语音停顿的影响应用到语音口 型协同动画中,对各种标点符号在文本朗读中停顿时长进行统计分析,按照停顿时长对汉 语标点符号进行分类,并建立其停顿时长与文本朗读整体速度之间的关系模型,同时,对唇 动序列模型中的相邻唇形之间的时长比例参数进行分析,综合运用标点停顿及唇形参数模 型进行加权处理,实现语音口型协调同步的汉语语音口型动画系统; (4)将汉语可视化的音素归类划分并与基本发音口型建立映射关系,根据汉语音 素发音口型的特征,重新划分汉语拼音的声部和韵部,对标准声母表的分类简化为基本的 六类,韵部可分为四类口型,采用一种余弦函数处理由声部关键帧变形为韵部关键帧 两种口型的过渡处理,让动画更加的平滑流畅 (5)可以添加背景图像,使得动画可以根据需求来选择不同的背景图像,从而将动 画呈现在不同的场景下,动画更加生动,真实。 (6)对噪声的分层次处理和添加,使得根据不同的场景需要,可以调整噪声的级 另IJ,例如在会议时,可以选择不添加噪声或者降低噪声的级别,使得会议可以在比较安静, 观众可以清晰听见语音的环境下进行;当需要呈现出背景噪声时,可以将背景噪声呈现或 者以需要的噪声级别呈现,例如需要伴随有背景环境中的水声、鸟叫声等,使得动画更加生 动,真实,效果更好; (7)同样利用综合加权算法对噪声进行分层处理,使得动画合成和同步更灵活,合 成和同步后更贴近合成的需求,动画生动,真实,效果好。 【附图说明】 图1汉语语音同步口型处理流程图 图2人脸动画参数单元图(FAPU) 图3 口部区域模型 图4发音实际时域波形和声韵加权控制的动画合成控制对比图 【具体实施方式】 下面详细说明本专利技术的具体实施,有必要在此指出的是,以下实施只是用于本发 明的进一步说明,不能理解为对本专利技术保护范围的限制,该领域技术熟练人员根据上述本
技术实现思路
对本专利技术做出的一些非本质的改进和调整,仍然属于本专利技术的保护范围。 汉语拼音发音口型特征的分析 语音的基本单位从音色的角度划分为:音素、音节、声调和音位。音素是构成音节 的最小单位或最小的语音片段。一个音节,如果按音色的不同去进一步划分,就会得到一个 个最小的各有特色的单位,这就是音素。普通话语音共有32本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201410712164.html" title="一种基于综合加权算法的口型动画合成方法原文来自X技术">基于综合加权算法的口型动画合成方法</a>

【技术保护点】
一种基于综合加权算法的口型动画合成方法,其特征在于,依次包括以下步骤:步骤1:输入汉语文本,针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流;步骤2:基于MPEG‑4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参数驱动模型的形变,实现人脸口型动画;步骤3:从输入汉语文本中获得与输入汉语文本同步的输入背景噪声,对输入背景噪声进行分析,进行输入背景噪声平滑处理,得到初始输入背景噪声;步骤4:从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入背景噪声,对音素输入背景噪声进行分析,进行音素输入背景噪声平滑处理,得到初始音素输入背景噪声;步骤5:利用得到的初始音素输入背景噪声,对得到的初始输入背景噪声进行校正,得到校正后的输入背景噪声;步骤6:基于综合加权算法,获得声韵时间控制比例,添加声韵权重值因子,重新计算单音素口型动画的时间,控制口型动画的合成,将合成的汉语语音与人脸口型动画同步;步骤7:根据动画场景添加背景图像,与合成的汉语语音与人脸口型动画同步;步骤8:基于综合加权算法,获得噪声时间控制比例,添加噪声权重值因子,计算校正后的输入背景噪声的噪声同步时间;步骤9:根据动画合成的需求,选择控制添加校正后的输入背景噪声,与合成汉语语音、人脸口型动画和背景图像的合成动画进行同步,实现逼真的人脸口型动画。...

【技术特征摘要】
1. 一种基于综合加权算法的口型动画合成方法,其特征在于,依次包括以下步骤: 步骤1:输入汉语文本,针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视 化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流; 步骤2 :基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参 数驱动模型的形变,实现人脸口型动画; 步骤3 :从输入汉语文本中获得与输入汉语文本同步的输入背景噪声,对输入背景噪 声进行分析,进行输入背景噪声平滑处理,得到初始输入背景噪声; 步骤4 :从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入背景 噪声,对音素输入背景噪声进行分析,进行音素输入背景噪声平滑处理,得到初始音素输入 背景噪声; 步骤5 :利用得到的初始音素输入背景噪声,对得到的初始输入背景噪声进行校正,得 到校正后的输入背景噪声; 步骤6:基于综合加权算法,获得声韵时间控制比例,添加声韵权重值因子,重新计算 单音素口型动画的时间,控制口型动画的合成,将合成的汉语语音与人脸口型动画同步; 步骤7 :根据动画场景添加背景图像,与合成的汉语语音与人脸口型动画同步; 步骤8 :基于综合加权算法,获得噪声时间控制比例,添加噪声权重值因子,计算校正 后的输入背景噪声的噪声同步时间; 步骤9 :根据动画合成的需求,选择控制添加校正后的输入背景噪声,与合成汉语语 音、人脸口型动画和背景图像的合成动画进行同步,实现逼真的人脸口型动画。2. 如权利要求1所述的一种基于综合加权算法的口型动画合成方法,其特征在于:所 述针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素是将汉字按照标准 汉语拼音中声母和韵母的划分,完成口型拼音声部和口型拼音韵部的定义,将汉字的标准 拼音转换成口型声部和口...

【专利技术属性】
技术研发人员:韩慧健梁秀霞贾可亮张锐刘峥其他发明人请求不公开姓名
申请(专利权)人:韩慧健
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1