当前位置: 首页 > 专利查询>清华大学专利>正文

汉语音位-视位参数的计算机转换方法和系统技术方案

技术编号:2880212 阅读:188 留言:0更新日期:2012-04-11 18:40
汉语音位—视位参数的计算机转换方法及系统属于语音—人脸动态图像信息的转换和处理技术领域。其特征在于,它包含根据确定的音位系列同步完成语音和人脸图像的录音、录像,并把录像数据转换为音视频同步的数字图像数据输入计算机,确定汉语静态视位的抽取时刻,从国际标准MPEG-4中选取描述汉语视位的人脸动画参数FAP参数集,测量人脸特征点,计算汉语静态视位的人脸动画参数FAP参数值,建立汉语基本视位集,构筑用于描述某一视位对应FAP参数变化的基于权值融合的动态视位模型,确定动态视位模型各参数的学习方法各步骤,相应地提出了音位—视位计算机转换系统,从而实现从汉语音位生成其对应FAP参数的方法和系统。它对于待转换的文本,由汉语基本视位集提供对应的视位号,从而生成汉语文本所对应的FAP参数。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

汉语音位-视位参数的计算机转换方法和系统属于语音-人脸动态信息之间的信息转换和处理
视位国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)给出了视位的定义视位是指与某一音位相对应的嘴、舌头、下腭等可视发音器官的物理形状。一种语言的音位约有几十个。有些音位在发音时其面部图像相似,即音位与视位之间存在着多对一的关系,因此需要对音位进行合理的分类,据此建立相应的视位集。MPEG-4按照国际音标定义了1 5静态视位。各种语言具有不同的音位内容和语音系统,相应的视位也有所不同。目前国外定义了英语、德语等语言的静态视位,而汉语静态视位还没有一个完整的定义和具体分类结果;即使有,也是根据发音规则主观确定,不同的人作了不同的分类,没有人采用一个较为客观的分类方法。但是,研究人在讲话时脸部图像的变化以及声音与人脸图像的关系在计算机合成人脸动画、聋哑人辅助发声练习、汉语文字-可视语音转换上有着重大的意义。在计算机内,视位就是以某种参数表达的图像。上述MPEG-4国际标准定义了描述视位的参数人脸动画参数FAP(Facial Animation Parameters)。目前,还没有专门描述汉语视位的视位参数。另外,MPEG-4标准还定义了静态视位(Static Viseme),但人们发音本身是一个动态的过程,简单地用一个静态视位来表示必然丢失许多有用的信息。另一方面,在人脸动画合成过程中也需要任意时刻的人脸动画参数。现在解决这一问题的方法有二一是由一个个静态FAP参数在时间上进行插值计算,以得出连续语流中任意时刻的人脸动画参数。对连续语流中视位参数的插值计算大多采用固定的函数进行插值;二是对协同发音的处理,这是指连续说话过程中,每个视位都要受到它周围其它视位的影响,如美国加洲大学的Cohen和Massaro提出的协同发音处理模型;在汉语可视语音合成中未见到相关报道,而且上述方法都是从静态视位出发,考虑相互之间的影响和过渡,而没有把视位作为一个完整的动态过程来考虑。本专利技术的方法其特征在于,它依次包含以下步骤(1)选定需要录像和录音的汉语音位,建立包括复合元音的视位在内的基本视位集所需的音位系列;(2)在读出步骤(1)所述音位系列中所有声韵母时,放置与人脸正面成45度角的镜子录像,同步完成人脸正面和侧面图像的录像和录音,再通过与计算机相连的数字图像采集卡,把录像数据转换为音视频同步的数字图像数据;(3)从音视频流中确定汉语静态视位的抽取时刻;(3.1)由AVI文件中与时间有关的语音信号数据,按下式计算从第n0个样本开始的一帧语音的短时能量 ,随时间依次得到短时能量随时间变化的曲线,取语音短时能量曲线的中心时刻作为韵母静态视位的抽取时刻;En0=Σn=n0N-1+n0(S2(n))----n0≤n≤N-1+n0]]>其中N为计算语音短时能量的语音帧长(样本点数),n0为起始样本号,S(n)表示第n个样本的语音信号幅度值;(3.2)语音短时能量曲线随时间变化的起始时刻作为声母静态视位的抽取时刻;(4)从国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)所定义的68个人脸动画参数FAP(Facial AnimationParameters)中选取24个FAP参数来描述汉语视位,现列出如下#3open_jaw下腭张开度#16push_b_lip 下唇突出度#4lower_t_midlip内上唇中点下移量#17push_t_lip 上唇突出度#5raise_b_midlip内下唇中点上移量#51lower_t_lip_o外上唇中点下移量#6stretch_l_cornerlip左内唇角拉开度 #52raise_b_midlip_o外下唇中点上移量#7stretch_r_conerlip右内唇角拉开度 #53stretch_l_cornerlip_o左外唇角拉开度#8lower_t_lip_lm内上唇左中点下移量 #54stretch_r_conerlip_o右外唇角拉开度#9lower_t_lip_rm内上唇右中点下移量 #55lower_t_lip_lm_o外上唇左中点下移量#10raise_b_lip_lm内下唇左中点上移量 #56lower_t_lip_rm_o外上唇右中点下移量#11raise_b_lip_rm内下唇右中点上移量 #57raise_b_lip_lm_o外下唇左中点上移量#12raise_l_cornerlip左内唇角上移度 #58raise_b_lip_rm_o外下唇右中点上移量#13raise_r_cornerlip右内唇角上移度 #59raise_l_cornerlip_o 左外唇角上移度#14thrust_jaw下腭突出度 #60raise_r_cornerlip_o 右外唇角上移度 (5)利用计算机自动测量或手动测量视频流中面部特征点的运动,计算出相应的汉语静态视位的FAP参数(5.1)定义以下的人脸特征点双鼻孔点,外唇左右角点和上、下唇中点,内唇左右角点和上、下唇中点,侧面图中的鼻尖点,上、下唇突出点和下腭突出点和下腭下角点;还有,外唇上轮廓线上左、右半边的中点,内唇上轮廓线上左、右半边的中点,外唇下轮廓线上左、右半边的中点,内唇下轮廓线上左、右半边的中点;(5.2)利用公知技术对上述人脸特征点定位,再根据MPEG-4标准的规定计算相应的汉语静态视位参数FAP;(6)通过计算机自动聚类分析产生汉语基本视位集,包括根据聚类误差建立汉语音位的视觉混淆树和选择适当的类别数,它依次包含以下步骤(6.1)设初始表类别数为总视位个数,对声母为M=20,韵母M=15,即把每个视位作为一类,设总误差J(M)=0;(6.2)选择两类合并,M=M-1,设合并后形成类别号为m,类中视位个数为Nm,计算合并后形成的第m个类的类中心μm(p)=1NmΣk=1NmFapk(p);]]>(6.3)在所有可能的两两合并中,选择使得按标准欧氏距离由下式计算出的总的误差最小 ,并记录这一类别数的总误差J(M),其中Fapi(k)表示第k个视位的第p个FAP参数值,P为所采用的总的FAP参数个数;(6.4)重复步骤(6.2)、(6.3)步,直到总的类别数减为1;(6.5)根据以上几步所得到的不同类别数下每一类中的音位成员,画出按各个音位视位相似性进行合并过程的树状图;(6.6)画出误差随类别数变化的曲线,画出视位分类线去选择误差剧烈增加之前的类别数作为最佳的类别;(6.7)视位分类线下对应的视位即通过对汉语静态视位分类而得到的汉语基本视位集共20个,现列出如下#0NA(自动状态)#7 r #14 er#1b,p,m #8 z,c,s#15 i#2f #9 a,ang #16 o#3d,t,n,l #10 ai,an #17 ou#4g,k,h #11 ao #本文档来自技高网...

【技术保护点】
汉语音位-视位参数的计算机转换方法,含有在发音人读出所有声韵时,放置与人脸正面成45度角的镜子录像,同步完成人脸正面和侧面图像的录像和录音,通过与计算机相连的数字图像采集卡,把录像数据转换为音视频同步的数字图像数据的步骤,其特征在于,它依次包含以下步骤: (1)选定需要录像和录音的汉语音位,建立包括复合元音的视位在内的基本视位集所需的音位系列; (2)在读出步骤(1)所述音位系列中所有声韵母时,放置与人脸正面成45度角的镜子录像,同步完成人脸正面和侧面图像的录像和录音,再通过与计算机相连的数字图像采集卡,把录像数据转换为音视频同步的数字图像数据; (3)从音视频流中确定汉语静态视位的抽取时刻; (3.1)由AVI文件中与时间有关的语音信号数据,按下式计算从第n↓[0]个样本开始的一帧语音的短时能量E↓[n↓[0]],随时间依次得到短时能量随时间变化的曲线,取语音短时能量曲线的中心时刻作为韵母静态视位的抽取时刻; E↓[n↓[0]]=*(S↑[2](n)) n↓[0]≤n≤N-1+n↓[0] 其中N为计算语音短时能量的语音帧长(样本点数),n↓[0]为起始样本号,S(n)表示第n个样本的语音信号幅度值; (3.2)语音短时能量曲线随时间变化的起始时刻作为声母静态视位的抽取时刻; (4)从国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)所定义的68个人脸动画参数FAP(Facial Animation Parameters)中选取24个FAP参数来描述汉语视位,现列出如下: #3open_jaw下腭张开度 #16push_b_lip下唇突出度 #4lower_t_midlip内上唇中点下移量 #17push_t_lip上唇突出度 #5raise_b_midlip内下唇中点上移量 #51lower_t_lip_o外上唇中点下移量 #6stretch_l_cornerlip左内唇角拉开度 #52raise_b_midlip_o外下唇中点上移量 #7stretch_r_conerlip右内唇角拉开度 #53stretch_l_cornerlip_o左外唇角拉开度 #8lower_t_lip_lm内上唇左中点下移量 #54stretch_r_conerlip_o右外唇角拉开度 #9lowe...

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡莲红王志明张毅
申请(专利权)人:清华大学北京炎黄新星网络科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1