语音接收设备与视位提取方法和装置制造方法及图纸

技术编号:3045466 阅读:231 留言:0更新日期:2012-04-11 18:40
一种提取视位的技术,包括以固定速率接收从语音信号获得的连续数字化模拟语音信息帧(210),滤波每一所述连续数字化模拟语音信息帧从而以固定速率同步生成时域帧分类矢量(215、220、225、230、235、240),以及分析每一时域分类矢量(250)从而以固定速率同步生成对应于每一连续数字化语音信息帧的视位集合。从连续数字化模拟语音信息帧之一推导得出每一时域帧分类矢量。可将N个多锥度离散长椭球序列基(MTDPSSB)函数(220)用于上述滤波,这些函数是第一类型Fredholm积分的因子,并且上述分析可使用空间分类函数(250)。延迟小于100毫秒。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及操纵头部模型的呈现,以在同时的语言呈现中仿真期望的运动,并且更具体地,涉及通过以语音形式接收的消息确定用于仿真头部运动的视位(viseme)。
技术介绍
使用受控的头部模型来模仿所代表的人(称为化身,avatar)在讲话期间的期望运动是众所周知的。这些模型被广泛地用于动画电影。它们还用于在客户端通信设备中,例如网络计算机或者电信设备中,呈现模仿在与文本消息或者数字编码(压缩)的语音消息相合成的语言呈现期间的头部运动。这些形式化身的动画已经在离线计算中生成。使用这些化身增强用户的通信体验并且可以帮助用户在用户处于嘈杂环境的情形下解释消息。当正在接收实时语音消息时,化身可向用户提供便携通信设备(例如蜂窝电话)改善的通信体验,但是上述常规方法需要过多的计算(并且具有不可接受的响应时间延迟)才能允许在这些设备上呈现充分的模仿。附图说明本专利技术通过示例说明并且不限于附图,在附图中,相同的引用标记表示相同的元件,并且其中图1是表示根据本专利技术一些实施例的语音通信系统的框图;以及图2是表示根据本专利技术一些实施例的语音接收设备各部分的框图。技术人员知道,图中的元件仅出于简明的目的说明,并不一定按比例绘制。例如,图中一些元件的尺度可能相对于其它元件夸大,以有助于提高对于本专利技术各个实施例的理解。具体实施例方式在根据本专利技术实施例详细说明提取视位的技术之前,可以看出,本专利技术主要以涉及视位提取的方法步骤和装置部件的组合形式存在。因此,在图中的适当处以常规符号表示了这些装置部件以及方法步骤,仅示出与理解本专利技术有关的具体细节,以免使本公开与得到此处说明的益处的本领域普通技术人员所显而易见的细节相混淆。参考图1,框图表示根据本专利技术一些实施例的语音通信系统100。该语音通信系统100可以是蜂窝电话通信系统或者其它类型的通信系统。例如,语音通信系统100可以是Nextel通信系统、专用无线电台或陆线通信系统,或者公共安全通信系统。在其它示例中,语音通信系统100可以是IP语音通信系统、简易老式电话(模拟交换)系统(POTS)或者家用无线服务(FRS)通信系统。在通信系统100中,用户105可向语音发送设备110讲话,该设备是电子设备,并且在一个实施例中可能是常规的蜂窝电话。语音发送设备110将用户的语音音频信号106转换为输入电子信号111,在蜂窝电话系统中,该信号是承载语音信息的压缩编码数字信号。然而在也可从本专利技术受益的其它系统中,输入电子信号111可作为承载语音信息的模拟电子信号发送。输入电子信号111中的语音信息通过网络115,利用输出电子信号116传输至语音接收设备120。语音接收设备120是电子设备并且包括扬声器122和显示器124。网络115可以是常规的蜂窝电话网络并且可将输入电子信号111改变为输出电子信号116。语音接收设备120可以是常规的蜂窝电话。在其它通信系统中,语音发送和接收设备110、120可以是其它类型的电子设备,例如模拟电话桌面设备、数字专用交换桌面设备、FRS无线电台、公共安全无线电台以及NexTel无线电台。在发送和接收设备110、120可彼此直接通信的语音通信系统100的情况下,网络115可以不存在,并且输入电子信号111与输出电子信号116相同。语音接收设备120接收输出电子信号116并且将输出语音信号中的语音信息转换为数字采样的语音信号。此方面可以是此处说明的许多示例中的固有功能,但将是并不包括这种转换的本专利技术实施例的附加功能,例如POTS桌面设备。语音接收设备120接收输出电子信号116中的语音信息,并且通过扬声器122向用户提供该语音信息。语音接收设备120在其中存储头部的静态图像,该语音接收设备以独特的方式修改该静态图像,呈现与正在呈现的语音同步运动的头部图像,在讲话期间呈现唇部和面部关联部分的自然运动。这样的运动头部被称为化身。通过确定适于所呈现的语音的视位(嘴唇与面部位置)来生成这些运动。当已知化身和视位时,在正在接收语音信息时,本专利技术以具有很小延迟的同步方式通过语音唯一地确定视位,因此可以没有显著延迟地呈现接收的语言消息。参考图2,根据本专利技术一些实施例示出了语音接收设备120各部分的框图。如上所述,输出电子信号116中的语音信息通过采样语音信号功能205以同步采样速率被转换(如果有必要)为常规的数字化模拟语音信号206。数字化模拟语音信号206由成帧功能210以固定速率安排至连续数字化模拟语音信息帧211。根据本专利技术的一些实施例,帧211是10毫秒长,并且每一帧211包括80个语音信息的数字化采样。在语音接收设备120中存储N个函数的集合220。每一函数是通过分解Fredholm积分215获得的多锥度离散长椭球序列基(MTDPSSB)函数,并且每一函数与其它全部N-1个函数正交,这在数学领域内公知。每一函数是可用于与数字化模拟语音信息帧211中的数字化语音值相乘的值的集合,相乘由乘法功能225执行。或者可表述为将连续的数字化模拟语音信息帧与N个MTDPSSB函数220之一相乘,以生成连续的数字化模拟语音信息帧的N个乘积集合226。该运算可以是点积运算,因此N个乘积集合的每一个可包括与语音信息帧211中数字化采样一样多的值,在本示例中可为80个。应当明白,N个MTDPSSB函数220可以存储在非易失性存储器中,在这种情况下,Fredholm积分215的数学表达式不必存储在接收电子设备120中。例如,在接收语音设备120必须遵照不同的数字化语音采样速率或者语音带宽的情形中,存储Fredhom积分表达式215并且推导N个MTDPSSB函数比存储这些函数更好。然后可通过快速傅立叶变换(FFT)功能230执行N个乘积集合226的每一个的FFT,为连续的数字化模拟语音信息帧的每一帧生成N个FFT集合231。N个FFT集合231的每一个中的值的数量通常不同于每一帧211中数字化语音采样的数量。在此处使用的示例中,N个FFT集合231的每一个中的值的数量由K表示,K为128。N个FFT集合231的幅度通过求和功能235相加在一起,生成连续的数字化模拟语音信息帧的求和FFT集合,还可由求和功能235线性缩放,以生成频域矢量236。迄今为止说明的运算可数学表达为S(ω)=GΣn|ΣkVnkxke-jωk|,]]>其中S(ω)是得到的频域矢量236,它具有K(128)个分量;Xk是当前帧中第k个数字化语音采样值;Vnk是(N个中)第n个MTDPSSB函数的第k个值;以及G是归一化因子,它是Fredholm积分展开的特征值之和的倒数竖线表示取模运算。从而,每一连续的数字化模拟语音信息帧通过MTDPSSB、相乘、求和以及FFT功能220、225、230、235被唯一地转换为频域矢量236。倒谱功能240执行唯一频域矢量236的常规变换。这包括执行频域矢量236的对数缩放,接着是该唯一的频域矢量236的常规反离散余弦变换(IDCT)。尽管在此示例中说明倒谱功能,但可以使用其它语音分析技术,例如听觉滤波器。最终的时域分类矢量241,在此示例中是倒谱矢量,可被说明为已经通过滤波每一连续的数字化模拟语音信本文档来自技高网...

【技术保护点】
一种从语音信号提取视位的方法,包括:以固定速率接收从所述语音信号获得的连续数字化模拟语音信息帧;滤波每一所述连续数字化模拟语音信息帧,以按照固定速率同步生成时域帧分类矢量,其中,从所述连续数字化模拟语音信息帧之一推导得出每一所述时域帧分类矢量;以及分析每一所述时域分类矢量,以按照固定速率同步生成对应于每一所述连续数字化语音信息帧的视位集合。

【技术特征摘要】
【国外来华专利技术】US 2004-3-11 10/797,9921.一种从语音信号提取视位的方法,包括以固定速率接收从所述语音信号获得的连续数字化模拟语音信息帧;滤波每一所述连续数字化模拟语音信息帧,以按照固定速率同步生成时域帧分类矢量,其中,从所述连续数字化模拟语音信息帧之一推导得出每一所述时域帧分类矢量;以及分析每一所述时域分类矢量,以按照固定速率同步生成对应于每一所述连续数字化语音信息帧的视位集合。2.根据权利要求1所述的从语音信号提取视位的方法,其中,在所述分析步骤中,相对于视位集合对应的连续数字化模拟语音信息帧,生成延迟小于100毫秒的每一视位集合。3.根据权利要求1所述的从语音信号提取视位的方法,其中,每一视位集合包括视位标识符子集以及一对一对应的置信度号码子集。4.根据权利要求1所述的从语音信号提取视位的方法,其中,所述视位集合包括一个最有可能视位的标识。5.根据权利要求1所述的从语音信号提取视位的方法,其中,所述滤波步骤包括利用N个多锥度离散长椭球序列基(MTDPSSB)函数将每一所述连续数字化模拟语音信息帧转换为频域矢量,其中所述多锥度离散长椭球序列基函数是第一类Fredholm积分的因子;以及利用反离散余弦变换将每一频域矢量转换为时域帧分类矢量之一,其中N是正整数。6.根据权利要求1所述的从...

【专利技术属性】
技术研发人员:埃里克R布尔克
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1