使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品技术方案

技术编号：3585632 阅读：245 留言：0更新日期：2012-04-11 18:40

用于测量音频视频同步的方法、系统和程序产品。这通过首先采集音频视频信息进入音频视频同步系统内来完成。数据采集的步骤之后，分析音频信息和分析视频信息。接着，分析视频信息以在其中定位与讲话者个人语音特征有关的声音的出现。在分析阶段，根据音频和视频信息计算音频和视频ＭｕＥｖ－Ｓ，且将音频和视频信息分类为包括ＡＡ、ＥＥ、ＯＯ、Ｂ、Ｖ、ＴＨ、Ｆ、无声、其它音素以及未分类音位的元音音素。嘴唇之间的内部空间也被识别和确认。该信息用于确定和关联视频帧中的主要音频类别。确定匹配位置，以及确定视频和音频的偏移量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品相关申请本申请要求基于2004年5月14日提交的美国申请号No. 10/846,133 和2005年4月13日提交的PCT申请号No.PCT/US2005/012588的优先权，其正文和附图在这里通过引用被并入。
技术介绍
本专利技术涉及多々某体娱乐、教育和其它至少具有视频和关联信息的节目编制(programming)的创建、操作、传输、储存等，尤其是同步。多某体娱乐、教育和其它至少具有视频和关联信息的节目编制的创建、操作、传输、储存等需要同步。这样的节目编制的典型例子是电视和电影节目。通常这些节目包括纟见觉或纟见频部分、听觉或音频部分，并还可包括一个或更多不同的数据类型部分。典型的数据类型部分包括隐藏式字幕 (closed captioning),针对盲人的叙述式描述、例如网站和其它信息指示等附加节目信息数据以及包括在压缩(例如MPEG和JPEG)系统中的各种元数据。通常视频及关联信号节目以使得前述音频、视频和/或数据中的各项的同步被影响的方式而被制作、操作、储存或传送。例如，音频和视频的同 ...

【技术保护点】
一种用于测量音频视频同步的方法，所述方法包括步骤：接收组合的音频和视觉表现的视频部分和关联音频部分；分析所述音频部分来识别和过滤音频数据，以减少与讲话者的个人语音特征有关的音频数据，从而产生过滤的音频信号；分析所述过滤的音频信号，以在其中定位特定音位的出现；分析所述视频部分，以通过分析嘴部区域来在所述视频部分中定位特定视位的出现；以及分析所述音位和视位，以确定其相关的音位和视位的相对定时。

【技术特征摘要】
【国外来华专利技术】US 2005-11-16 PCT/US05/41623;US 2005-4-13 PCT/US051.一种用于测量音频视频同步的方法，所述方法包括步骤接收组合的音频和视觉表现的视频部分和关联音频部分；分析所述音频部分来识别和过滤音频数据，以减少与讲话者的个人语音特征有关的音频数据，从而产生过滤的音频信号；分析所述过滤的音频信号，以在其中定位特定音位的出现；分析所述视频部分，以通过分析嘴部区域来在所述视频部分中定位特定视位的出现；以及分析所述音位和视位，以确定其相关的音位和视位的相对定时。2. —种用于测量音频^L频同步的方法，包括接收视频和关联音频信息；分析所述音频信息，以在其中定位与讲话者的个人语音特征有关的声音的出现；除去与讲话者的个人语音特征有关的数据，以产生过滤的音频表示；分析所述过滤的音频表示，以识别特定的声音；分析与相应于特定声音的形成的嘴部形状有关的所述视频信息；以及比较所定位的特定声音的位置与相应的嘴唇形状的位置，以确定其相对定时。3. —种用于测量音频一见频同步的方法，包>^舌a) 4妄收电浮见节目的^L频部分和关联音频部分；b) 分析所述音频信息，以在其中定位与讲话者的个人语音特征有关的声音的出现；c) 除去与讲话者的个人语音特征有关的数据，以产生过滤的音频表d) 分析所述过滤的音频部分，以在其中定位特定的元音音素的出现；e) 分析所述^L频部分，以在其中定位相应于发出特定的讲话声音的嘴部形状；f) 分析在步骤d)中定位的元音声的出现和位置与步骤e)的相应的嘴唇形状的位置和牙齿的出现，以确定其相对定时。4. 一种用于测量音频视频同步的方法，包括采集输入音频视频信息到音频视频同步系统中；分析所述音频信息，以在其中定位与讲话者的个人语音特征有关的声音的出现；除去与讲话者的个人语音特征有关的数据，以产生过滤的音频表示；分析所述过滤的音频信息；分析包括嘴部形状的所述视频信息和所述嘴部形状的位置；根据所述音频和视频信息来计算音频MuEv和视频MuEv;以及确定并关联视频帧中的主要音频类别，定位匹配位置，以及估计音频和一见频的偏移量。5. 如权利要求4所述的方法，其中采集输入音频视频信息到音频4见频同步系统中的所述步骤包括步骤接收音频^L频信息；分开地提取所述音频信息和所述一见频信息；分析所述音频信息和所述纟见频信息，并从其恢复音频和纟见频分析数据；以及储存所述音频和视频分析数据，并重复使用所述音频和一见频分析数据。6. 如权利要求5所述的方法，包括根据所述音频数据提供音频矩的散布图。7. 如权利要求6所述的方法，包括提供音频判别边界和储存随之产生的音频判别数据。8. 如权利要求5所述的方法，包括根据所述视频数据提供视频矩的散布图。9. 如权利要求8所述的方法，包括提供视频判别边界和储存随之产生的^L频判别数据。10. 如权利要求7所述的方法，包括通过包括下列步骤的方法来分析所述音频信息接收音频流，直到捕获的音频样本的片段达到阈值；找到所述捕获的音频样本的声门脉沖；对偏移范围内的所述声门脉沖的大小的连续音频数据组，计算快速傅立叶变换(或DCT);计算所述快速傅立叶变换(或DCT)的平均频谱；计算所述声门脉沖的所述快速傅立叶变换(或DCT )的频谱的音频统计；以及返回所述音频统计。11. 如权利要求IO所述的方法，其中所述音频统计包括所述傅立叶变换(或DCT)的一个或更多集中和归一化的矩。12. 如权利要求11所述的方法，其中所述音频统计包括所述傅立叶变换(或DCT)的一个或更多集中和归一化的矩，所述矩包括Ml (平均值)、 M2BAR (第二个矩)和M3BAR (第三个矩)中的一个。13. 如权利要求IO所述的方法，包括通过包括下列步骤的方法根据音频和视频信息来计算声门脉冲，以找到所述捕获的音频样本的声门脉冲接收3N个音频样本；对i=0到N个样本，i) 确定N+l个音频样本的所述快速傅立叶变换(或DCT);ii) 计算前四个奇次谐波的和，S(I);iii) 找到具有最大变化率的S(I)的局部极小值，S(K);以及 iv)计算所述声门脉沖，GP=(N+K)/2。14. 如权利要求4所述的方法，包括通过包括下列步骤的方法来分析所述视频信息接收视频流，并从其采集视频帧；在所述视频帧中找到脸部的嘴唇区域；如果所述视频帧是无声帧，则将所述帧识别为无声的，然后重新开始接收随后的视频帧；以及如果所述视频帧不是无声帧，则定义脸部的内部和外部嘴唇区域；计算脸部的所述内部和外部嘴唇区域的平均值和方差；计算嘴唇的宽度和高度；确定嘴唇之间的内部空间；以及返回视频特征，并接收下一个帧。15. 如权利要求4所述的方法，包括通过包括下列步骤的方法，来确定和关联3见频帧内的主要音频类别，定位匹配4立置，以及估计音频和一见频的偏移量接收音频和纟见频信息的流；从其取回单独的音频和视频信息；分析所述音频和视频信息，无论嘴唇张开还是闭合，都包括所述内部嘴唇区域，并给所述音频和视频信息分类；过滤所述音频和-現频信息，以除去随4几出现的类别；将最主要的音频类别与相应的视频帧关联；找到匹配位置；以及估计异步偏移量。16. 如权利要求15所述的方法，包括将所述音频和视频信息分类为元音音素，包括AA、 EE、 00、无声和未分类音位。17. —种通过包括下列步骤的方法来测量音频视频同步的系统釆集输入音频视频信息到音频视频同步系统中；分析所述音频信息，以在其中定位与讲话者的个人语音特征有关的声音的出现；除去与讲话者的个人语音特征有关的数据，以产生过滤的音频表示；分析所述过滤的音频表示，以识别特定的声音和无声；分析所述视频信息，包括对应于分类的声音的嘴部形状...

【专利技术属性】
技术研发人员：J库珀，米尔科杜山沃吉诺维科，克里斯多佛史密斯，吉班阿南达罗伊，萨乌拉博简恩，
申请(专利权)人：皮克索尔仪器公司，
类型：发明
国别省市：US[]

全部详细技术资料下载我是这个专利的主人