【技术实现步骤摘要】
【国外来华专利技术】用于独立于说话者特征测量音频视频同步的方法、系统和程序产品 相关申请本申请要求基于2004年5月14日提交的美国申请No.10/846,133以 及2005年4月13日提交的PCT申请NO.PCT/US2005/012588的优先权, 其文本和附图并入在本文中。
技术介绍
本专利技术涉及至少具有视频和相关信息的多媒体娱乐、教育和其他节目 编制(programming)的制作、处理、传送、存储等,特别是同步。至少具有视频和相关信息的多媒体娱乐、教育和其他编制节目的制 作、处理、传送、存储等要求同步。这种节目编制的典型例子是电视和电 影节目(program)。通常,这些节目包括视觉或者视频部分、听觉或者 音频部分,并且还可以包括一个或更多的不同数据类型部分。典型数据类 型部分包括隐藏式字幕(closed captioning),针对盲人的叙述性描述、例如 网站和其它信息指示等附加节目信息数据、以及包括在压缩系统(举例而 言,例如MPEG和JPEG)中的各种元数据。通常制作、运行、存储或传播^f见频和相关信号程序的过程中,前述音 频、视频和/或数据中的各项的同步会受到影响。例 ...
【技术保护点】
一种用于测量音频视频同步的方法,所述方法包括以下步骤:接收组合的音频和视频表现的视频部分和关联的音频部分;分析所述音频部分以识别和过滤音频数据,从而减少与说话者个人语音特征有关的音频数据,进而产生过滤的音频信号;分析所述过滤的音频信号,以在其中定位特定音位的出现;分析所述视频部分,以在其中定位特定视位的出现;以及分析所述音位和所述视位,以确定有关的音位及其视位的相对定时。
【技术特征摘要】
【国外来华专利技术】US 2005-4-13 PCT/US2005/00125881.一种用于测量音频视频同步的方法,所述方法包括以下步骤接收组合的音频和视频表现的视频部分和关联的音频部分;分析所述音频部分以识别和过滤音频数据,从而减少与说话者个人语音特征有关的音频数据,进而产生过滤的音频信号;分析所述过滤的音频信号,以在其中定位特定音位的出现;分析所述视频部分,以在其中定位特定视位的出现;以及分析所述音位和所述视位,以确定有关的音位及其视位的相对定时。2. —种用于测量音频视频同步的方法,其包括 接收视频和关联的音频信息;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述过滤的音频表示,以识别特定声音;分析所述视频信息,以在其中定位与所述特定声音的形成对应的唇部 形状的出现;以及将定位的特定声音的位置与对应的唇部形状的位置进行比较,以确定 其相对定时。3. —种用于测量音频视频同步的方法,其包括接收电视节目的4见频部分和关联的音频部分;分析音频信息,以在其中定位与说话者的个人语音特征有关的声音的 出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示; 分析所述过滤的音频部分,以在其中定位特定元音音素的出现; 分析所述视频部分,以在其中定位与发出特定元音音素对应的唇部形状的出现;以及分析在步骤d)中定位的元音音素的出现和/或位置和步骤e)的对应的 唇部形状的位置,以确定其相对定时。4. 一种测量音频视频同步的方法,其包括将输入音频视频信息采集进音频视频同步系统中;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述过滤的音频信息;分析所述视频信息;从所述音频和视频信息中计算音频MuEv和视频MuEv;以及确定并关联视频帧中的主要音频类别,定位匹配位置,以及估计音频 和视频的偏移量。5. 根据权利要求4所述的方法,其中,将输入音频视频信息采集进 具有输入音频视频信息的音频视频同步系统中的所述步骤包括以下步骤接收音频视频信息;分别提取所述音频信息和所述视频信息;分析所述音频信息和所述视频信息,并从其中恢复音频和视频分析数据;存储所述音频和视频分析数据,并重复应用所述音频和视频分析数据。6. 根据权利要求5所述的方法,其包括根据所述音频数据提供音 频矩的分布图。7. 根据权利要求6所述的方法,其包括提供音频判别边界并存储 随之产生的音频判别数据。8. 根据权利要求5所述的方法,其包括根据所述视频数据提供视 频矩的分布图。9. 根据权利要求8所述的方法,其包括:提供视频判别边界并存储 随之产生的视频判别数据。10. 根据权利要求7所述的方法,其包括通过包括以下步骤的方法 分析所述音频信息接收音频流,直到捕获的音频釆样的片段达到一个阔值;找出所述捕获的音频采样的声门脉沖;计算在一个移位之内的声门脉冲大小的连续音频数据组的快速傅立 叶变换;计算所述快速傅立叶变换的平均频谱;计算所述声门脉冲的快速傅立叶变换的频谱的音频统计;以及 返回所述音频统计。11. 根据权利要求10所述的方法,其中,所述音频统计包括所述傅 立叶变换的一个或更多的集中且归一化的矩。12. 据权利要求11所述的方法,其中,所述音频统计包括所述傅立 叶变换的一个或更多的集中且归一化的矩,包括M1(平均值)、M2BAR(第 二个矩)和M3BAR (第三个矩)中的一个。13. 根据权利要求10所述的方法,其包括通过包括以下步骤的方法 从所述音频和视频信息中计算所述声门脉沖,以找出所述捕获的音频采样 的声门脉冲接收3N个音频采样;对于i二O至N个采样i) 确定N+1个音频采样的快速傅立叶变换;ii) 计算前四个奇次谐波的和,S(I);iii) 找出具有最大变化率的S(I)的局部最小值,S(K);以及iv) 计算所述声门脉冲,GP = (N+K)/2。14. 根据权利要求4所述的方法,其包括通过包括以下步骤的方法分 析所述视频信息接收视频流,并/人其中获取#见频帧; 在所述视频帧中找出面部的唇部区域;如果所述视频帧为无声帧,将所述帧识别为无声,接着重新开始接收 随后的^f见频帧;以及如果视频帧不为无声帧,定义面部的内部和外部唇部区域;计算面部的内部和外部唇部区域的平均值和方差;计算唇部的宽度和高度;以及返回-见频特4正,并4妾^l文下一帧。15. 根据权利要求4所述的方法,其包括通过包括以下步骤的方法, 确定并关联视频帧中主要音频类别,定位匹配位置,以及估计音频和视频 的偏移量接收音频和视频信息流,从其中重新获取单独的音频和视频信息;分析所述音频和视频信息,并分类所述音频和视频信息;过滤所述音频和视频信息,以去除随机出现的类别;使得最主要音频类别与对应的视频帧相关联;找出匹配位置;以及估计异步偏移量。16. 根据权利要求15所述的方法,其包括将所述音频和视频信息 分类为包括AA、 EE、 OO、无声和未分类音位的元音音素。17. —种用于通过包括以下步骤的方法测量音频视频同步的系统将输入音频视频信息捕获进音频视频同步系统中;分析所述音频信息,以在其中定位与说话者的个人语音特征有关的声 音的出现;去除与说话者的个人语音特征有关的数据,以产生过滤的音频表示;分析所述过滤的音频表示,以识别特定声音和无声; 分析所述视频信息;从所述过滤的音频信息和所述过滤的视频信息中计算音频MuEv和 视频MuEv;以及确定并关联视频帧中的主要音频类别,定位匹配位置,以及估计音频 和4见频的偏移量。18. 根据权利要求17所述的系统,其中,将输入音频视频信息采集 进音频视频同步系统中的所述步骤包括以下步骤接收音频视频信息;分别提取所述音频信息和所述^见频信息;分析所述音频信息和所述视频信息,并从其中重新获取音频和视频分 析数据;存储所述音频和视频分析数据,并重复应用所述音频和视频分析数据。19. 根据权利要求18所述的系统,其中,所述系统根据所述音频数据 绘制音频矩的分布图。20. 根据权利要求19所述的系统,其中,所述系统划定音频判别边 界,并存储随之产生的音频判别数据。21. 根据权利要求18所述的系统,其中,所述系统根据所述视频数 据绘制视频矩的分布图。22. 根据权利要求21所述的系统,其中,所述系统划定一见频判别边 界,并存储随之产生的视频判别数据。23. 根据权利要求20所述的系统,其中,所述系统通过包括以下步 骤的方法分析所述音频信息接收音频流,直到捕获的音频采样的片段达到一个阈值;找出所述捕获的音频采样的声门脉沖;计算在一个移位之内的声门脉冲大小的连续音频数据组的快速傅立叶变换;计算所述快速傅立叶变换的平均频语;计算所述声门脉冲的快速傅立叶变换的频谱的音频统计;以及 返回所述音频统计。24. 根据权利要求23所述的系统,其中,所述音频统计包括所述傅 立叶变换的一个或更多的集中且归一化的矩。25. 根据权利要求23所述的系统,其中,所述系统通过包括以下步 骤的方法从所述音频和视频...
【专利技术属性】
技术研发人员:J卡尔库珀,米尔科杜山沃吉诺维科,吉班阿南达罗伊,萨乌拉博简,克里斯多佛史密斯,
申请(专利权)人:皮克索尔仪器公司,
类型:发明
国别省市:US[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。