用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统技术方案

技术编号:8494057 阅读:210 留言:0更新日期:2013-03-29 06:57
本发明专利技术提供了用于执行音频与相应文本转录的同步并确定定时同步的置信值的方法和系统。可以用语音识别在正向和反向上同步音频和相应文本(例如副本),以输出时间注释的音频-歌词同步的数据。可以计算量度以量化和/或限制同步的置信。基于该量度,示例实施例描述了一种方法,用于增强自动同步过程,以可能使隐马尔科夫模型(HMM)适应同步音频,用于在语音识别时使用。其他例子描述了用于选择合适的HMM来使用的方法。

【技术实现步骤摘要】
【国外来华专利技术】用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
语音识别(有时候被称为自动语音识别(ASR)或计算机语音识别)将口语字转换为文本。术语“声音识别”有时被用来指语音识别,其中,对于特定的说话者来训练识别系统, 以尝试基于其唯一的声音来特定地识别说话的人。
技术介绍
语音识别系统一般基于隐马尔科夫模型(HMM),这是输出符号和数量的序列的统计模型。语音信号可以被看做分段的静止(stationary)信号或短时静态信号,从而在短时内,语音可以被近似为静态过程。语音由此可被认为是用于许多随机过程的马尔科夫模型。HMM输出用于每一个静态信号的η维实数值向量的序列。该向量包括倒谱 (cepstral)系数,这是通过对语音的短时窗口进行傅里叶变换、对该变换去相关、并采用第一(最重要)系数而得到的。HMM可以具有给出每一个观察到的向量的可能性的统计分布。每一个单词或每一个音素(phoneme)可具有不同的输出分布。用于单词或 音素的序列的HMM 是通过将对于各个单词和音素的单独训练的HMM进行连接(concatenating)来生成的。语音的解码(例如当用新的发音来展示ASR并计算最可能的源句子时)可使用维特比(Viterbi)解码器来执行,给定音频信号,该解码器确定最优文本序列、期望语法以及在大数据集上训练的一组HMM。
技术实现思路
在一个示例性方面,提供了一种处理音频信号的方法。该方法包括接收包含声音元素的音频信号,并执行声音元素和该声音元素的相应文本转录的对准(al ignment)。所述方法还包括基于该对准,确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息,并输出置信量度,其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。在一个实施例中,执行在正向上处理的声音兀素和该声音兀素的相应文本转录的正向对准,并执行在反向上处理的声音元素和该声音元素的相应反向文本转录的反向对准。此外,所述方法包括确定与对于正向处理过的声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息,并来确定与对于反向处理过的声音元素部分的持续时间而言的时间流逝量相关的反向定时边界信息。在该实施例中,例如,基于正向定时信息和反向定时信息之间的比较来输出置信量度。在另一实施例中,所述音频信号是包含歌词的歌曲,且,所述方法还包括将声音元素的相应文本转录与该音频信号进行同步,并输出时间注释同步(time-annotate)的歌词, 表不与音频信号相关的歌词行的定时信息。在另一示例性方面,提供了一种计算机可读存储介质,具有在其中存储的可由计算设备执行以使得该计算设备执行功能的指令。该功能包括接收包含声音元素的音频信号,并执行声音元素和该声音元素的相应文本转录的对准。所述功能还包括基于该对准来确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息,并输出置信量度,其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。在又一示例性方面,提供了一种系统,其包含隐马尔科夫模型(HMM)数据库,该数据库可以包括在多维特征空间中(例如使用梅尔倒频谱系数)的音素的统计建模、定义了语法解码器可识别的单词的可选期望语法、将单词映射到音素的发音字典数据库以及语音解码器。语音解码器接收音频信号并访问HMM、期望的语法以及字典,以将音频信号中的声音元素映射到单词。该语音解码器还执行音频信号与声音元素的相应文本转录的对准,并确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息。该语音解码器还确定置信量度,其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。在一个实施例中,语音解码器将声音元素的文本转录与音频信号进行同步,并输出时间注释同步的歌词,其表示与该音频信号相关的歌词行的定时边界信息。上述
技术实现思路
仅是示例性的,并且不意图以任何方式来限制。除了上述示例性方面、实施例和特征,参考附图及下列详细描述,进一步的,实施例和特征将变得明显。附图说明图1示出了用于执行语音识别并将文本与所识别的语音进行同步的系统的说明性实施例。图2示出了用于执行语音识别并将文本与识别的语音进行同步的系统的另一说明性实施例。图3说明了示出反转输入歌词的概念图。图4是确定正向和反向对准之间的不匹配的例子的概念说明。图5是使用正向或反向对准来确定同步的或映射的行的异常值的例子的概念说明。图6示出了用于处理音频信号的方法的说明性实施例的流程图。图7示出了用于处理音频信号的方法的另一说明性实施例的流程图。图8示出了以迭代方式来处理音频信号的方法的说明性实施例的流程图。图9是说明层次化HMM训练和模型选择的框图。图10示出了使用来自特定演奏者的现有同步歌词数据来适应HMM的方法的说明性实施例的流程图。图11是示出示例性并行同步系统的框图。图12是用于选择合适HMM的示例性系统的框图。图13是用于音频和歌词的混合同步的示例性系统的框图。具体实施例方式在下列详细描述中,引用了附图,其构成了这里的一部分。在图中,相同的符号典型地表示相同的组件,除非上下文另有说明。在详细描述、附图和权利要求中描述的说明性实施例不是限制性的。可以使用其他实施例,且可以进行其他修改,而不偏离这里展示的主题的精神和范围。容易理解,如这里一般地描述并在图中说明,本公开的方面可以以多种不同的配置来布置、替换、组合、分离和设计,所有这些都在这里被显式地考虑。在示例实施例中,音频和相应文本(例如转录)可被同步(在一些例子中使用语音 识别技术),且生成的定时元数据可被用于多种不同应用,诸如,例如,启用音频的上下文 搜索、音频的浏览、以及随着音频播放的文本显示(例如字幕、歌词的类卡拉ok显示等)。示例实施例描述了用于获取定时元数据、对时间同步的元数据计算置信标志、并 使用置信信息来增强自动同步过程的方法。例如,由于输入音频和声学模型之间可能的不 匹配以及转录的不准确,以自动方式获取的信息不会总是准确的,且由此,生成描述定时信 息质量的置信度量,以使用自动或手动的方式来增强不准确定时元数据的质量。图1示出了使用语音识别技术来执行自动同步的系统100的说明性实施例。系统 100在音频引擎102接收音频信号。音频信号可包括语音、歌曲或音乐数据、电视信号等,且 由此,可包括说或唱的单词以及伴奏器乐或背景噪声。音频引擎102抑制任意器乐或背景 噪声,并向自动语音识别(ASR)解码器104输出说或唱的单词(例如声音)。例如,当输入音 频信号是音乐歌曲时,说或唱的单词可以对应于歌曲的歌词。使用借助于声音通常位于立体声的中心而器乐不是的这一事实的技术,音频引 擎102可抑制音频信号中的任何器乐。使用频率分析方法来标识和声丰富(harmonically rich)的区域,音乐(或其他非声音数据)也可被抑制。作为例子,音频引擎102可使用来自 iZotope公司的Vocal Remover产品来处理音频信号。例如,音频引擎102可抑制非声音数 据,以提取声音数据或表示单词的口头发音的数据。系统100还在过滤器106接收与音频信号的歌词相应的歌词文本文件。过滤器106 清理并规范化歌词文本。例如,过滤器106可使用查询表来校正误拼错误,可以将修改发声 (如类似“heeee本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.05.18 US 12/782,4691.一种处理音频信号的方法,包括 接收包含声音元素的音频信号; 处理器执行所述声音元素和所述声音元素的相应文本转录的对准; 基于所述对准,确定与对于所述声音元素部分的持续时间而言的时间流逝量关联的定时边界信息;以及 输出表示对于所述声音元素部分的持续时间而言的定时边界信息的确定程度的置信量度。2.如权利要求1所述的方法,其中,执行所述声音元素和所述声音元素的相应文本转录的对准包括执行在正向上处理过的所述声音元素和所述声音元素的相应文本转录的正向对准,其中,确定定时边界信息包括确定与对于在正向上处理过的所述声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息,且其中,所述方法进一步包括 执行在反向上处理过的所述声音元素和所述声音元素的相应反向文本转录的反向对准; 确定与对于在反向上处理过的声音元素部分的持续时间而言的时间流逝量关联的反向定时边界信息;以及 基于所述正向定时信息和所述反向定时信息之间的比较,输出表示所述正向定时边界信息的确定程度的所述置信量度。3.如权利要求2所述的方法,进一步包括 确定所述正向定时边界信息和所述反向定时边界信息之间的差异; 做出所述差异与预定阈值的比较;以及 基于所述比较,用置信水平来标记所述声音元素部分。4.如权利要求2所述的方法,其中,所述音频信号是音乐歌曲,且其中,所述声音元素部分是音乐歌曲的行,且其中所述正向定时信息和所述反向定时信息的每一个都表示所述音乐歌曲的行的开始和结束时间,且其中,所述方法进一步包括通过下列方式来比较所述正向定时信息和所述反向定时信息 将所述正向定时信息的开始时间和所述反向定时信息的开始时间进行比较,以提供开始不匹配量度;以及 将所述正向定时信息的结束时间和所述反向定时信息的结束时间进行比较,以提供结束不匹配量度。5.如权利要求1所述的方法,进一步包括 对于所述声音兀素的多个部分中的每一个,确定定时边界信息; 基于所述声音元素的多个部分来计算所述声音元素部分的给定持续时间的统计模型; 对于所述声音元素的多个部分中的每一个,确定持续时间符合所述统计模型的概率,并将所述概率与阈值进行比较;以及 对于具有低于所述阈值的概率的声音元素的部分,用低置信标志来标记所述声音元素部分。6.如权利要求1所述的方法,进一步包括 对于所述声音兀素的多个部分中的每一个,确定定时边界信息;将所述声音元素的多个部分的每一个的定时边界信息互相进行比较;以及 基于所述比较,识别所述声音元素的多个部分的异常值。7.如权利要求1所述的方法,其中,所述音频信号包括声音元素和非声音元素,且所述方法进一步包括抑制所述非声音元素。8.如权利要求1所述的方法,其中,所述音频信号是包含歌词的歌曲,且其中,所述方法进一步包括 将所述声音元素的相应文本转录与所述音频信号进行同步;以及 输出时间注释同步的歌词,其表示与音频信号相关的歌词的行的定时信息。9.如权利要求1所述的方法,其中,执行所述对准包括使用维特比解码器和隐马尔科夫模型(HMM)来对所述声音元素执行语音识别,且其中,所述音频信号是艺术家的音乐曲目,且所述方法进一步包括 访问用于所述艺术家的同步歌词的数据库; 使用所述艺术家的同步歌词作为适应数据来适应HMM,以生成更新的HMM ;以及 使用所述更新的HMM来重复所述对准。10.如权利要求1所述的方法,其中,所述音频信号是音乐曲目,且其中,是从由音乐吟唱的歌词的行和音乐曲目的歌词的单词所构成的组中选择所述声音元素部分。11.如权利要求10所述的方法,其中,输出表示所述声音元素部分的持续时间的定时边界信息的确定程度的所述置信量度包括将所述音乐吟唱的歌词的行标记为高或低置信行。12.如权利要求1所述的方法,进一步包括 对所述声音元素执行语音识别,以创建音素转录的序列;以及 执行所述声音元素与所述音素转录的对准。13.如权利要求12所述的方法,其中,执行所述对准包括 接收与所述音频信号相应的歌词文本; 确定所述歌词文本的语法;以及 将所述声音元素的音素描述映射到所述歌词文本的语法。14.如权利要求1所述的方法,其中执行所述对准包括使用隐马尔科夫模型(HMM)对所述声音元素的多个部分来执行语音识别,且其中,所述方法进一步包括 做出所述置信量度是否超过预定阈值的确定;以及 使用包含所述声音元素部分的数据来适应HMM,以生成更新的HMM,所述声音元素部分具有不超过预定阈值的置信量度;以及使用所述更新的HMM来重复所述对准。15.如权利要求14所述的方法,进一步包括在低置信行的数量不再减少之前以迭代的方式重复如下步骤执行所述对准、输出所述置信量度、适应所述HMM和重复所述对准。16.如权利要求1所述的方法,其中,执行所述对准包括使用隐马尔科夫模型(HMM)来对所述声音元素执行语音识别,且所述方法进一步包括 基于所述音频信号的元数据信息在训练数据上训练HMM的数据库;以及 基于所述音频信号的元数据信息选择HMM来执行所述对准。17.如权利要求16所述的方法,其中,所述元数据信息表示从由流派、艺术家、性别和节奏所构成的组中选择的信息。18.如权利要求1所述的方法,进一步包括 对每一个对准使用不同的隐马尔科夫模型(HMM)来多次执行所述对准; 为每一个各自的对准确定所述定时边界信息; 为每一个各自的对准确定所述置信量度; 选择...

【专利技术属性】
技术研发人员:O托迪克
申请(专利权)人:沙扎姆娱乐有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利