【技术实现步骤摘要】
【国外来华专利技术】用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
语音识别(有时候被称为自动语音识别(ASR)或计算机语音识别)将口语字转换为文本。术语“声音识别”有时被用来指语音识别,其中,对于特定的说话者来训练识别系统, 以尝试基于其唯一的声音来特定地识别说话的人。
技术介绍
语音识别系统一般基于隐马尔科夫模型(HMM),这是输出符号和数量的序列的统计模型。语音信号可以被看做分段的静止(stationary)信号或短时静态信号,从而在短时内,语音可以被近似为静态过程。语音由此可被认为是用于许多随机过程的马尔科夫模型。HMM输出用于每一个静态信号的η维实数值向量的序列。该向量包括倒谱 (cepstral)系数,这是通过对语音的短时窗口进行傅里叶变换、对该变换去相关、并采用第一(最重要)系数而得到的。HMM可以具有给出每一个观察到的向量的可能性的统计分布。每一个单词或每一个音素(phoneme)可具有不同的输出分布。用于单词或 音素的序列的HMM 是通过将对于各个单词和音素的单独训练的HMM进行连接(concatenating)来生成的。语音的解码(例如当用新的发音来展示ASR并计算最可能的源句子时)可使用维特比(Viterbi)解码器来执行,给定音频信号,该解码器确定最优文本序列、期望语法以及在大数据集上训练的一组HMM。
技术实现思路
在一个示例性方面,提供了一种处理音频信号的方法。该方法包括接收包含声音元素的音频信号,并执行声音元素和该声音元素的相应文本转录的对准(al ignment)。所述方法还包括基于该对准,确定与对于声音元素部分的持续时间而言的时 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2010.05.18 US 12/782,4691.一种处理音频信号的方法,包括 接收包含声音元素的音频信号; 处理器执行所述声音元素和所述声音元素的相应文本转录的对准; 基于所述对准,确定与对于所述声音元素部分的持续时间而言的时间流逝量关联的定时边界信息;以及 输出表示对于所述声音元素部分的持续时间而言的定时边界信息的确定程度的置信量度。2.如权利要求1所述的方法,其中,执行所述声音元素和所述声音元素的相应文本转录的对准包括执行在正向上处理过的所述声音元素和所述声音元素的相应文本转录的正向对准,其中,确定定时边界信息包括确定与对于在正向上处理过的所述声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息,且其中,所述方法进一步包括 执行在反向上处理过的所述声音元素和所述声音元素的相应反向文本转录的反向对准; 确定与对于在反向上处理过的声音元素部分的持续时间而言的时间流逝量关联的反向定时边界信息;以及 基于所述正向定时信息和所述反向定时信息之间的比较,输出表示所述正向定时边界信息的确定程度的所述置信量度。3.如权利要求2所述的方法,进一步包括 确定所述正向定时边界信息和所述反向定时边界信息之间的差异; 做出所述差异与预定阈值的比较;以及 基于所述比较,用置信水平来标记所述声音元素部分。4.如权利要求2所述的方法,其中,所述音频信号是音乐歌曲,且其中,所述声音元素部分是音乐歌曲的行,且其中所述正向定时信息和所述反向定时信息的每一个都表示所述音乐歌曲的行的开始和结束时间,且其中,所述方法进一步包括通过下列方式来比较所述正向定时信息和所述反向定时信息 将所述正向定时信息的开始时间和所述反向定时信息的开始时间进行比较,以提供开始不匹配量度;以及 将所述正向定时信息的结束时间和所述反向定时信息的结束时间进行比较,以提供结束不匹配量度。5.如权利要求1所述的方法,进一步包括 对于所述声音兀素的多个部分中的每一个,确定定时边界信息; 基于所述声音元素的多个部分来计算所述声音元素部分的给定持续时间的统计模型; 对于所述声音元素的多个部分中的每一个,确定持续时间符合所述统计模型的概率,并将所述概率与阈值进行比较;以及 对于具有低于所述阈值的概率的声音元素的部分,用低置信标志来标记所述声音元素部分。6.如权利要求1所述的方法,进一步包括 对于所述声音兀素的多个部分中的每一个,确定定时边界信息;将所述声音元素的多个部分的每一个的定时边界信息互相进行比较;以及 基于所述比较,识别所述声音元素的多个部分的异常值。7.如权利要求1所述的方法,其中,所述音频信号包括声音元素和非声音元素,且所述方法进一步包括抑制所述非声音元素。8.如权利要求1所述的方法,其中,所述音频信号是包含歌词的歌曲,且其中,所述方法进一步包括 将所述声音元素的相应文本转录与所述音频信号进行同步;以及 输出时间注释同步的歌词,其表示与音频信号相关的歌词的行的定时信息。9.如权利要求1所述的方法,其中,执行所述对准包括使用维特比解码器和隐马尔科夫模型(HMM)来对所述声音元素执行语音识别,且其中,所述音频信号是艺术家的音乐曲目,且所述方法进一步包括 访问用于所述艺术家的同步歌词的数据库; 使用所述艺术家的同步歌词作为适应数据来适应HMM,以生成更新的HMM ;以及 使用所述更新的HMM来重复所述对准。10.如权利要求1所述的方法,其中,所述音频信号是音乐曲目,且其中,是从由音乐吟唱的歌词的行和音乐曲目的歌词的单词所构成的组中选择所述声音元素部分。11.如权利要求10所述的方法,其中,输出表示所述声音元素部分的持续时间的定时边界信息的确定程度的所述置信量度包括将所述音乐吟唱的歌词的行标记为高或低置信行。12.如权利要求1所述的方法,进一步包括 对所述声音元素执行语音识别,以创建音素转录的序列;以及 执行所述声音元素与所述音素转录的对准。13.如权利要求12所述的方法,其中,执行所述对准包括 接收与所述音频信号相应的歌词文本; 确定所述歌词文本的语法;以及 将所述声音元素的音素描述映射到所述歌词文本的语法。14.如权利要求1所述的方法,其中执行所述对准包括使用隐马尔科夫模型(HMM)对所述声音元素的多个部分来执行语音识别,且其中,所述方法进一步包括 做出所述置信量度是否超过预定阈值的确定;以及 使用包含所述声音元素部分的数据来适应HMM,以生成更新的HMM,所述声音元素部分具有不超过预定阈值的置信量度;以及使用所述更新的HMM来重复所述对准。15.如权利要求14所述的方法,进一步包括在低置信行的数量不再减少之前以迭代的方式重复如下步骤执行所述对准、输出所述置信量度、适应所述HMM和重复所述对准。16.如权利要求1所述的方法,其中,执行所述对准包括使用隐马尔科夫模型(HMM)来对所述声音元素执行语音识别,且所述方法进一步包括 基于所述音频信号的元数据信息在训练数据上训练HMM的数据库;以及 基于所述音频信号的元数据信息选择HMM来执行所述对准。17.如权利要求16所述的方法,其中,所述元数据信息表示从由流派、艺术家、性别和节奏所构成的组中选择的信息。18.如权利要求1所述的方法,进一步包括 对每一个对准使用不同的隐马尔科夫模型(HMM)来多次执行所述对准; 为每一个各自的对准确定所述定时边界信息; 为每一个各自的对准确定所述置信量度; 选择...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。