【技术实现步骤摘要】
【国外来华专利技术】
本文描述的技术通常涉及通信设备,以及这种通信设备中的不依 赖于说话者的语音识别技术。
技术介绍
移动电话已经开始配备有依赖于说话者的姓名拨号以允许实现 特定的功能,如不用手的自动拨号。在移动电话环境中,通过使用语 音识别的不用手的拨号在使得用户能够在驾驶的时候通过读出 一个 姓名或被叫方的号码发出呼叫时特别有用。移动电话将用户的语音转 换为特征数据,特征数据进一步被语音识别工具处理。为了识别出由 用户说出的一个姓名或者被叫方的号码,这种移动电话需要在说出将 要被识别的姓名或号码之前进行训练。典型地,用户的语音的特征数 据将与相应于在注册或训练过程期间由用户预先记录的姓名的预先 存储的不同特征数据组相比较。如果找到了匹配,则移动电话将自动 拨打对应于该姓名的号码。按照惯例,在使用具有话音识别能力的移动电话进行话音呼叫之 前,说出的将被识别的姓名必须在注册过程期间提前训练。在训练阶 段,用户必须说出将要被识别的姓名和指令,然后由移动电话记录和 存储相应的所说的话。典型地,用户必须多次说出预期的姓名和指令, 以便使得语音识别工具根据不同的所记录的预期姓名或指令的发声实 ...
【技术保护点】
一种用于在具有话音拨号功能的通信设备中执行语音识别的方法,包括: a)进入语音识别模式; b)接收到语音识别模式中的话音输入后,根据话音输入生成输入特征向量; c)根据指示说出语音单元时的似然性的输入特征向量,计算似然向量序列; d)调变所述似然向量序列到语音单词模型; e)根据所述语音单词模型,计算单词模型匹配似然性;以及 f)确定所述单词模型匹配的其中一个最佳匹配作为识别结果。
【技术特征摘要】
【国外来华专利技术】US 2006-2-14 60/773,5771、一种用于在具有话音拨号功能的通信设备中执行语音识别的方法,包括:a)进入语音识别模式;b)接收到语音识别模式中的话音输入后,根据话音输入生成输入特征向量;c)根据指示说出语音单元时的似然性的输入特征向量,计算似然向量序列;d)调变所述似然向量序列到语音单词模型;e)根据所述语音单词模型,计算单词模型匹配似然性;以及f)确定所述单词模型匹配的其中一个最佳匹配作为识别结果。2、 根据权利要求l的方法,其中所述语音单元充当所述语音单 词模型的单词子模型,每个所述语音单词模型包括一个单词模型向量序列,而且所述单词模型向量的分量指示在所述语音单词模型的相应 位置找到相应的一个语音单元的期望值。3、 根据权利要求l的方法,其中每个所述似然向量是利用所选 择的语言的内部表示,根据所述相应输入特征向量计算的。4、 根据权利要求3的方法,其中所述内部语言表示包含从指示 特征空间中的典型特征向量的统计分布的语音单元的各个典型特征 向量计算的似然性分布。5、 根据权利要求4的方法,其中所述似然性分布的计算是在注 册模式中执行的,包括记录不同的说话者在无噪声环境中所说的话音输入样本; 选择对应于所述选择的语言中要求的语音单元的所述话音输入 样本的部分;以及根据所述选择的部分,生成典型特征向量。6、 根据权利要求4的方法,还包括确定当前用户的说话者特性适应向量,并且通过将所述说话者特 性适应向量反映到所述典型特征向量中,更新所述似然性分布。7、 根据权利要求4的方法,还包括 测量通信设备环境中的噪声; 根据所述测量的噪声,处理噪声特征向量;以及 通过使所述噪声特征向量关联到所述典型特征向量,更新所述似然性分布。8、 根据权利要求7的方法,其中所述噪声特征向量、所述说话 者特性适应向量以及所述典型特征向量是频镨向量,而且更新所述似 然性分布包括将所述说话者特性适应向量与每个所述典型特征向量相乘,以便 生成第一修正的典型特征向量;将所述第一修正的典型特征向量与所述噪声特征向量相加,以便 生成第二修正的典型特征向量;以及确定所述第二修正的典型特征向量在特征空间中的统计分布,作 为更新的似然性分布。9、 根据权利要求7的方法,其中所述输入特征向量、所述噪声 特征向量、所述说话者特性适应向量以及所述典型特征向量是频谱向 量,所述噪声特征向量和所述典型特征向量具有非对数分量,所述输 入特征向量和所述说话者特性适应向量具有对数分量,而且更新所述 似然性分布包括将每个所述典型特征向量加上所述噪声特征向量,以便生成第一 修正的典型特征向量;对于所述第一修正的典型特征向量的每个分量查对数; 将所述说话者特性适应向量加到、所述第一修正的和求对数的典型特征向量,以便生成第二修正的典型特征向量;以及确定所述第二修正的典型特征向量在特征空间中的统计分布,作为更新的似然性分布。10、 根据权利要求7的方法,其中确定所述说话者特性适应向量 包括针对每个所述典型特征向量,计算说话者特性适应向量,进一步 包括给每个所述输入特征向量分配最佳匹配语音单元; 计算每个所述输入特征向量和所述相应的典型特征向量之间的差分向量;以及为每个所述相应的典型特征向量计算音素特定的平均差分向量, 作为说话者特性适应向量。11、 根据权利要求io的方法,其中在所述音素特定的平均差分 向量之上,对于所述说话者特性适应向量求平均。12、 根椐权利要求l的方法,还包括根据所述最佳匹配的单词模型合成姓名,并拨打对应于所述姓名 的号码。13、 根据权利要求l的方法,其中利用字形到音素转换,根据电 话薄中的姓名生成所述语音单词模型,作为所述单词子模型序列。14、 一种用于在具有话音拨号功能的通信设备中执行语音识别的 设备,包括用于存储电话薄中的姓名的单词模型的第一存储器; 用于根据语音识别模式中的话音输入,生成输入特征向量的声码器;语音识别组件,包括(a)用于根据指示说出语音单元时的似然 性的输入特征向量,计算似然向量序列的似然向量计算装置,(b) 用于调变所述似然向量序列到所述单词模型的调变器,(c)用于根 据所述单词模型,计算单词模型匹配似然性的计算装置,以及(d) 用于确定最佳匹配单词模型作为识别结果的确定装置;以及用于启动语音识别模式的控制器。15、 根据权利要求14的设备,其中利用根据所述语音单元的典 型特征向量计算的似然性分布,从所述相应的输入特征向量计算每个 所述似然向量,所述设备还包括用于记录所述话音输入和环境噪声作为噪声输入的麦克风; 其中所述声码器处理来自所述噪声输入的噪声特征向量;以及 其中所述语音识别组件通过将所述噪声特征向量反映到所述典 型特征向量,更新所述似然性分布。16、 根据权利要求14的设备,其中利用从所述语音单元的典型特征向量计算的似然性分布,根据所述相应的输入特征向量计算每个所述似然向量,所述设备还包括说话者特性适应装置,用于确定当前用户的说话者特性适应向 量,并且用于通过将所述说话者特性适应向量反映到所述典型特征向 量中,更新所述似然性分布。17、 根据权利要求16的设备,其中所述噪声特征向量、所述说 话者特性适应向量以及所述典型特征向量是频镨向量,所述说话者特 性适应装置用于通过下述操作更新似然性分布将所述说话者特性适应向量与每个所述典型特征向量相乘,以便 生成第一修正的典型特征向量; 将所述第一修正的典型特征向量加上所述噪声特征向量,以便生成第二修正的典型特征向量;以及确定所述第二修正的典型特征向量在特征空间中的统计分布,作 为似然性分布。18、 根据权利要求16的设备,其中所述说话者特性适应装置用 于通过下述操作确定或更新所述说话者特性适应向量给每个所述输入特征向量分配最佳匹配语音单元; 计算每个所述输入特征向量和所述相应的典型特征向量之间的差分向量;对每语音单元的差分向量求平均,并且生成音素特定的平均差分 向量;以及在所述音素特定的平均差分向量之上求平均。19、 根据权利要求14的设备,还包括 用于根据所述最佳匹配的单词模型,合成姓名的合成器;以及 其中所述控制器拨打电话薄中对应于根据所迷最佳匹配的单词模型合成的姓名的号码。20...
【专利技术属性】
技术研发人员:D鲁维什,
申请(专利权)人:知识风险基金二一有限责任公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。