说话人声音的后台学习制造技术

技术编号:3046902 阅读:339 留言:0更新日期:2012-04-11 18:40
一个说话人识别系统,含有一个说话人模型生成器110用于产生大量的说话人模型。为此,该生成器在没有谁说出各自训练话语的说话人先验知识的情况下,在后台接收大量说话人的训练话语。该生成器根据预定义的准则盲聚类训练话语。为每一个群集训练一个对应的说话人模型。一个说话人识别器130识别说话人,对于从说话人接收的话语确定说话人模型中最可能的一个。认定与最可能的说话人模型关联的说话人为测试话语的说话人。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及说话人的自动识别,通过接收测试话语;确定大量说话人模型中对于测试话语来说最可能的一个;将与最可能的语音模型关联的说话人确定为测试话语的说话人。说话人识别正变得越来越重要。传统的说话人识别用于安全的目的,例如根据声音特征核实说话人的身份。随着为CE设备发展了越来越多的声控应用,说话人识别也能够在将来简化与CE设备的交互中起重要的作用。在传统说话人识别(说话人ID)的任务中,使用客户的注册数据训练特定说话人的模型。通常使用隐式马尔可夫模型(HMM)来模型化子词单元,例如音素或双音素。为了获得好的性能,可靠的系统需要大量的注册数据来描述说话人的声音特征。特别是因为说话人的声音特征从一段时间到另一段时间会发生显著的改变,所以需要有许多不同时期的数据。每个说话人训练自己的模型。因而说话人在实际训练开始之前必须在系统中注册。一旦训练了模型,将待识别或核实的说话人话语与所有说话人模型进行比较。通过定位对于该话语可能性最高的模型并获取与模型关联的说话人身份来确定说话人的身份。因为用户讨厌花费很多时间来训练系统,所以需要将对说话人的要求和训练数据数量降到最小。实质上已经提出了各种方本文档来自技高网...

【技术保护点】
一种自动识别说话人的方法,方法包括: 识别说话人,通过: 接收说话人的测试话语; 确定大量说话人模型中对于测试话语最可能的一个;以及 认定与最可能的说话人模型关联的说话人为测试话语的说话人; 其中方法包括在后台产生大量说话人模型,通过: 在没有谁说出各自训练话语的说话人先验知识的情况下,在后台接收大量说话人的训练话语; 根据预定义的准则对训练话语进行盲聚类;以及 为每一个群集训练一个对应的说话人模型;每个模型表示一个说话人。

【技术特征摘要】
EP 2001-5-10 01201720.81.一种自动识别说话人的方法,方法包括识别说话人,通过接收说话人的测试话语;确定大量说话人模型中对于测试话语最可能的一个;以及认定与最可能的说话人模型关联的说话人为测试话语的说话人;其中方法包括在后台产生大量说话人模型,通过在没有谁说出各自训练话语的说话人先验知识的情况下,在后台接收大量说话人的训练话语;根据预定义的准则对训练话语进行盲聚类;以及为每一个群集训练一个对应的说话人模型;每个模型表示一个说话人。2.如权利要求1中要求的方法,其中根据预定义准则对训练话语xi,i<N进行盲聚类,包括按照对应的模型λj模型化每一个相应的训练话语xi;为每一个训练话语xi计算一个相应的似然向量Li,其中每个向量元素Lij,1≤j≤N,表示训练话语xi对于各个模型λj的似然性;为每个训练话语xi计算对应的等级向量Fi,其中为等级向量Fi中的每一个元素Fij分配一个等级值,该等级值表示对应似然性Lij与似然向量Li中其它元素相比的等级,这样较高的等级值Fij反映较高的似然值Lij;聚类训练话语xi,依据的准则是Fi和Fj之间的距离度量最小表示训练话语xi和xj来自同一个说话人。3.如权利要求2中要求的方法,其中等级是这样的,似然向量Li似然值最小的η个元素Lij由等级向量Fi对应元素Fij的截然不同的值表示,似然向量LI的剩余N-η个元素由等级向量Fi对应元素Fij的相同预定义等级值表示,其中η表示每个群集希望的训练话语数量,并且预定义的等级值低于η个截然不同的等级值中的任一个。4.如权利要求1中要求的方法,其中方法包括接收说话人的注册话语;确定大量说话...

【专利技术属性】
技术研发人员:CS黄YC楚WH蔡JM程
申请(专利权)人:皇家菲利浦电子有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1