多媒体系统中的说话者识别技术方案

技术编号:16308406 阅读:30 留言:0更新日期:2017-09-27 02:15
一种用于识别多媒体系统的多个用户中的用户的方法,包括:使用总可变性建模来提取用于语音话语的i向量;将所提取的i向量与i向量集的集合进行比较,以便识别与提取的i向量最相似的目标集;以及根据与所识别的目标集相关联的访问简档授予对多媒体系统的访问权。此外,对于使用特定数据源获取的每个语音话语,源变化通过以下方式被最小化:使与源相关联的信息先验的平均值周围的语音话语的一阶统计量重新定中心;并且当提取用于语音话语的i向量时,使用与源相关联的信息先验的协方差。

Speaker recognition in multimedia systems

Includes a method for multiple user identification of multimedia system users in general use: variability modeling to extract the I vector for the speech utterance; set the extracted I vector and I vector set compared to the target I vector recognition and extraction of the most similar set; and the grant of a multimedia system access to the identified target set access profile associated with. In addition, for each speech utterance using specific data source, the source change is minimized by the following way: the average value is associated with the source a priori information statistics of speech discourse around the re centering; and when the extraction for I vector Speech Discourse, using the covariance associated with a source of prior information the.

【技术实现步骤摘要】
【国外来华专利技术】多媒体系统中的说话者识别专利
本专利技术涉及应用于多媒体呈现系统的控制和使用中的说话者识别,特别地用于以更加用户友好的操作模式浏览和选择媒体文件,并且区分由一个或更多个用户给出的口头命令。本专利技术还涉及从多个数字数据源获取和提供向个体用户供给的多媒体信息的访问控制。访问控制方法将在多用户和多房间环境中使用。本专利技术的主要方面是基于i向量提取和验证的说话者识别方法。专利技术背景通常,家用电器(如AV系统和媒体服务器)不会在真正的多用户环境中运行。通常,具有带有音乐、电影、照片和其他数字文件的文件夹的服务器/磁盘可以被所有用户无条件地访问,所有用户都具有相同的优先级和访问权限。每个人都可以访问和处理所有信息,如编辑文件、读取文件、写入/创建文件、删除文件和执行文件。在US8,924,468中公开了适用于多用户访问和多媒体信息的分发的系统的现有技术。在DKPA201400147中公开了用于i向量检测和分类的方法的现有技术。到目前为止,挑战是识别可能已经分配个体资源的特定用户。要求用户在从IT系统知道的普通事件中“登录”以识别他们自己是非常不方便的。经由口头命令和语音识别来识别用户的新方法是可行的应用模式,但现有系统在识别命令并将这些命令转换为相关控制命令时需要在线处理方面的大量资源。i向量特征提取方法近年来一直是说话者识别中最先进的技术。i向量捕获总可变性,其可包括说话者、频道和源可变性。可变长度语音话语被映射到驻留在所谓的总可变性空间中的固定长度的低维向量中。虽然可以直接使用原始i向量分布来工作,但是i向量的固定长度已经导致了许多功能强大且众所周知的频道补偿技术,其处理不期望的频道可变性并因此提高了说话者识别性能。作为一个好的起点,线性判别分析(LDA)是一种非概率方法,其被用于进一步降低i向量的维数,其同时最大化说话者之间的可变性,并最小化说话者内部的可变性。在定中心和白化之后,i向量或多或少均匀分布在超球体周围。通常进行的重要的进一步的改进是长度归一化,其将i向量分布转换成对模型更直接的(几乎)高斯分布。概率LDA是一种生成模型,其使用因子分析方法来单独对导致说话者之间和讲话者内部变化的因素进行建模。在现有技术中已经提出了在i向量方法的背景下的PLDA的许多变体。另一种众所周知的方法是类内协方差归一化(WCCN),其使用类内协方差矩阵的逆来对SVM分类器中的线性内核进行归一化。在i向量建模中使用多个级联技术是典型的:例如为了确保PLDA的高斯假设,在PLDA阶段之前进行白化,然后进行长度归一化并不罕见。由于频道变化和源变化都有助于降低辨别说话者的能力,因此提出的反对频道变化和源变化的方法彼此相似并不奇怪。当从异构数据集中提取i向量时,它们不仅会捕获说话者和频道可变性,还会捕获源变化。如果未解决此源变化,则会对说话者识别性能产生不利影响。源变化的概念与语音获取方法(例如,电话相对于麦克风频道类型)和录制场景(例如,电话对话相对于面谈风格)有关。风格和频道类型的各种组合(例如,通过麦克风频道记录的面谈语音)形成由相对均匀的子集组成的异构数据集。在此工作中,数据集由电话、麦克风(通过麦克风频道录制的电话对话)和面谈子集或源组成。存在几个提议来解决在总可变性建模的背景下的源变化问题。异构数据集中常见的现象是以下事实:并不是所有的源都是同样充裕的,且大多数的说话者只出现在源中的仅一个源中。在LDA的背景中,源变化将被强烈地表示并被看作为说话者之间可变性的一部分,并因此将在最终的LDA变换中被最优化。解决这个问题的一个提议是确定合适的说话者间散射矩阵。对于总可变性矩阵本身的训练,尽管相当粗糙,但是最简单的方法之一是仅仅将所有训练数据汇集到异构集中,而不区分麦克风和电话数据。更加结构化的提议建议在已经训练过的电话数据的总可变性矩阵之上训练用于麦克风子集的辅助矩阵。然后从通过连结这两个矩阵形成的总可变性矩阵提取i向量。使用这种方法看到的有趣的观察在于,麦克风数据驻留在由矩阵连结所定义的组合空间中,而电话数据仅驻留在电话空间中。在总可变性建模中,对于说话者、频道和总可变性潜在变量,假定无信息先验,因为在使用信息先验时,通用性没有增益。至少在涉及均匀的数据集时,该断言成立。信息先验编码领域知识的观念不是新的概念,而以前已经被用于机器学习应用。在连续语音识别的背景中,在稀疏数据的情况下也使用了信息先验来改善无限结构SVM模型的普遍化。本专利技术的一般公开本专利技术公开了一种用于识别多个用户中的个体用户以用于对多媒体呈现系统的控制和使用的改进方法。一种用于识别多媒体系统的多个用户中的用户的方法,该多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备,以便提供对来自多媒体系统的多媒体内容的单独调整的访问和控制,该方法包括以下步骤:提供i向量集的集合,每个i向量集包括基于多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量;从当前用户获取语音话语,并使用总可变性建模来提取用于语音话语的i向量;将提取的i向量与集合中的每个i向量集进行比较,以便识别与提取的i向量最相似的目标集;根据与识别的目标集相关联的访问简档向当前用户授予对多媒体系统的访问权,其中使用多个源之一来获取语音话语。在总可变性建模中,通过以下操作将源变化最小化:-对于每个数据源,估计源特定信息先验,其由平均值和协方差定义,以及-对于使用特定数据源获取的每个语音话语,将语音话语的一阶统计量围绕与源相关联的信息先验的平均值重新定中心,并且当提取用于语音话语的i向量时,使用与源相关联的信息先验的协方差。根据本专利技术的方面,特定源的概率分布从语音数据被估计出,并且随后在贝叶斯意义中使用以消除总可变性模型中的源可变性。估计的概率分布被称为“源特定信息先验”。根据本专利技术的解决方案增强了基于i向量的声音识别的性能。根据一种方法,已经训练的总可变性矩阵和标准的无信息先验被用于从数据的每个子集提取i向量,并然后使用这些i向量来估计源特定信息先验。源特定信息先验随后被用于后验概率分布的计算(称为“后验”)以计算新的i向量集。(后验的平均值对应于i向量。)根据这种方法,使用源特定先验的i向量可以被用于补偿不需要的源可变性。根据另一种方法,再次训练总可变性矩阵。在这里,源特定先验的作用被扩展到对于给定训练迭代重新估计“信息”总可变性矩阵所需的每个期望最大化步骤中的后验平均值和协方差的计算。对于每个训练迭代,初步源特定先验被计算并用于更新信息总可变性矩阵。一旦训练完成,信息总可变性矩阵被用于提取i向量,并根据第一种方法估计源特定先验。根据这种方法,可以通过使用先验信息来改善总可变性矩阵的初始对准来提高第一种方法的性能。根据又一种方法,使用因子分析来估计信息先验。在这种方法中,考虑后验的平均值和协方差(其中再次地,平均值对应于i向量)。根据本专利技术的解决方案可能在其中需要识别大量不同的声音的情况下特别有用。这样的情况存在,例如,当用户的声纹(i向量)被存储在云中时(与许多其他一起),或者当识别设备的功能被扩展到包括不是家庭一部分的其他用户时。根据一个实施例,目标i向量的集和相关联的访问简档被存储在远程数据库中并使其可被多于一个多媒体系统访问。涉及大量不同用本文档来自技高网...
多媒体系统中的说话者识别

【技术保护点】
一种用于识别多媒体系统的多个用户中的用户的方法,所述多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备,以便提供对来自所述多媒体系统的多媒体内容的单独调整的访问和控制,所述方法包括以下步骤:提供i向量集的集合,每个i向量集包括基于所述多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量,从当前用户获取语音话语,并使用总可变性建模来提取用于所述语音话语的i向量,将所提取的i向量与所述集合中的每个i向量集进行比较,以便识别与所述提取的i向量最相似的目标集,根据与所识别的目标集相关联的所述访问简档向所述当前用户授予对所述多媒体系统的访问权,其中,使用多个源中的一个源获取所述语音话语,并且其中,所述方法还包括通过以下方式来最小化所述总可变性建模中的源变化:对于每个数据源,估计由平均值和协方差定义的源特定信息先验,以及对于使用特定数据源获取的每个语音话语,将所述语音话语的一阶统计量围绕与所述源相关联的所述信息先验的平均值重新定中心,并且当提取用于所述语音话语的i向量时使用与所述源相关联的所述信息先验的协方差。

【技术特征摘要】
【国外来华专利技术】2015.02.11 DK PA201500077;2015.04.13 DK PA201500221.一种用于识别多媒体系统的多个用户中的用户的方法,所述多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备,以便提供对来自所述多媒体系统的多媒体内容的单独调整的访问和控制,所述方法包括以下步骤:提供i向量集的集合,每个i向量集包括基于所述多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量,从当前用户获取语音话语,并使用总可变性建模来提取用于所述语音话语的i向量,将所提取的i向量与所述集合中的每个i向量集进行比较,以便识别与所述提取的i向量最相似的目标集,根据与所识别的目标集相关联的所述访问简档向所述当前用户授予对所述多媒体系统的访问权,其中,使用多个源中的一个源获取所述语音话语,并且其中,所述方法还包括通过以下方式来最小化所述总可变性建模中的源变化:对于每个数据源,估计由平均值和协方差定义的源特定信息先验,以及对于使用特定数据源获取的每个语音话语,将所述语音话语的一阶统计量围绕与所述源相关联的所述信息先验的平均值重新定中心,并且当提取用于所述语音话语的i向量时使用与所述源相关联的所述信息先验的协方差。2.根据权利要求1所述的方法,其中,估计源特定信息先验包括:从获取自所述数据源的数据中提取源特定i向量集,以及使用所述源特定i向量集来估计所述源特定信息先验。3.根据权利要求2所述的方法,其中,使用预训练的总可变性矩阵和无信息先验来完成提取源特定i向量集。4.根据权利要求2所述的方法,其中,使用信息总可变性矩阵和无信息先验来完成提取源特定i向量集,并且其中,所述信息总可变性矩阵通过以下方式计算而得:执行多个训练迭代,例如期望最大化训练迭代,每个迭代包括计算初步源特定信息先验并且使用所述初步源特定信息先验来更新所述信息总可变性矩阵。5.根据前述权利要求中的一项所述的方法,还包括将所述i向量集的集合和相关联的访问简档存储在远程数据库中并且使得它们可被多于一个多媒体系统访问。6.根据权利要求5所述的方法,还包括存储每个用户的内容消费模式并且基于与当前用户具有相似选择的其他用户的选择向当前用户提供建议。7.根据前述权利要求中的一项所述的方法,还包括:提供i向量类的集合,每个i...

【专利技术属性】
技术研发人员:斯文·伊万·谢普斯通索伦·博勒普詹森
申请(专利权)人:邦及欧路夫森有限公司
类型:发明
国别省市:丹麦,DK

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1