多媒体系统中的说话者识别技术方案

技术编号：16308406 阅读：30 留言：0更新日期：2017-09-27 02:15

一种用于识别多媒体系统的多个用户中的用户的方法，包括：使用总可变性建模来提取用于语音话语的i向量；将所提取的i向量与i向量集的集合进行比较，以便识别与提取的i向量最相似的目标集；以及根据与所识别的目标集相关联的访问简档授予对多媒体系统的访问权。此外，对于使用特定数据源获取的每个语音话语，源变化通过以下方式被最小化：使与源相关联的信息先验的平均值周围的语音话语的一阶统计量重新定中心；并且当提取用于语音话语的i向量时，使用与源相关联的信息先验的协方差。

Speaker recognition in multimedia systems

Includes a method for multiple user identification of multimedia system users in general use: variability modeling to extract the I vector for the speech utterance; set the extracted I vector and I vector set compared to the target I vector recognition and extraction of the most similar set; and the grant of a multimedia system access to the identified target set access profile associated with. In addition, for each speech utterance using specific data source, the source change is minimized by the following way: the average value is associated with the source a priori information statistics of speech discourse around the re centering; and when the extraction for I vector Speech Discourse, using the covariance associated with a source of prior information the.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】多媒体系统中的说话者识别专利
本专利技术涉及应用于多媒体呈现系统的控制和使用中的说话者识别，特别地用于以更加用户友好的操作模式浏览和选择媒体文件，并且区分由一个或更多个用户给出的口头命令。本专利技术还涉及从多个数字数据源获取和提供向个体用户供给的多媒体信息的访问控制。访问控制方法将在多用户和多房间环境中使用。本专利技术的主要方面是基于i向量提取和验证的说话者识别方法。专利技术背景通常，家用电器(如AV系统和媒体服务器)不会在真正的多用户环境中运行。通常，具有带有音乐、电影、照片和其他数字文件的文件夹的服务器/磁盘可以被所有用户无条件地访问，所有用户都具有相同的优先级和访问权限。每个人都可以访问和处理所有信息，如编辑文件、读取文件、写入/创建文件、删除文件和执行文件。在US8,924,468中公开了适用于多用户访问和多媒体信息的分发的系统的现有技术。在DKPA201400147中公开了用于i向量检测和分类的方法的现有技术。到目前为止，挑战是识别可能已经分配个体资源的特定用户。要求用户在从IT系统知道的普通事件中“登录”以识别他们自己是非常不方便的。经由口头命令和语音识别来识别用户的新方法是可行的应用模式，但现有系统在识别命令并将这些命令转换为相关控制命令时需要在线处理方面的大量资源。i向量特征提取方法近年来一直是说话者识别中最先进的技术。i向量捕获总可变性，其可包括说话者、频道和源可变性。可变长度语音话语被映射到驻留在所谓的总可变性空间中的固定长度的低维向量中。虽然可以直接使用原始i向量分布来工作，但是i向量的固定长度已经导致了许多功能强大且众所周知的频...
多媒体系统中的说话者识别

【技术保护点】
一种用于识别多媒体系统的多个用户中的用户的方法，所述多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备，以便提供对来自所述多媒体系统的多媒体内容的单独调整的访问和控制，所述方法包括以下步骤：提供i向量集的集合，每个i向量集包括基于所述多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量，从当前用户获取语音话语，并使用总可变性建模来提取用于所述语音话语的i向量，将所提取的i向量与所述集合中的每个i向量集进行比较，以便识别与所述提取的i向量最相似的目标集，根据与所识别的目标集相关联的所述访问简档向所述当前用户授予对所述多媒体系统的访问权，其中，使用多个源中的一个源获取所述语音话语，并且其中，所述方法还包括通过以下方式来最小化所述总可变性建模中的源变化：对于每个数据源，估计由平均值和协方差定义的源特定信息先验，以及对于使用特定数据源获取的每个语音话语，将所述语音话语的一阶统计量围绕与所述源相关联的所述信息先验的平均值重新定中心，并且当提取用于所述语音话语的i向量时使用与所述源相关联的所述信息先验的协方差。

【技术特征摘要】
【国外来华专利技术】2015.02.11 DK PA201500077;2015.04.13 DK PA201500221.一种用于识别多媒体系统的多个用户中的用户的方法，所述多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备，以便提供对来自所述多媒体系统的多媒体内容的单独调整的访问和控制，所述方法包括以下步骤：提供i向量集的集合，每个i向量集包括基于所述多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量，从当前用户获取语音话语，并使用总可变性建模来提取用于所述语音话语的i向量，将所提取的i向量与所述集合中的每个i向量集进行比较，以便识别与所述提取的i向量最相似的目标集，根据与所识别的目标集相关联的所述访问简档向所述当前用户授予对所述多媒体系统的访问权，其中，使用多个源中的一个源获取所述语音话语，并且其中，所述方法还包括通过以下方式来最小化所述总可变性建模中的源变化：对于每个数据源，估计由平均值和协方差定义的源特定信息先验，以及对于使用特定数据源获取的每个语音话语，将所述语音话语的一阶统计量围绕与所述源相关联的所述信息先验的平均值重新定中心，并且当提取用于所述语音话语的i向量时使用与所述源相关联的所述信息先验的协方差。2.根据权利要求1所述的方法，其中，估计源特定信息先验包括：从获取自所述数据源的数据中提取源特定i向量集，以及使用所述源特定i向量集来估计所述源特定信息先验。3.根据权利要求2所述的方法，其中，使用预训练的总可变性矩阵和无信息先验来完成提取源特定i向量集。4.根据权利要求2所述的方法，其中，使用信息总可变性矩阵和无信息先验来完成提取源特定i向量集，并且其中，所述信息总可变性矩阵通过以下方式计算而得：执行多个训练迭代，例如期望最大化训练迭代，每个迭代包括计算初步源特定信息先验并且使用所述初步源特定信息先验来更新所述信息总可变性矩阵。5.根据前述权利要求中的一项所述的方法，还包括将所述i向量集的集合和相关联的访问简档存储在远程数据库中并且使得它们可被多于一个多媒体系统访问。6.根据权利要求5所述的方法，还包括存储每个用户的内容消费模式并且基于与当前用户具有相似选择的其他用户的选择向当前用户提供建议。7.根据前述权利要求中的一项所述的方法，还包括：提供i向量类的集合，每个i...

【专利技术属性】
技术研发人员：斯文·伊万·谢普斯通，索伦·博勒普詹森，
申请(专利权)人：邦及欧路夫森有限公司，
类型：发明
国别省市：丹麦,DK

全部详细技术资料下载我是这个专利的主人