【技术实现步骤摘要】
本专利技术涉及一种说话人对照技术,特别涉及适用于由多个假说的加权和构成的说话人识别器的更新中的更新用数据的生成方法、以及使用上述更新用数据的说话人识别器的更新方法等。
技术介绍
非专利文献1中,记载了以往的说话人对照方法之一例。图7中示出了使用上述方法的说话人识别器学习装置。图7所示的说话人识别器学习装置,具有声音输入部301、声音分析机构302、说话人识别器学习机构303、背景说话人数据存储部304、以及说话人识别器存储部305。图8中示出了使用以往的说话人对照方法的说话人对照装置。图8所示的说话人对照装置,具有声音输入部401、声音分析机构402、说话人对照机构403、说话人识别器存储部405、以及对照结果输出部404。具有这样的构成的以往的说话人识别器学习装置以及说话人对照装置,如下进行动作。也即,说话人登录时,从声音输入部301输入登录说话人的声音,由声音分析机构302变换成特征量数据,使用上述所变换的登录说话人声音特征量数据、与背景说话人数据存储部304中存储的不确定多个说话人的发声的特征量数据即背景说话人声音特征量数据,由说话人识别器学习机构303,学习对登录说话人声音与其他说话人即背景说话人声音进行识别的说话人识别器,在说话人识别器存储部305中存储登录说话人的识别器。说话人对照时,从声音输入部401输入对照说话人的声音,由声音分析机构402变换成特征量数据,使用该对照声音特征量数据、与说话人识别器存储部405中所存储的由对照说话人主张的主张说话人的识别器,由说话人对照机构403判断对照说话人声音与主张说话人是否是同一个说话人,并将对照结 ...
【技术保护点】
一种更新用数据生成装置,生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据,其特征在于: 具有更新用数据生成机构,其具备:将登录说话人声音特征量数据输入给登录说话人的说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能;将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能;以及,将上述登录说话人得分矢量列与上述背景说话人得分矢量列保存到存储装置中的功能。
【技术特征摘要】
JP 2005-8-23 2005-2417611.一种更新用数据生成装置,生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据,其特征在于具有更新用数据生成机构,其具备将登录说话人声音特征量数据输入给登录说话人的说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能;将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能;以及,将上述登录说话人得分矢量列与上述背景说话人得分矢量列保存到存储装置中的功能。2.如权利要求1所述的更新用数据生成装置,其特征在于上述更新用数据生成机构,计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量。3.如权利要求2所述的更新用数据生成装置,其特征在于上述充分统计量,包括上述登录说话人声音特征量数据的个数、上述背景说话人声音特征量数据的个数、上述登录说话人得分矢量列的平均值、上述背景说话人得分矢量列的平均值、将登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值。4.一种说话人对照装置,具备预先对每个登录说话人存储由M个假说的加权和构成的说话人识别器的说话人识别器存储部、以及通过上述说话人识别器进行说话人对照的说话人对照机构,其特征在于该说话人对照装置中,具有更新用数据存储部,其预先存储登录说话人得分矢量列和背景说话人得分矢量列,其中登录说话人得分矢量列由多个矢量构成,该多个矢量以将登录说话人声音特征量数据输入给登录说话人的说话人识别器并作为上述多个假说的输出而得到的假说得分为要素,背景说话人得分矢量列由多个矢量构成,该多个矢量以将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器并作为上述多个假说的输出而得到的假说得分为要素;更新用数据更新机构,其具有如下功能,在由上述说话人对照机构判断为对照说话人所主张的说话人合法的情况下,生成由多个矢量构成的对照说话人得分矢量列,该多个矢量以将上述对照说话人的声音的特征量数据输入给构成上述对照说话人的说话人识别器的上述各个假说并作为其输出所得到的假说得分为要素,并且通过将该矢量与上述登录说话人得分矢量列相结合,来更新上述登录说话人得分矢量列;以及,说话人识别器更新机构,其具有如下功能,通过对上述登录说话人得分矢量列与上述背景说话人得分矢量列应用M维空间中的两等级的最佳分离问题,求出投影方向的M维矢量,并通过将该矢量的各个要素作为上述权重,来更新上述对照说话人的说话人识别器。5.如权利要求4所述的说话人对照装置,其特征在于上述更新用数据存储部中,保存有上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量,上述说话人识别器更新机构,具有根据上述充分统计量计算出上述对照说话人与上述背景说话人的得分矢量的分布的功能。6.如权利要求5所述的说话人对照装置,其特征在于上述充分统计量,是上述登录说话人声音特征量数据的个数、上述背景说话人声音特征量数据的个数、上述登录说话人得分矢量列的平均值、上述背景说话人得分矢量列的平均值、将上述登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将上述背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值,上述说话人识别器更新机构,根据上述充分统计量计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的M维正态分布,根据该M维正态分布,计算出使得上述登录说话人得分矢量列与上述背景说话人得分矢量列的分离达到最佳的1维投影,将表示该投影的方向的M维矢量的范数标准化为1,并将所得到的矢量的各个要素作为上述权重。7.一种说话人识别器更新用数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。