更新用数据生成装置及更新用数据生成方法制造方法及图纸

技术编号:3045458 阅读:161 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种考虑到声音随年龄变化而变动,能够以较低成本来更新登录说话人的识别器的说话人对照装置等。更新用数据生成装置(10)具有更新用数据生成机构(17),该机构具备:将登录说话人声音特征量数据输入给登录说话人的说话人识别器来取得假说得分,并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能;将背景说话人声音特征量数据输入给登录说话人的说话人识别器来取得假说得分,并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能;以及,将登录说话人得分矢量列与背景说话人得分矢量列保存到存储装置(18)中的功能。

【技术实现步骤摘要】

本专利技术涉及一种说话人对照技术,特别涉及适用于由多个假说的加权和构成的说话人识别器的更新中的更新用数据的生成方法、以及使用上述更新用数据的说话人识别器的更新方法等。
技术介绍
非专利文献1中,记载了以往的说话人对照方法之一例。图7中示出了使用上述方法的说话人识别器学习装置。图7所示的说话人识别器学习装置,具有声音输入部301、声音分析机构302、说话人识别器学习机构303、背景说话人数据存储部304、以及说话人识别器存储部305。图8中示出了使用以往的说话人对照方法的说话人对照装置。图8所示的说话人对照装置,具有声音输入部401、声音分析机构402、说话人对照机构403、说话人识别器存储部405、以及对照结果输出部404。具有这样的构成的以往的说话人识别器学习装置以及说话人对照装置,如下进行动作。也即,说话人登录时,从声音输入部301输入登录说话人的声音,由声音分析机构302变换成特征量数据,使用上述所变换的登录说话人声音特征量数据、与背景说话人数据存储部304中存储的不确定多个说话人的发声的特征量数据即背景说话人声音特征量数据,由说话人识别器学习机构303,学习对登录说话人声音与其他说话人即背景说话人声音进行识别的说话人识别器,在说话人识别器存储部305中存储登录说话人的识别器。说话人对照时,从声音输入部401输入对照说话人的声音,由声音分析机构402变换成特征量数据,使用该对照声音特征量数据、与说话人识别器存储部405中所存储的由对照说话人主张的主张说话人的识别器,由说话人对照机构403判断对照说话人声音与主张说话人是否是同一个说话人,并将对照结果输出给对照结果输出部404。对以往的说话人识别器学习机构303进行说明。学习数据通过(公式1)表示。将声音特征量数据用x表示,将教师级别标识用y表示。这里,y对于登录说话人声音而言是+1,对于背景说话人声音而言是-1。公式1(x1,y1),…,(xN,yN)另外,设登录说话人声音特征数据数为Na,背景说话人声音特征数据数为Nb,学习数据总数为N=Na+Nb。学习到的说话人识别器通过(公式2)表示。识别器H(x),由M个假说(hypothesis)hm(x)的加上权重αm的和构成。公式2H(x)=Σm=1Mαmhm(x),hm(x)∈[-1,1]]]>识别器学习对学习数据决定hm(x)以及αm,使得损失函数(公式3)最小化。公式31NΣi=1Nexp[-yiH(xi)]]]>该hm(x)以及αm决定,使用AdaBoost算法执行。各个假说hm(x),对于输入数据x而言是输出从-1到1的实数值的函数,如果输出值为非负,便判断为登录说话人声音,如果为负,则判断为其他说话人声音。将各个假说hm(x)的输出值,称作假说得分。该以往方式中,这些假说hm(x)的判断精度不需要很高,即使在判断精度较低的情况下,使用登录说话人声音与背景说话人声音来由多个假说的加权和所构成的识别器H(x),其识别精度也能够很高。说话人对照机构403中,对主张说话人的识别器H(x)输入对照声音数据,将其得分与阈值进行比较,判断能否将对照声音与主张说话人视为同一个说话人。非专利文献1Stan Z.Li,Dong Zhang,Chengyuan Ma,Heung-Yeung Shum,and EricChang,“Learning to Boost GMM Based Speaker Verifications”,Proceedingsof EUROSPEECH Conference 2003. 上述以往的说话人识别器的第1问题点在于,登录时与对照时,随着时间的经过性能恶化较大。其原因是,声音随着随年龄变化而变动这是公知的,而以往的识别器的学习,所学习的是区别登录说话人声音与背景说话人声音,因此如果登录时的声音与对照时的声音相比变动较大,则即使是本人,多数情况下也会弄错而被拒绝。第2问题点在于,进行识别器的再学习与进行更新的成本很高。其原因是,以往的识别器学习方式中,需要事先存储背景说话人数据,另外学习由多个假说的加权和所构成的说话人识别器所需的计算量较大。
技术实现思路
因此,本专利技术的目的在于,提供一种考虑到声音随年龄变化而发生变动,能够以低成本来更新登录说话人的识别器的说话人对照装置等。本专利技术的更新用数据生成装置,具有通过将登录说话人的声音特征量与背景说话人的声音特征量输入给登录说话人的说话人识别器,来生成登录说话人得分矢量列与背景说话人得分矢量列的更新用数据生成装置。上述更新用数据生成装置所生成的登录说话人得分矢量列与背景说话人得分矢量列,统计性地表示出在登录说话人的说话人识别器中输入登录说话人的声音特征量与登录说话人以外的人即背景说话人的声音特征量时所得到的得分的倾向。因此,只要使用这些数据,无需使用背景说话人的声音特征量本身,就能够进行考虑到了登录说话人的声音的随年龄变化所引起的变动等的说话人识别器的更新。另外,由于登录说话人得分矢量列与背景说话人得分矢量列的数据大小,比多个背景说话人的声音特征量的数据大小更小,因此能够削减用来保存更新说话人识别器所需的数据的存储容量。上述更新用数据生成装置中,可以计算出登录说话人得分矢量列与背景说话人得分矢量列的矢量空间中的分布的充分统计量。通过这样,与存储得分矢量列本身的情况相比,能够削减为了保存更新说话人识别器所需的数据的存储容量。上述更新用数据生成装置中,作为充分统计量,可计算出登录说话人声音特征量数据的个数、背景说话人声音特征量数据的个数、登录说话人得分矢量列的平均值、背景说话人得分矢量列的平均值、将登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值。通过这样,能够将假说得分的分布假定为正态分布,根据充分统计量计算出假说得分分布。本专利技术的声音对照装置,具有更新用数据存储部,在该存储部中预先存储有登录说话人得分矢量列与背景说话人得分矢量列。更新用数据更新机构,将合法性得到确认的对照说话人的声音的特征量数据,输入给构成对照说话人的说话人识别器的M个假说,并生成以作为其输出得到的假说得分为要素的多个矢量所构成的对照说话人得分矢量列,通过将该矢量与更新用数据存储部中所存储的登录说话人得分矢量列相结合,来更新登录说话人得分矢量列。说话人识别器更新机构,通过对更新过的登录说话人得分矢量列与背景说话人得分矢量列应用M维空间中的两等级的最佳分离问题,求出投影方向的M维矢量,通过将该矢量的各个要素作为对照说话人的说话人识别器的权重,来更新对照说话人的说话人识别器。上述说话人对照装置,通过对照时所得到的对照说话人得分矢量列,更新登录说话人得分矢量列,根据该更新后的登录说话人得分矢量列与背景说话人得分矢量列,更新对照说话人的说话人识别器。因此,即使不保持背景说话人的声音特征量,也能够对应随年龄变化等所引起的对照说话人的声音的变化,更新对照说话人的声音识别器。上述声音对照装置中,可以在更新用数据存储部中,事先保存登录说话人得分矢量列与背景说话人得分矢量列的矢量空间中的分布的充分统计本文档来自技高网
...

【技术保护点】
一种更新用数据生成装置,生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据,其特征在于:    具有更新用数据生成机构,其具备:将登录说话人声音特征量数据输入给登录说话人的说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能;将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能;以及,将上述登录说话人得分矢量列与上述背景说话人得分矢量列保存到存储装置中的功能。

【技术特征摘要】
JP 2005-8-23 2005-2417611.一种更新用数据生成装置,生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据,其特征在于具有更新用数据生成机构,其具备将登录说话人声音特征量数据输入给登录说话人的说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能;将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器,取得作为上述多个假说的输出的假说得分,并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能;以及,将上述登录说话人得分矢量列与上述背景说话人得分矢量列保存到存储装置中的功能。2.如权利要求1所述的更新用数据生成装置,其特征在于上述更新用数据生成机构,计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量。3.如权利要求2所述的更新用数据生成装置,其特征在于上述充分统计量,包括上述登录说话人声音特征量数据的个数、上述背景说话人声音特征量数据的个数、上述登录说话人得分矢量列的平均值、上述背景说话人得分矢量列的平均值、将登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值。4.一种说话人对照装置,具备预先对每个登录说话人存储由M个假说的加权和构成的说话人识别器的说话人识别器存储部、以及通过上述说话人识别器进行说话人对照的说话人对照机构,其特征在于该说话人对照装置中,具有更新用数据存储部,其预先存储登录说话人得分矢量列和背景说话人得分矢量列,其中登录说话人得分矢量列由多个矢量构成,该多个矢量以将登录说话人声音特征量数据输入给登录说话人的说话人识别器并作为上述多个假说的输出而得到的假说得分为要素,背景说话人得分矢量列由多个矢量构成,该多个矢量以将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器并作为上述多个假说的输出而得到的假说得分为要素;更新用数据更新机构,其具有如下功能,在由上述说话人对照机构判断为对照说话人所主张的说话人合法的情况下,生成由多个矢量构成的对照说话人得分矢量列,该多个矢量以将上述对照说话人的声音的特征量数据输入给构成上述对照说话人的说话人识别器的上述各个假说并作为其输出所得到的假说得分为要素,并且通过将该矢量与上述登录说话人得分矢量列相结合,来更新上述登录说话人得分矢量列;以及,说话人识别器更新机构,其具有如下功能,通过对上述登录说话人得分矢量列与上述背景说话人得分矢量列应用M维空间中的两等级的最佳分离问题,求出投影方向的M维矢量,并通过将该矢量的各个要素作为上述权重,来更新上述对照说话人的说话人识别器。5.如权利要求4所述的说话人对照装置,其特征在于上述更新用数据存储部中,保存有上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量,上述说话人识别器更新机构,具有根据上述充分统计量计算出上述对照说话人与上述背景说话人的得分矢量的分布的功能。6.如权利要求5所述的说话人对照装置,其特征在于上述充分统计量,是上述登录说话人声音特征量数据的个数、上述背景说话人声音特征量数据的个数、上述登录说话人得分矢量列的平均值、上述背景说话人得分矢量列的平均值、将上述登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将上述背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值,上述说话人识别器更新机构,根据上述充分统计量计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的M维正态分布,根据该M维正态分布,计算出使得上述登录说话人得分矢量列与上述背景说话人得分矢量列的分离达到最佳的1维投影,将表示该投影的方向的M维矢量的范数标准化为1,并将所得到的矢量的各个要素作为上述权重。7.一种说话人识别器更新用数...

【专利技术属性】
技术研发人员:大西祥史
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1