用于度量语音数据库覆盖性的无监督模型训练方法及装置制造方法及图纸

技术编号:24331311 阅读:39 留言:0更新日期:2020-05-29 19:41
本公开是关于一种用于度量语音数据库覆盖性的无监督模型训练方法,所述方法包括:获取训练数据,所述训练数据为语音;确定语音数据库覆盖性的一个或多个评价因素;基于训练数据是否可通过参数调整控制,划分评价因素为可调因素或不可调因素;确定划分后的每个评价因素对应的聚类算法;通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类;根据每个所述评价因素的多个子类,训练评价模型。该方法可以根据用户需要设定不同的评价要素度量相应的语音数据库,通过对评价因素的区分,有针对性地抽取不同的特征、选用合适的算法,同时可以利用无监督数据进行模型训练,降低了数据标注所引入的成本。

【技术实现步骤摘要】
用于度量语音数据库覆盖性的无监督模型训练方法及装置
本公开涉及语音信号处理领域,尤其涉及用于度量语音数据库覆盖性的无监督模型训练方法及装置、电子设备和计算机可读存储介质。
技术介绍
语音数据库的覆盖性是衡量语音数据库质量的一个重要指标,是指语音数据库针对评价因素的覆盖程度。例如:发音人的性别、语种、语音内容等因素。例如在训练的语音识别系统时,需要采集数量很大的说话人的语音用于训练,此时,选用的语音数据库覆盖性越好,就越可以包含更为广泛的语音空间,可以有效减低样本空间分布中影响。传统获取语音数据库的覆盖性是依靠语音数据库设计阶段的专家经验,在制订采集计划时使语音数据库中的语音在各种评价因素上分布尽量全面。但是对于已经采集完成的数据库,只有在语音信号处理建模后才能根据识别率等指标得到间接反馈。而在训练语音数据评价模型的过程中,训练数据划分不全面、缺乏人工标注的样本数据导致很难构建出准确的评价模型。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种用于度量语音数据库覆盖性的无监督模型训练方法及装置、电子设备和计算机可读存储介质。根据本公开实施例的第一方面,提供一种用于度量语音数据库覆盖性的无监督模型训练方法,方法包括:获取训练数据,训练数据为语音;确定语音数据库覆盖性的一个或多个评价因素;基于训练数据对应于评价因素是否可通过参数调整控制,划分评价因素为可调因素或不可调因素;确定划分后的每个评价因素对应的聚类算法;通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类;根据每个评价因素的多个子类,训练评价模型。在一实施例中,确定划分后的每个评价因素对应的聚类算法,包括:若评价因素为不可调因素,则确定其对应的聚类算法为基于距离的聚类算法;若评价因素为可调因素,则确定其对应的聚类算法为自适应训练算法。在一实施例中,通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类,包括:若评价因素为不可调因素,则提取训练数据的特征向量;根据特征向量,采用基于距离的聚类算法,将训练数据划分为多个子类。在一实施例中,基于距离的聚类算法为K均值聚类算法。在一实施例中,通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类,包括:若评价因素为可调因素,则提取训练数据的特征向量;通过特征向量,训练高斯混合模型,标注训练数据;根据标注的训练数据,将训练数据分为多个子类。在一实施例中,通过特征向量,训练高斯混合模型,标注训练数据,包括:通过特征向量训练高斯混合模型;根据评价因素,确定控制参数,控制参数可调整控制训练数据;遍历控制参数的所有取值,对训练数据进行变换;获取变换后的训练数据的特征向量使高斯混合模型似然度最大时的参数值;根据参数值累计似然度;根据参数值变换训练数据,得到新的训练数据,重新训练直到达到停止条件;将每个训练数据对应的使高斯混合模型似然度最大时的参数值作为训练数据的标注值。在一实施例中,停止条件包括:迭代次数达到预设阈值,或累计似然度与上次迭代中的累计似然度变化率小于预设阈值。在一实施例中,根据每个评价因素的多个子类,训练评价模型,包括:将每个子类数据分别训练一个或多个评价模型,或将多个子类数据整体训练一个评价模型。在一实施例中,语音数据库覆盖性的评价因素包括以下一个或多个:发音者的性别、发音者的年龄、发音者的口音、语速、音调、语种、采集设备、采集环境、发音因素或内容主题。根据本公开实施例的第二方面,提供一种度量语音数据库覆盖性的方法,方法包括,利用如第一方面的用于度量语音数据库覆盖性的无监督模型训练方法,得到每个评价因素的评价模型,获取待评价的语音数据库,其中,语音数据库中包括至少一条语音;通过评价因素的评价模型对语音数据库中的每条语音进行检测,得到语音数据库与评价因素相对应的单因素信息熵;根据单因素信息熵,确定语音数据库的覆盖度。根据本公开实施例的第三方面,提供一种用于度量语音数据库覆盖性的无监督模型训练装置,装置包括:数据获取单元,用于获取训练数据,训练数据为语音;评价因素确定单元,用于确定语音数据库覆盖性的一个或多个评价因素;划分单元,用于基于训练数据对应于评价因素是否可通过参数调整控制,划分评价因素为可调因素或不可调因素;算法确定单元,用于确定划分后的每个评价因素对应的聚类算法;分类单元,用于通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类;模型训练单元,用于根据每个评价因素的多个子类,训练评价模型。在一实施例中,算法确定单元还用于:当评价因素为不可调因素时,确定其对应的聚类算法为基于距离的聚类算法;当评价因素为可调因素时,确定其对应的聚类算法为自适应训练算法。在一实施例中,分类单元还用于:当评价因素为不可调因素时,提取训练数据的特征向量;根据特征向量,采用基于距离的聚类算法,将训练数据划分为多个子类。在一实施例中,基于距离的聚类算法为K均值聚类算法。在一实施例中,分类单元还用于:当评价因素为可调因素时,提取训练数据的特征向量;通过特征向量,训练高斯混合模型,标注训练数据;根据标注的训练数据,将训练数据分为多个子类。在一实施例中,通过特征向量,训练高斯混合模型,标注训练数据,包括:通过特征向量训练高斯混合模型;根据评价因素,确定控制参数,控制参数可调整控制训练数据;遍历控制参数的所有取值,对训练数据进行变换;获取变换后的训练数据的特征向量使高斯混合模型似然度最大时的参数值;根据参数值累计似然度;根据参数值变换训练数据,得到新的训练数据,重新训练直到达到停止条件;将每个训练数据对应的使高斯混合模型似然度最大时的参数值作为训练数据的标注值。在一实施例中,停止条件包括:迭代次数达到预设阈值,或累计似然度与上次迭代中的累计似然度变化率小于预设阈值。在一实施例中,模型训练单元还用于:将每个子类数据分别训练一个或多个评价模型,或将多个子类数据整体训练一个评价模型。在一实施例中,语音数据库覆盖性的评价因素包括以下一个或多个:发音者的性别、发音者的年龄、发音者的口音、语速、音调、语种、采集设备、采集环境、发音因素或内容主题。根据本公开实施例的第四方面,提供一种度量语音数据库覆盖性的装置,装置包括,评价模型获取单元,用于利用如第一方面的用于度量语音数据库覆盖性的无监督模型训练方法,得到每个评价因素的评价模型,语音数据库获取单元,用于获取待评价的语音数据库,其中,语音数据库中包括至少一条语音;检测单元,用于通过评价因素的评价模型对语音数据库中的每条语音进行检测,得到语音数据库与评价因素相对应的单因素信息熵;评价单元,用于根据单因素信息熵,确定语音数据库的覆盖度。根据本公开实施例的第五方面,提供一种电子设备,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面的用于度量语音数据库覆盖性的无监督模型训练方法。根据本公开实施例的第六方面,提供一种计算机可读存储介质,存储有指令,指令被处理器执行时,执行第一方面的用于本文档来自技高网...

【技术保护点】
1.一种用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述方法包括:/n获取训练数据,所述训练数据为语音;/n确定语音数据库覆盖性的一个或多个评价因素;/n基于所述训练数据对应于所述评价因素是否可通过参数调整控制,划分所述评价因素为可调因素或不可调因素;/n确定划分后的每个所述评价因素对应的聚类算法;/n通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类,得到多个子类;/n根据每个所述评价因素的所述多个子类,训练评价模型。/n

【技术特征摘要】
1.一种用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据为语音;
确定语音数据库覆盖性的一个或多个评价因素;
基于所述训练数据对应于所述评价因素是否可通过参数调整控制,划分所述评价因素为可调因素或不可调因素;
确定划分后的每个所述评价因素对应的聚类算法;
通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类,得到多个子类;
根据每个所述评价因素的所述多个子类,训练评价模型。


2.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述确定划分后的每个所述评价因素对应的聚类算法,包括:
若所述评价因素为不可调因素,则确定其对应的聚类算法为基于距离的聚类算法;
若所述评价因素为可调因素,则确定其对应的聚类算法为自适应训练算法。


3.根据权利要求2所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类,得到多个子类,包括:
若所述评价因素为不可调因素,则提取所述训练数据的特征向量;
根据所述特征向量,采用所述基于距离的聚类算法,将所述训练数据划分为多个子类。


4.根据权利要求3所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述基于距离的聚类算法为K均值聚类算法。


5.根据权利要求2所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类,得到多个子类,包括:
若所述评价因素为可调因素,则提取所述训练数据的特征向量;
通过所述特征向量,训练高斯混合模型,标注所述训练数据;
根据标注的所述训练数据,将训练数据分为多个子类。


6.根据权利要求5所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述通过所述特征向量,训练高斯混合模型,标注所述训练数据,包括:
通过所述特征向量训练高斯混合模型;
根据所述评价因素,确定控制参数,所述控制参数可调整控制所述训练数据;
遍历所述控制参数的所有取值,对所述训练数据进行变换;
获取变换后的训练数据的特征向量使高斯混合模型似然度最大时的参数值;
根据所述参数值累计似然度;
根据所述参数值变换训练数据,得到新的训练数据,重新训练直到达到停止条件;
将每个训练数据对应的使高斯混合模型似然度最大时的参数值作为所述训练数据的标注值。


7.根据权利要求6所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述停止条件包括:迭代次数达到预设阈值,或所述累计似然度与上次迭代中的累计似然度变化率小于预设阈值。


8.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述根据每个所述评价因素的所述多个子类,训练评价模型,包括:将每个子类数据分别训练一个或多个所述评价模型,或将多个子类数据整体训练一个所述评价模型。


9.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法,其特征在于,所述语音数据库覆盖性的评价因素包括以下一个或多个:发音者的性别、发音者的年龄、发音者的口音、语速、音调、语种、采集设备、采集环境、发音因素或内容主题。


10.一种度量语音数据库覆盖性的方法,其特征在于,所述方法包括,利用如权利要求1-9任一项所述的用于度量语音数据库覆盖性的无监督模型训练方法,得到每个评价因素的评价模型;
获取待评价的语音数据库,其中,所述语音数据库中包括至少一条语音;
通过所述评价因素的评价模型对所述语音数据库中的每条语音进行检测,得到所述语音数据库与所述评价因素相对应的单因素信息熵;
根据所述单因素信息熵,确定所述语音数据库的覆盖度。


11.一种用于度量语音数据库覆盖性的无监督模型训练装置,其特征在于,所述装置包括:
数据获取单元,用于获取训练数据,所述训练数据为语音;
评价因素确定单元,用于确定语音数据库覆盖性的一...

【专利技术属性】
技术研发人员:李科张卫强黄宇凯郝玉峰宋琼
申请(专利权)人:北京海天瑞声科技股份有限公司清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1