用于度量语音数据库覆盖性的无监督模型训练方法及装置制造方法及图纸

技术编号：24331311 阅读：55 留言：0更新日期：2020-05-29 19:41

本公开是关于一种用于度量语音数据库覆盖性的无监督模型训练方法，所述方法包括：获取训练数据，所述训练数据为语音；确定语音数据库覆盖性的一个或多个评价因素；基于训练数据是否可通过参数调整控制，划分评价因素为可调因素或不可调因素；确定划分后的每个评价因素对应的聚类算法；通过每个评价因素对应的聚类算法分别将训练数据分类，得到多个子类；根据每个所述评价因素的多个子类，训练评价模型。该方法可以根据用户需要设定不同的评价要素度量相应的语音数据库，通过对评价因素的区分，有针对性地抽取不同的特征、选用合适的算法，同时可以利用无监督数据进行模型训练，降低了数据标注所引入的成本。

全部详细技术资料下载

【技术实现步骤摘要】
用于度量语音数据库覆盖性的无监督模型训练方法及装置
本公开涉及语音信号处理领域，尤其涉及用于度量语音数据库覆盖性的无监督模型训练方法及装置、电子设备和计算机可读存储介质。
技术介绍
语音数据库的覆盖性是衡量语音数据库质量的一个重要指标，是指语音数据库针对评价因素的覆盖程度。例如：发音人的性别、语种、语音内容等因素。例如在训练的语音识别系统时，需要采集数量很大的说话人的语音用于训练，此时，选用的语音数据库覆盖性越好，就越可以包含更为广泛的语音空间，可以有效减低样本空间分布中影响。传统获取语音数据库的覆盖性是依靠语音数据库设计阶段的专家经验，在制订采集计划时使语音数据库中的语音在各种评价因素上分布尽量全面。但是对于已经采集完成的数据库，只有在语音信号处理建模后才能根据识别率等指标得到间接反馈。而在训练语音数据评价模型的过程中，训练数据划分不全面、缺乏人工标注的样本数据导致很难构建出准确的评价模型。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种用于度量语音数据库覆盖性的无监督模型训练方法及装...

【技术保护点】
1.一种用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述方法包括：/n获取训练数据，所述训练数据为语音；/n确定语音数据库覆盖性的一个或多个评价因素；/n基于所述训练数据对应于所述评价因素是否可通过参数调整控制，划分所述评价因素为可调因素或不可调因素；/n确定划分后的每个所述评价因素对应的聚类算法；/n通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类；/n根据每个所述评价因素的所述多个子类，训练评价模型。/n

【技术特征摘要】
1.一种用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述方法包括：
获取训练数据，所述训练数据为语音；
确定语音数据库覆盖性的一个或多个评价因素；
基于所述训练数据对应于所述评价因素是否可通过参数调整控制，划分所述评价因素为可调因素或不可调因素；
确定划分后的每个所述评价因素对应的聚类算法；
通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类；
根据每个所述评价因素的所述多个子类，训练评价模型。

2.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述确定划分后的每个所述评价因素对应的聚类算法，包括：
若所述评价因素为不可调因素，则确定其对应的聚类算法为基于距离的聚类算法；
若所述评价因素为可调因素，则确定其对应的聚类算法为自适应训练算法。

3.根据权利要求2所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类，包括：
若所述评价因素为不可调因素，则提取所述训练数据的特征向量；
根据所述特征向量，采用所述基于距离的聚类算法，将所述训练数据划分为多个子类。

4.根据权利要求3所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述基于距离的聚类算法为K均值聚类算法。

5.根据权利要求2所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类，包括：
若所述评价因素为可调因素，则提取所述训练数据的特征向量；
通过所述特征向量，训练高斯混合模型，标注所述训练数据；
根据标注的所述训练数据，将训练数据分为多个子类。

6.根据权利要求5所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述通过所述特征向量，训练高斯混合模型，标注所述训练数据，包括：
通过所述特征向量训练高斯混合模型；
根据所述评价因素，确定控制参数，所述控制参数可调整控制所述训练数据；
遍历所述控制参数的所有取值，对所述训练数据进行变换；
获取变换后的训练数据的特征向量使高斯混合模型似然度最大时的参数值；
根据所述参数值累计似然度；
根据所述参数值变换训练数据，得到新的训练数据，重新训练直到达到停止条件；
将每个训练数据对应的使高斯混合模型似然度最大时的参数值作为所述训练数据的标注值。

7.根据权利要求6所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述停止条件包括：迭代次数达到预设阈值，或所述累计似然度与上次迭代中的累计似然度变化率小于预设阈值。

8.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述根据每个所述评价因素的所述多个子类，训练评价模型，包括：将每个子类数据分别训练一个或多个所述评价模型，或将多个子类数据整体训练一个所述评价模型。

9.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述语音数据库覆盖性的评价因素包括以下一个或多个：发音者的性别、发音者的年龄、发音者的口音、语速、音调、语种、采集设备、采集环境、发音因素或内容主题。

10.一种度量语音数据库覆盖性的方法，其特征在于，所述方法包括，利用如权利要求1-9任一项所述的用于度量语音数据库覆盖性的无监督模型训练方法，得到每个评价因素的评价模型；
获取待评价的语音数据库，其中，所述语音数据库中包括至少一条语音；
通过所述评价因素的评价模型对所述语音数据库中的每条语音进行检测，得到所述语音数据库与所述评价因素相对应的单因素信息熵；
根据所述单因素信息熵，确定所述语音数据库的覆盖度。

11.一种用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述装置包括：
数据获取单元，用于获取训练数据，所述训练数据为语音；
评价因素确定单元，用于确定语音数据库覆盖性的一...

【专利技术属性】
技术研发人员：李科，张卫强，黄宇凯，郝玉峰，宋琼，
申请(专利权)人：北京海天瑞声科技股份有限公司，清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人