语音数据处理方法和装置制造方法及图纸

技术编号：13539603 阅读：92 留言：0更新日期：2016-08-17 16:04

本发明专利技术公开了一种语音数据处理方法和装置。该方法包括：获取多个语音样本中每个语音样本的I‑Vector向量，并确定多个语音样本中的目标种子样本；分别计算目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离，目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本；至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本，目标语音样本的I‑Vector向量与目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。本发明专利技术解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
201610178300

【技术保护点】
一种语音数据处理方法，其特征在于，包括：获取多个语音样本中每个语音样本的I‑Vector向量，并确定所述多个语音样本中的目标种子样本；分别计算所述目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离，其中，所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本；以及至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本，其中，所述目标语音样本的I‑Vector向量与所述目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，包括：获取多个语音样本中每个语音样本的I-Vector向量，并确定所述多个语音样本中的目标种子样本；分别计算所述目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离，其中，所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本；以及至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本，其中，所述目标语音样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。2.根据权利要求1所述的方法，其特征在于，当前种子样本被初始化为由所述多个语音样本中的至少一个语音样本拼接得到，上一轮种子样本和上一轮剩余语音样本被初始化为空，其中，确定所述多个语音样本中的目标种子样本包括：重复执行以下操作，直到确定出所述目标种子样本：分别计算所述当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离，其中，所述当前剩余语音样本为所述多个语音样本中除所述当前种子样本之外的语音样本；判断第一平均值与第二平均值之间的差值是否小于第二预定阈值，其中，所述第一平均值为所述当前种子样本的I-Vector向量与所述当前剩余语音样本的I-Vector向量之间的余弦距离的平均值，所述第二平均值为所述上一轮种子样本的I-Vector向量与所述上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值，所述上一轮剩余语音样本为所述多个语音样本中除所述上一轮种子样本之外的语音样本；若所述差值小于所述第二预定阈值，则确定所述当前种子样本为
\t所述目标种子样本；若所述差值大于或等于所述第二预定阈值，则将所述当前种子样本作为所述上一轮种子样本，从所述当前剩余语音样本中选择语音样本，将选择出的所述语音样本拼接成所述当前种子样本，并将所述当前剩余语音样本作为所述上一轮剩余语音样本。3.根据权利要求2所述的方法，其特征在于，从所述当前剩余语音样本中选择语音样本包括：将所述当前剩余语音样本按照余弦距离从小到大的顺序进行排序；从排序后的所述当前剩余语音样本中选择靠前的一个或多个语音样本，其中，所述靠前的一个或多个语音样本拼接成的所述当前种子样本的音频时长为第三预定阈值。4.根据权利要求1所述的方法，其特征在于，至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本包括：判断所述目标剩余语音样本的数量是否大于等于第四预定阈值；在所述目标剩余语音样本的数量大于等于所述第四预定阈值时，按照所述余弦距离从所述目标剩余语音样本中过滤得到所述目标语音样本；在所述目标剩余语音样本的数量小于所述第四预定阈值时，按照所述余弦距离以及所述目标种子样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离从所述多个语音样本中过滤得到所述目标语音样本。5.根据权利要求1所述的方法，其特征在于，获取多个语音样本中每个语音样本的I-Vector向量包括：分别获取所述多个语音样本中每个语音样本的语音特征参数；利用预先训练完成的I-Vector矩阵获取所述每个语音样本的
\tI-Vector向量，其中，所述I-Vector矩阵用于指示所述语音样本的语音特征参数对应的I-Vector向量。6.根据权利要求5所述的方法，其特征在于，所述I-Vector矩阵通过以下步骤训练得到：分别获取多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数；依据所述多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量，其中，所述高斯混合模型为利用多个用于训练所述高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型；利用所述高斯超向量训练所述I-Vector矩阵。7.根据权利要求5或6所述的方法，其特征在于，获取语音样本的语音特征参数包括：将所述语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号；从所述脉冲编码调制信号中提取语音特征参数；以及对所述语音特征参数进行能量检测和归一化处理。8.一种语音数据处理装置，其特征在于，包括：获取模块，用于获取多个语音样本中每个语音样本的I-Vector向...

【专利技术属性】
技术研发人员：金星明，李为，郑昉劢，吴富章，朱碧磊，钱柄桦，李科，吴永坚，黄飞跃，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人