【技术实现步骤摘要】
201610178300
【技术保护点】
一种语音数据处理方法,其特征在于,包括:获取多个语音样本中每个语音样本的I‑Vector向量,并确定所述多个语音样本中的目标种子样本;分别计算所述目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离,其中,所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本;以及至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本,其中,所述目标语音样本的I‑Vector向量与所述目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。
【技术特征摘要】
1.一种语音数据处理方法,其特征在于,包括:获取多个语音样本中每个语音样本的I-Vector向量,并确定所述多个语音样本中的目标种子样本;分别计算所述目标种子样本的I-Vector向量与目标剩余语音样本的I-Vector向量之间的余弦距离,其中,所述目标剩余语音样本为所述多个语音样本中除所述目标种子样本之外的语音样本;以及至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本,其中,所述目标语音样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离高于第一预定阈值。2.根据权利要求1所述的方法,其特征在于,当前种子样本被初始化为由所述多个语音样本中的至少一个语音样本拼接得到,上一轮种子样本和上一轮剩余语音样本被初始化为空,其中,确定所述多个语音样本中的目标种子样本包括:重复执行以下操作,直到确定出所述目标种子样本:分别计算所述当前种子样本的I-Vector向量与当前剩余语音样本的I-Vector向量之间的余弦距离,其中,所述当前剩余语音样本为所述多个语音样本中除所述当前种子样本之外的语音样本;判断第一平均值与第二平均值之间的差值是否小于第二预定阈值,其中,所述第一平均值为所述当前种子样本的I-Vector向量与所述当前剩余语音样本的I-Vector向量之间的余弦距离的平均值,所述第二平均值为所述上一轮种子样本的I-Vector向量与所述上一轮剩余语音样本的I-Vector向量之间的余弦距离的平均值,所述上一轮剩余语音样本为所述多个语音样本中除所述上一轮种子样本之外的语音样本;若所述差值小于所述第二预定阈值,则确定所述当前种子样本为
\t所述目标种子样本;若所述差值大于或等于所述第二预定阈值,则将所述当前种子样本作为所述上一轮种子样本,从所述当前剩余语音样本中选择语音样本,将选择出的所述语音样本拼接成所述当前种子样本,并将所述当前剩余语音样本作为所述上一轮剩余语音样本。3.根据权利要求2所述的方法,其特征在于,从所述当前剩余语音样本中选择语音样本包括:将所述当前剩余语音样本按照余弦距离从小到大的顺序进行排序;从排序后的所述当前剩余语音样本中选择靠前的一个或多个语音样本,其中,所述靠前的一个或多个语音样本拼接成的所述当前种子样本的音频时长为第三预定阈值。4.根据权利要求1所述的方法,其特征在于,至少按照所述余弦距离从所述多个语音样本或所述目标剩余语音样本中过滤得到目标语音样本包括:判断所述目标剩余语音样本的数量是否大于等于第四预定阈值;在所述目标剩余语音样本的数量大于等于所述第四预定阈值时,按照所述余弦距离从所述目标剩余语音样本中过滤得到所述目标语音样本;在所述目标剩余语音样本的数量小于所述第四预定阈值时,按照所述余弦距离以及所述目标种子样本的I-Vector向量与所述目标种子样本的I-Vector向量之间的余弦距离从所述多个语音样本中过滤得到所述目标语音样本。5.根据权利要求1所述的方法,其特征在于,获取多个语音样本中每个语音样本的I-Vector向量包括:分别获取所述多个语音样本中每个语音样本的语音特征参数;利用预先训练完成的I-Vector矩阵获取所述每个语音样本的
\tI-Vector向量,其中,所述I-Vector矩阵用于指示所述语音样本的语音特征参数对应的I-Vector向量。6.根据权利要求5所述的方法,其特征在于,所述I-Vector矩阵通过以下步骤训练得到:分别获取多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数;依据所述多个用于训练所述I-Vector矩阵的语音样本中每个语音样本的语音特征参数从预先训练完成的高斯混合模型中提取高斯超向量,其中,所述高斯混合模型为利用多个用于训练所述高斯混合模型的语音样本中每个语音样本的语音特征参数训练得到的模型;利用所述高斯超向量训练所述I-Vector矩阵。7.根据权利要求5或6所述的方法,其特征在于,获取语音样本的语音特征参数包括:将所述语音样本处理成采样率分别为第一采样率和第二采样率的脉冲编码调制信号;从所述脉冲编码调制信号中提取语音特征参数;以及对所述语音特征参数进行能量检测和归一化处理。8.一种语音数据处理装置,其特征在于,包括:获取模块,用于获取多个语音样本中每个语音样本的I-Vector向...
【专利技术属性】
技术研发人员:金星明,李为,郑昉劢,吴富章,朱碧磊,钱柄桦,李科,吴永坚,黄飞跃,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。