一种人声分割方法及装置制造方法及图纸

技术编号：17814038 阅读：28 留言：0更新日期：2018-04-28 06:15

本发明专利技术实施例提供了一种人声分割方法及装置，包括：对音频数据进行特征向量的提取；对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；将不同聚类标签对应的语音片段分别按照时间顺序进行排列，并输出排列和合并后的不同聚类标签的语音片段。本发明专利技术中采用概率分布聚类方法进行聚类操作，无需对语音片段进行建模，可以对语音的特征向量快速聚类；加入了语音激活监测，只对语音片段进行处理，提高了工作效率，解决了传统人声分割系统效率低，耗费时间长的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种人声分割方法及装置
本专利技术涉及音频领域，尤其涉及一种人声分割方法及装置。
技术介绍
传统的基于文本的音频检索采用人工标注的方式，不但成本昂贵，而且效率低，而基于语音识别的检索技术虽然在效率上有所提升，但是却丢失了同样重要的说话人信息，因此，需要通过人声分割系统进行弥补。人声分割是指在无先验知识的条件下，即在说话人数量和身份都未知的情况下，自动找到一段多个说话人语音的说话人改变点，并对这些语音段进行分类标注，使相同的说话人数据被标注为同一类。目前的人声分割系统先寻找连续语音中的说话人改变点，将长语音分割成若干段短语音，之后对每段短语音提取特征，再运用常用层次聚类方法来对说话人进行聚类。它通过不断的分裂或合并来分割大类或者合并小类，直到满足一定的停止聚类准则。但是这种人声分割系统的效率较低，需要对每段语音片段进行建模，建模过程需要的时间较长。因此，导致了传统人声分割系统效率低，耗费时间长的技术问题。
技术实现思路
本专利技术提供了一种人声分割方法及装置，解决了传统人声分割系统效率低，耗费时间长的技术问题。本专利技术提供了一种人声分割方法，其特征在于，包括：S1：对音频数据进行特征向量的提取；S2：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；S3：根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；S4：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。优选地，步骤S2具体包括：S201：根...
一种人声分割方法及装置

【技术保护点】
一种人声分割方法，其特征在于，包括：S1：对音频数据进行特征向量的提取；S2：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；S3：根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；S4：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

【技术特征摘要】
1.一种人声分割方法，其特征在于，包括：S1：对音频数据进行特征向量的提取；S2：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；S3：根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；S4：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。2.根据权利要求1所述的一种人声分割方法，其特征在于，步骤S2具体包括：S201：根据标注提取语音片段，将语音片段按照预置时间长度进行分割；S202：以任意两个分割后的语音片段为一种组合方式，计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值，判断最小的求解值是否超过预置阈值，若是，则执行步骤S204，若否，则执行步骤S203；S203：将求解值最小的两个语音片段进行合并，并返回步骤S202；S204：停止聚类并根据聚类结果进行排列和合并，分别输出对应的聚类标签。3.根据权利要求1所述的一种人声分割方法，其特征在于，步骤S1之前还包括：S0：获取wav文件格式中的音频数据。4.一种人声分割装置，其特征在于，包...

【专利技术属性】
技术研发人员：郑渊中，
申请(专利权)人：广州势必可赢网络科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人