一种人声分割方法及装置制造方法及图纸

技术编号:17814038 阅读:28 留言:0更新日期:2018-04-28 06:15
本发明专利技术实施例提供了一种人声分割方法及装置,包括:对音频数据进行特征向量的提取;对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;将不同聚类标签对应的语音片段分别按照时间顺序进行排列,并输出排列和合并后的不同聚类标签的语音片段。本发明专利技术中采用概率分布聚类方法进行聚类操作,无需对语音片段进行建模,可以对语音的特征向量快速聚类;加入了语音激活监测,只对语音片段进行处理,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。

【技术实现步骤摘要】
一种人声分割方法及装置
本专利技术涉及音频领域,尤其涉及一种人声分割方法及装置。
技术介绍
传统的基于文本的音频检索采用人工标注的方式,不但成本昂贵,而且效率低,而基于语音识别的检索技术虽然在效率上有所提升,但是却丢失了同样重要的说话人信息,因此,需要通过人声分割系统进行弥补。人声分割是指在无先验知识的条件下,即在说话人数量和身份都未知的情况下,自动找到一段多个说话人语音的说话人改变点,并对这些语音段进行分类标注,使相同的说话人数据被标注为同一类。目前的人声分割系统先寻找连续语音中的说话人改变点,将长语音分割成若干段短语音,之后对每段短语音提取特征,再运用常用层次聚类方法来对说话人进行聚类。它通过不断的分裂或合并来分割大类或者合并小类,直到满足一定的停止聚类准则。但是这种人声分割系统的效率较低,需要对每段语音片段进行建模,建模过程需要的时间较长。因此,导致了传统人声分割系统效率低,耗费时间长的技术问题。
技术实现思路
本专利技术提供了一种人声分割方法及装置,解决了传统人声分割系统效率低,耗费时间长的技术问题。本专利技术提供了一种人声分割方法,其特征在于,包括:S1:对音频数据进行特征向量的提取;S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。优选地,步骤S2具体包括:S201:根据标注提取语音片段,将语音片段按照预置时间长度进行分割;S202:以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则执行步骤S204,若否,则执行步骤S203;S203:将求解值最小的两个语音片段进行合并,并返回步骤S202;S204:停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。优选地,步骤S1之前还包括:S0:获取wav文件格式中的音频数据。本专利技术提供了一种人声分割装置,其特征在于,包括:特征提取模块,用于对音频数据进行特征向量的提取;语音激活模块,用于对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;聚类模块,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;排列输出模块,用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。优选地,聚类模块具体包括:分割子模块,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割;丢失计算子模块,用于以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则触发聚类输出子模块,若否,则触发合并子模块;合并子模块,用于将求解值最小的两个语音片段进行合并,并触发丢失计算子模块;聚类输出子模块,用于停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。优选地,还包括:读取模块,用于获取wav文件格式中的音频数据。从以上技术方案可以看出,本专利技术具有以下优点:本专利技术提供了一种人声分割方法,其特征在于,包括:S1:对音频数据进行特征向量的提取;S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。本专利技术中采用概率分布聚类方法对语音片段进行聚类操作,无需像传统的人声分割系统对语音片段进行建模,可以对语音的特征向量快速处理,实现快速聚类;并且加入了语音激活监测,区分静音片段和语音片段,只对语音片段进行处理,进一步减少了人声分割的工作量,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种人声分割方法的一个实施例的流程示意图;图2为本专利技术实施例提供的一种人声分割方法的另一个实施例的流程示意图;图3为本专利技术实施例提供的一种人声分割装置的一个实施例的流程示意图;图4为本专利技术实施例提供的一种人声分割装置的另一个实施例的流程示意图。具体实施方式本专利技术实施例提供了一种人声分割方法及装置,解决了传统人声分割系统效率低,耗费时间长的技术问题。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供了一种人声分割方法的一个实施例,包括:步骤101:对音频数据进行特征向量的提取;步骤102:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;需要说明的是,PCM数据进行特征向量的提取和语音激活监测后存入内存,转而释放PCM数据内存块;通过语音激活检测可以将静音片段过滤,减小人声分割的工作量。步骤103:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;需要说明的是,概率分布聚类方法从率失真理论的基础上发展而来,采用联合概率分布表示数据,以互信息作为度量手段,刻画样本和样本属性的相关性,并不需要对样本之间的距离函数做任何假设。步骤104:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。需要说明的是,例如最后剩下三个标签,但是三个标签中的语音片段都是杂乱的,需要对各个标签中的语音片段按照时间顺序进行排列梳理,然后再分别输出。本专利技术中采用概率分布聚类方法对语音片段进行聚类操作,无需像传统的人声分割系统对语音片段进行建模,可以对短语音的特征向量快速处理,实现快速聚类;并且加入了语音激活监测,区分静音片段和语音片段,只对语音片段进行处理,进一步减少了人声分割的工作量,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。以上为本专利技术提供的一种人声分割方法的一个实施例,以下为本专利技术提供的一种人声分割方法的另一个实施例。请参阅图2,本专利技术提供了一种人声分割方法的另一个实施例,包括:步骤201:获取wav文件格式中的音频数本文档来自技高网...
一种人声分割方法及装置

【技术保护点】
一种人声分割方法,其特征在于,包括:S1:对音频数据进行特征向量的提取;S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。

【技术特征摘要】
1.一种人声分割方法,其特征在于,包括:S1:对音频数据进行特征向量的提取;S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。2.根据权利要求1所述的一种人声分割方法,其特征在于,步骤S2具体包括:S201:根据标注提取语音片段,将语音片段按照预置时间长度进行分割;S202:以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则执行步骤S204,若否,则执行步骤S203;S203:将求解值最小的两个语音片段进行合并,并返回步骤S202;S204:停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。3.根据权利要求1所述的一种人声分割方法,其特征在于,步骤S1之前还包括:S0:获取wav文件格式中的音频数据。4.一种人声分割装置,其特征在于,包...

【专利技术属性】
技术研发人员:郑渊中
申请(专利权)人:广州势必可赢网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1