说话人聚类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19861400 阅读:24 留言:0更新日期:2018-12-22 12:35
本发明专利技术公开了一种说话人聚类方法、装置、计算机设备及存储介质,其中,该说话人聚类方法包括:将至少两个待聚类语音按语音时长降序排列;依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与待聚类语音对应的目标通用语音向量;若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值,则采用待聚类语音进行模型训练,与待聚类语音对应的当前通用语音向量;将当前通用语音向量存储在预设声学模型库中,并将待聚类语音归类到对应的聚类类簇中。本发明专利技术通过判定待聚类语音的语音特征相似度不大于预设阈值时,自动生成与待聚类语音对应的当前通用语音向量,提高分类的准确性。

【技术实现步骤摘要】
说话人聚类方法、装置、计算机设备及存储介质
本专利技术涉及声纹识别领域,尤其涉及一种说话人聚类方法、装置、计算机设备及存储介质。
技术介绍
说话人聚类方法是直接根据说话人的某种特性,比如说话人的性别、年龄、口音等,将训练集中的说话人根据其语音特性分成若干个子集,每一个子集内的说话人都具有相似度高的某种语音特性,然后专门为每个子集训练声学模型,最终形成存储若干类簇的声学模型库。在测试说话人的待聚类语音时,将声学模型库中的所有已存声学模型依次与待聚类语音进行相似度判断,以确认该待聚类语音属于哪个类簇。现有说话人聚类方法只能基于已知声学模型库对待聚类语音进行分类,对待聚类语音的聚类范围有所限制,可能产生分类不准确的现象。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高说话人聚类准确性的说话人聚类方法、装置、计算机设备及存储介质。一种说话人聚类方法,包括:将至少两个待聚类语音按语音时长降序排列;依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与待聚类语音对应的目标通用语音向量;若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值,则采用待聚类语音进行模型训练,与待聚类语音对应的当前通用语音向量;将当前通用语音向量存储在预设声学模型库中,并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。一种说话人聚类装置,包括:语音降序排列模块,用于将至少两个待聚类语音按语音时长降序排列;获取通用向量模块,用于依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与待聚类语音对应的目标通用语音向量;训练当前向量模块,用于若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值,则采用待聚类语音进行模型训练,与待聚类语音对应的当前通用语音向量;存储当前向量模块,用于将当前通用语音向量存储在预设声学模型库中,并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述说话人聚类方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述说话人聚类方法的步骤。上述说话人聚类方法、装置、计算机设备及存储介质,通过将至少两个待聚类语音按语音时长降序排列,当待聚类语音在目标通用语音向量中针对分类进行的类簇识别的语音特征相似度不大于预设阈值时,生成与待聚类语音对应的当前通用语音向量,提高对待聚类语音进行分类的准确性;将当前通用语音向量存储在预设声学模型库中,扩大预设声学模型库的可识别聚类类簇的范围,提高预设声学模型库的灵活性和可扩展性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中说话人聚类方法的一应用环境示意图;图2是本专利技术一实施例中说话人聚类方法的一流程图;图3是本专利技术一实施例中说话人聚类方法的另一流程图;图4是本专利技术一实施例中说话人聚类方法的另一流程图;图5是本专利技术一实施例中说话人聚类方法的另一流程图;图6是本专利技术一实施例中说话人聚类方法的另一流程图;图7是本专利技术一实施例中说话人聚类装置的一示意图;图8是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的说话人聚类方法方法,可应用在如图1的应用环境中,其中,用于采集待聚类语音的计算机设备通过网络与识别服务器进行通信。其中,计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。识别服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种说话人聚类方法,以该方法应用在图1中的识别服务器为例进行说明,包括如下步骤:S10.将至少两个待聚类语音按语音时长降序排列。其中,待聚类语音是用于按类簇特征进行判定,待划分到对应类簇的说话人语音。每个待聚类语音因语速、录制内容等因素造成语音时长不一定相同,从几分钟到几秒不等。可以理解地,待聚类语音的时长越长,可提取的语音特征越明显越准确。因此,步骤S10中,识别服务器将待聚类语音按语音时长降序排列以形成队列,识别服务器按队列顺序来依次判定待识别语音所属的类簇,可提高分类准确性。S20.依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与待聚类语音对应的目标通用语音向量。其中,预设声学模型库中存储有根据现有所有类簇的类簇特征分别建立的原始通用语音向量。比如,预设声学模型库中可以保存按说话人年龄特征来进行划分并保存的原始通用语音向量,以出生到10岁为第一聚类类簇,以11岁至20岁为第二聚类类簇,以21岁至30岁为第三聚类类簇,此类类推。原始通用语音向量是表示同一类簇说话人的特征向量。目标通用语音向量是待聚类语音在预设声学模型库中匹配到与自身语音特征相似度最高的一原始通用语音向量。步骤S20中,识别服务器依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行识别对比,可匹配到与相似度最高的一目标通用语音向量,利于进一步判定待聚类语音是否与该目标通用语音向量属于同一类簇,有助于提高对待聚类语音进行聚类的准确性。S30.若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值,则采用待聚类语音进行模型训练,获取与待聚类语音对应的当前通用语音向量。其中,语音特征相似度是待聚类语音和目标通用语音向量进行对比后得到的相似度比值。预设阈值是根据实际经验设定的阈值,该阈值可以用于限定待聚类语音和目标通用语音向量属于同一类簇时,其语音特征相似度的最小值。应用于本实施例,可将预设阈值设定为0.75,即当待聚类语音在目标通用语音向量中的语音特征相似度不大于0.75时,执行采用待聚类语音进行模型训练,获取与待聚类语音对应的当前通用语音向量的步骤。当前通用语音向量是待聚类语音在预设声学模型库中匹配到与自身语音特征相似度最高的目标通用语音向量,但该待聚类语音在目标通用语音向量是的语音特征相似度不大于预设阈值,而根据待聚类语音自身具有的类簇属性而建立的新的当前向量。比如,以年龄进行划分的预设声学模型库中仅存有出生到10岁的第一聚类类簇、从11岁到20岁的第二聚类类簇,从21岁到30岁的第三聚类类簇。而待聚类语音的说话人为35岁,当待聚类语音在该预设声学模型库中未匹配到与自身语音特征相似度大于预设阈值的类簇向量,可根据说话人的年龄所处的划分段,建立以31岁到40岁的第四聚类类簇,作为对应的当前通用语音向量。步骤S30中,当待聚类语音在预设声学模型库中未匹配到与自身语音特征相似的目标通用语音向量时,识别服务器可根据待聚类语音本文档来自技高网...

【技术保护点】
1.一种说话人聚类方法,其特征在于,包括:将至少两个待聚类语音按语音时长降序排列;依序将每一所述待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与所述待聚类语音对应的目标通用语音向量;若所述待聚类语音在所述目标通用语音向量中的语音特征相似度不大于预设阈值,则采用所述待聚类语音进行模型训练,获取与所述待聚类语音对应的当前通用语音向量;将所述当前通用语音向量存储在所述预设声学模型库中,并将所述待聚类语音归类到所述当前通用语音向量对应的聚类类簇中。

【技术特征摘要】
1.一种说话人聚类方法,其特征在于,包括:将至少两个待聚类语音按语音时长降序排列;依序将每一所述待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与所述待聚类语音对应的目标通用语音向量;若所述待聚类语音在所述目标通用语音向量中的语音特征相似度不大于预设阈值,则采用所述待聚类语音进行模型训练,获取与所述待聚类语音对应的当前通用语音向量;将所述当前通用语音向量存储在所述预设声学模型库中,并将所述待聚类语音归类到所述当前通用语音向量对应的聚类类簇中。2.如权利要求1所述的说话人聚类方法,其特征在于,在获取与所述待聚类语音对应的目标通用语音向量的步骤之后,所述说话人聚类方法还包括:若所述待聚类语音在所述目标通用语音向量中的语音特征相似度大于预设阈值,则将所述待聚类语音归类到所述目标通用语音向量对应的聚类类簇中。3.如权利要求1所述的说话人聚类方法,其特征在于,所述依序将每一所述待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别,获取与所述待聚类语音对应的目标通用语音向量,包括:依序将每一所述待聚类语音按预设规则划分成第一语音段和第二语音段;分别对所述第一语音段和所述第二语音段进行特征提取,获取第一语音特征和第二语音特征;将所述第一语音特征输入到预设声学模型库中每一原始通用语音向量进行语音自适应,获取每一原始通用语音向量对应的自适应语音特征;对所述自适应语音特征和所述第二语音特征进行相似度计算,获取每一原始通用语音向量对应的识别相似度;选取识别相似度最高的原始通用语音向量作为与所述待聚类语音对应的目标通用语音向量。4.如权利要求3所述的说话人聚类方法,其特征在于,所述对所述自适应语音特征和所述第二语音特征进行相似度计算,获取每一原始通用语音向量对应的识别相似度,包括:分别获取所述自适应语音特征和所述第二语音特征对应的识别i-vector向量和第二i-vector向量;采用余弦相似度算法获取所述识别i-vector向量和所述第二i-vector向量的识别相似度。5.如权利要求1所述...

【专利技术属性】
技术研发人员:涂宏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1