一种针对说话人识别的多层级音素生成的方法及装置制造方法及图纸

技术编号:36748002 阅读:16 留言:0更新日期:2023-03-04 10:31
本发明专利技术公开了一种针对说话人识别的多层级音素生成的方法及装置,方法包括:确定一级音素的集合;获取语音数据库以及每条语音数据所对应的一级音素序列;从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件;从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。本发明专利技术提供的方法可以同时考虑音素的普遍性和对于说话人身份的区分性,有助于全面评估音素单元对说话人的识别作用,提升说话人识别的准确率。提升说话人识别的准确率。提升说话人识别的准确率。

【技术实现步骤摘要】
一种针对说话人识别的多层级音素生成的方法及装置


[0001]本专利技术涉及语音信号处理、声纹识别
,具体涉及一种针对说话人识别的多层级音素生成的方法及装置。

技术介绍

[0002]声纹信息作为重要的生物特征,是用户身份验证的有效途径之一。声纹识别是通过给定的语音信号来识别说话人的身份,具有广泛的应用场景,特别是,在安防领域和智能设备产品上。其中,文本无关的说话人识别由于其不限定语音信号的文本内容,相比于文本相关的声纹识别更容易受到文本变化的影响,造成识别性能的下降。因此,基于音素/音节的声纹识别系统通过对单个音素/音节建模,可以有效地抑制文本变化对识别性能的负面影响。然而,选择合适的语音单元进行建模会直接影响声纹识别系统的性能。首先,要求进行建模的语音单元是高频出现的,系统才可以利用这样的语音单元进行建模和识别。同时,用于建模的语音单元也应该是具备良好的说话人区分性的,才能对声纹识别系统有所增益。然而,目前仍未存在针对说话人识别任务构建最优语音单元集合的方法。
[0003]目前,利用音素单元进行建模的声纹识别系统通常以语言学定义的音素为单位,并提取其中包含的说话人身份信息,但这些方法通常存在以下问题:
[0004]1)、对于声纹识别任务而言,语言学定义的音素单元未必是鉴别说话人身份的最优的语音单元;
[0005]2)、对于语言学定义的音素,大部分音素的持续时间很短,难以提供丰富且充分的说话人身份相关的信息用于后续建模;
[0006]3)、只对单个音素进行建模,可能会遗漏和损坏音素与音素之间转换时所包含的说话人相关的信息,使得说话人识别系统性能不佳。

技术实现思路

[0007]本专利技术提出一种针对说话人识别的多层级音素生成的方法及装置,为解决现有声纹识别技术的不足之处,包括由于单个音素持续时间太短无法提供充分的说话人身份信息,且可能损坏或遗失存在于音素过渡之间的说话人信息等问题,所造成的基于音素建模的说话人识别系统识别率不佳的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:
[0009]一种针对说话人识别的多层级音素生成的方法,包括:
[0010]确定一级音素的集合;
[0011]获取语音数据库以及每条语音数据所对应的一级音素序列;
[0012]从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件;
[0013]从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。
[0014]进一步的技术方案:所述确定一级音素的方法为:利用语言学所定义的音素类别,或利用无监督学习方法所定义的最小语音单元作为一级音素。
[0015]进一步的技术方案:所述获取语音数据库以及每条语音数据所对应的一级音素序列,包括:利用人工标注的方式获取音素序列,或利用语音识别、音素识别的模型获取音素序列。
[0016]进一步的技术方案:获取的所述音素序列为,按照语音信号中音素出现的顺序进行标记的音素类别。
[0017]进一步的技术方案:所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法,具体为:
[0018]从一级音素开始,将包含全部一级音素的集合作为一级音素候选集,由满足频繁条件的一级音素构成一级音素频繁集,并由一级音素频繁集生成二级音素候选集,并选出频繁的二级音素构成二级音素频繁集,以此类推,由k

1级音素频繁集构建k级音素候选集,并从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集,直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集,其中,k级音素是指k个一级音素合并形成的有序组合。
[0019]进一步的技术方案:所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法,具体为:
[0020]当k大于等于2时,所述由k

1级音素频繁集构建k级音素候选集方法为:由k

1级音素频繁集中存在有k

2个交集的两个k

1级音素合并而成。
[0021]进一步的技术方案:所述从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集中的所述频繁条件为:音素在数据集中出现的频次大于一个预设值,或音素出现语句的数量与数据库中总语句数量的比值大于一个预设值。
[0022]进一步的技术方案:所述进行各层级强区分性音素的筛选的方法为:
[0023]从一级音素开始进行,将所获得的k级音素频繁集作为新的候选集,由满足强区分性条件的k级音素构成最终的k级音素集合,以此类推,直至不存在更高层级的候选集。
[0024]进一步的技术方案:所述由满足强区分性条件的k级音素构成最终的k级音素集合中的强区分性条件,包括:
[0025]采用一个通用说话人识别模型针对属于一个音素类别的数据来进行说话人识别,使识别的正确率高于一个预设值。
[0026]同时,本专利技术的还提供如下技术方案:
[0027]一种针对说话人识别的多层级音素生成的装置,包括:
[0028]数据单元,获取并存储语音数据以及每条语音数据所对应的一级音素序列;
[0029]频繁候选集生成单元,根据所确定的一级音素,将包含全部一级音素的集合作为一级音素候选集,对于二级及以上音素,按照约束条件由k

1级音素频繁集生成k级音素候选集;
[0030]频繁音素筛选单元,对于生成的k级音素候选集,利用语音数据中的音素序列标记,计算k级音素出现的频次,并依据设置的频繁条件,从k级音素中筛选出满足频繁条件的音素,构成k级音素频繁集;
[0031]强区分性音素筛选单元,根据所获得的k级音素频繁集作为候选集,计算每个k级
音素的区分性,并按照设置的强区分性条件,筛选出满足条件的音素,构成k级强区分性音素集。
[0032]与现有技术相比,本专利技术的有益效果是:
[0033]1)、本专利技术提供的多层级音素生成的方法可以同时考虑音素的普遍性和对于说话人身份的区分性,有助于全面评估音素单元对说话人的识别作用,选择最优的音素组合来促进说话人识别的性能;
[0034]2)、本专利技术提供的多层级音素生成的方法通过多层级地挖掘有价值的音素组合,充分获取语音信号中说话人相关信息,提升说话人识别的准确率。
附图说明
[0035]图1为本专利技术实施例中一种针对说话人识别的多层级音素生成的方法流程示意图;
[0036]图2为本专利技术实施例中一种针对说话人识别的多层级音素生成的装置结构框图。
具体实施方式
[0037]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对说话人识别的多层级音素生成的方法,其特征在于,包括:确定一级音素的集合;获取语音数据库以及每条语音数据所对应的一级音素序列;从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件;从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。2.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述确定一级音素的方法为:利用语言学所定义的音素类别,或利用无监督学习方法所定义的最小语音单元作为一级音素。3.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述获取语音数据库以及每条语音数据所对应的一级音素序列,包括:利用人工标注的方式获取音素序列,或利用语音识别、音素识别的模型获取音素序列。4.根据权利要求3所述一种针对说话人识别的多层级音素生成的方法,其特征在于,获取的所述音素序列为,按照语音信号中音素出现的顺序进行标记的音素类别。5.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法,具体为:从一级音素开始,将包含全部一级音素的集合作为一级音素候选集,由满足频繁条件的一级音素构成一级音素频繁集,并由一级音素频繁集生成二级音素候选集,并选出频繁的二级音素构成二级音素频繁集,以此类推,由k

1级音素频繁集构建k级音素候选集,并从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集,直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集,其中,k级音素是指k个一级音素合并形成的有序组合。6.根据权利要求5所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法具体为:当k大于等于2时,所...

【专利技术属性】
技术研发人员:汪欣谢川展华益
申请(专利权)人:四川长虹电子控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1