一种针对说话人识别的多层级音素生成的方法及装置制造方法及图纸

技术编号：36748002 阅读：30 留言：0更新日期：2023-03-04 10:31

本发明专利技术公开了一种针对说话人识别的多层级音素生成的方法及装置，方法包括：确定一级音素的集合；获取语音数据库以及每条语音数据所对应的一级音素序列；从一级音素开始，通过计算音素的出现频次和预设的阈值，进行各层级频繁音素的筛选并生成更高一层级的音素候选集，直至满足停止条件；从一级音素开始，通过计算音素的说话人区分度和设置区分度要求，进行各层级强区分性音素的筛选，直至满足停止条件，获得最终多层级音素集合。本发明专利技术提供的方法可以同时考虑音素的普遍性和对于说话人身份的区分性，有助于全面评估音素单元对说话人的识别作用，提升说话人识别的准确率。提升说话人识别的准确率。提升说话人识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对说话人识别的多层级音素生成的方法及装置

[0001]本专利技术涉及语音信号处理、声纹识别
，具体涉及一种针对说话人识别的多层级音素生成的方法及装置。

技术介绍

[0002]声纹信息作为重要的生物特征，是用户身份验证的有效途径之一。声纹识别是通过给定的语音信号来识别说话人的身份，具有广泛的应用场景，特别是，在安防领域和智能设备产品上。其中，文本无关的说话人识别由于其不限定语音信号的文本内容，相比于文本相关的声纹识别更容易受到文本变化的影响，造成识别性能的下降。因此，基于音素/音节的声纹识别系统通过对单个音素/音节建模，可以有效地抑制文本变化对识别性能的负面影响。然而，选择合适的语音单元进行建模会直接影响声纹识别系统的性能。首先，要求进行建模的语音单元是高频出现的，系统才可以利用这样的语音单元进行建模和识别。同时，用于建模的语音单元也应该是具备良好的说话人区分性的，才能对声纹识别系统有所增益。然而，目前仍未存在针对说话人识别任务构建最优语音单元集合的方法。
[0003]目前，利用音素单元进行建模的声纹识别系...

【技术保护点】

【技术特征摘要】
1.一种针对说话人识别的多层级音素生成的方法，其特征在于，包括：确定一级音素的集合；获取语音数据库以及每条语音数据所对应的一级音素序列；从一级音素开始，通过计算音素的出现频次和预设的阈值，进行各层级频繁音素的筛选并生成更高一层级的音素候选集，直至满足停止条件；从一级音素开始，通过计算音素的说话人区分度和设置区分度要求，进行各层级强区分性音素的筛选，直至满足停止条件，获得最终多层级音素集合。2.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法，其特征在于，所述确定一级音素的方法为：利用语言学所定义的音素类别，或利用无监督学习方法所定义的最小语音单元作为一级音素。3.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法，其特征在于，所述获取语音数据库以及每条语音数据所对应的一级音素序列，包括：利用人工标注的方式获取音素序列，或利用语音识别、音素识别的模型获取音素序列。4.根据权利要求3所述一种针对说话人识别的多层级音素生成的方法，其特征在于，获取的所述音素序列为，按照语音信号中音素出现的顺序进行标记的音素类别。5.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法，其特征在于，所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法，具体为：从一级音素开始，将包含全部一级音素的集合作为一级音素候选集，由满足频繁条件的一级音素构成一级音素频繁集，并由一级音素频繁集生成二级音素候选集，并选出频繁的二级音素构成二级音素频繁集，以此类推，由k
‑
1级音素频繁集构建k级音素候选集，并从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集，直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集，其中，k级音素是指k个一级音素合并形成的有序组合。6.根据权利要求5所述一种针对说话人识别的多层级音素生成的方法，其特征在于，所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法具体为：当k大于等于2时，所...

【专利技术属性】
技术研发人员：汪欣，谢川，展华益，
申请(专利权)人：四川长虹电子控股集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人