用音频特征主成分建立的语音群集来识别说话人的方法技术

技术编号:19861455 阅读:44 留言:0更新日期:2018-12-22 12:36
本发明专利技术公开了一种用音频特征主成分建立的语音群集来识别说话人的方法,该方法是将主成分分析和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合,具体为:收集不同的训练音频样本集;计算每个样本的时域和频域音频特征;计算出时域和频域音频特征的平均值和标准偏差;通过计算出的数据对训练样本进行主成分分析;将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表;采用UPGMA聚类分析算法,基于n维空间中的距离对说话人进行聚类。本发明专利技术的方法具有速度快,添加新说话人语音方便的特点,用于智能语言教学系统,实现了说话人识别,从未知的多个发言者会话中及时分辨说话人,利于针对性的教学。

【技术实现步骤摘要】
用音频特征主成分建立的语音群集来识别说话人的方法
:本专利技术属于说话人识别
,特别涉及一种用音频特征主成分建立的语音群集来识别说话人的方法。
技术介绍
:说话人识别是一种模式识别问题。用于处理和存储声纹的各种技术包括频率估计、隐马尔可夫模型、高斯混合模型、模式匹配算法、矩阵表示、矢量量化、支持向量机和决策树,一些系统还使用“反说话人”技术,如队列模型和世界模型。近几年神经网络,尤其是深神经网络和卷积神经网络被广泛应用于语音识别并获得巨大成功。类似的技术也被用于说话人识别。然而现有的会话识别技术不仅需要大量语音数据,而且训练时间也较长,对有些应用不是很方便。目前,服务机器人无论是在国际上还是国内都不算特别成熟,会话机器人不仅要能听懂你在说什么,还要听懂多人同时对话,这对于机器人来说很难。因为语音语调不同的交杂,机器人接受不了就不能流畅的对话。为此,针对现有技术中会话识别技术难以满足实际应用需求,本申请为打破这个技术壁垒提供一种用音频特征主成分建立的语音群集来识别说话人的方法。
技术实现思路
:本专利技术的目的旨在提供一种用音频特征主成分建立的语音群集来识别说话人的方法,以实现智能语言教学系统说话人识别,从未知的多个发言者会话中及时分辨说话人。为达到上述目的,本专利技术采取以下技术方案:本专利技术用音频特征主成分建立的语音群集来识别说话人的方法,主要是将主成分分析(PCA)和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合,具体包括如下步骤:1)收集不同的训练音频样本集;2)根据Librosa中描述的算法,计算每个样本的时域和频域音频特征;所述频域音频特征主要包括过零率、均方根能量、频谱质心和带宽、Mel-Frequency倒谱系数(MFCC)和基音等级或色度。3)分别计算出上述时域和频域音频特征的平均值和标准偏差;4)通过计算出的上述数据对训练样本进行主成分分析,选择出能解释95%方差的前N个分量;5)将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表;6)采用UPGMA聚类分析算法,基于n维空间中的距离对说话人进行聚类。上述基于n维空间中的距离对说话人进行聚类具体是先将最近距离的说话人聚类成群集或枝,其坐标是包含的说话人或叶的平均值,以此一直持续到所有的说话人都加入到群集,形成一棵树。进一步的,识别新音频中的说话人采用如下方法:读取或录入新语音,先计算出新音频特征数据,并将其转换为N维主分量空间投影坐标;将上述现有群集树中的枝叶与新音频进行比较,找出最接近的说话者,即计算新音频与最接近的说话者的相似度,具体为:先计算出距离d,然后通过以下方程式计算匹配得分s:当d≤rave,当d≤rave,其中,上式中rave和rsd是从最接近的说话人音频特征坐标样本到中心的距离的平均和标准偏差,cdf是正常的累积分布函数。若得分s高于指定的截止值d,则新音频与最接近的说话者是同一说话人;否则,新音频来自新的说话人。上述获得的新音频数据坐标作为新的条目添加到以上群集树中,用来进一步识别来自这个新说话人的语音,由此构成新的语音群集树。本专利技术的有益效果在于:(1)与现有技术相比,本专利技术识别说话人的方法只需要一组不同语音文件来训练和建立一个起始群集树,要识别的音频可以和这些训练语音完全不同,起始群集树建立后无需再进行训练就可以直接识别新语音,添加新说话人语音。(2)本专利技术识别说话人的方法中利用特殊的算法,使对话被简洁、快速、精准的听得清楚,则该方法具有速度快,添加新说话人语音方便的特点。(3)将本专利技术的方法用于智能语言教学系统,实现了说话人识别,从未知的多个发言者会话中及时分辨说话人,利于针对性的教学。附图说明:图1是本专利技术具体实施方式中建立说话人语音群集的流程图;图2是本专利技术具体实施方式中识别说话人语音流程图。具体实施方式:下面通过附图结合实施例,对本专利技术的技术方案作进一步具体的详细说明。参见图1,本专利技术在说话人识别的基础上,先通过主成分分析(PCA)和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合建立说话人语音集群,具体步骤如下:(1)阅读训练语音文件;(2)计算语音特征,即每个训练语音文件的时域和频域音频特征,主要包括过零率、均方根能量、频谱质心和带宽、Mel-Frequency倒谱系数(MFCC)和基音等级或色度;(3)寻找语音特征中的主成分,即计算出以上语音特征的平均值和标准偏差进行主成分分析;(4)计算语音特征主成分空间中的坐标,即从语音特征主成分中选择出能解释95%方差的前N个分量作为N个主成分投影的坐标;(5)基于主成分空间中的距离聚集语音,保存一个训练好的语音群集。按照以上基于说话人语音音频特征主成分建立的语音群集库,举例如下表1:表1基于说话人语音音频特征主成分建立的语音群集库将以上表1中所建立的语音群集库根据特征分析得到的参数集进行打分并识别说话人是否在声纹模型库中。参见图2,将上述保存好的语音群集采用UPGMA聚类分析算法,将最近距离的说话人聚类成群集或枝,其坐标是包含的说话人或叶的平均值,以此一直持续到所有的说话人都加入到群集,形成一棵树。当出现新语音时,通过本专利技术的方法识别说话人的步骤如下:(1)在读取训练好的语音群集的基础上,读取或录入新语音;(2)计算出新语音特征数据;(3)计算新语音特征主成分空间中的坐标,即将新语音特征数据转换为N维主分量空间投影坐标;(4)从训练好的语音群集中找出与新语音最近的语音,即将现有群集树中的枝叶与新语音进行比较,找出最接近的说话者;(5)计算出新语音与最接近的说话者的相似度,具体为:先计算出距离d,然后通过以下方程式计算匹配得分s:当d≤rave,当d≤rave,其中,上式中rave和rsd是从最接近的说话人音频特征坐标样本到中心的距离的平均和标准偏差,cdf是正常的累积分布函数。(6)若得分s≥指定的截止值d,则新语音与最近语音是同一说话人;否则,新语音来自新的说话人;(7)将获得的新语音作为新的条目添加到以上群集树中,构成新的语音群集树。本文档来自技高网...

【技术保护点】
1.用音频特征主成分建立的语音群集来识别说话人的方法,其特征在于:所述方法是将主成分分析和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合,具体包括如下步骤:1)收集不同的训练音频样本集;2)根据Librosa中描述的算法,计算每个样本的时域和频域音频特征;3)分别计算出上述时域和频域音频特征的平均值和标准偏差;4)通过计算出的上述数据对训练样本进行主成分分析,选择出能解释95%方差的前N个分量;5)将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表;6)采用UPGMA聚类分析算法,基于n维空间中的距离对说话人进行聚类。

【技术特征摘要】
1.用音频特征主成分建立的语音群集来识别说话人的方法,其特征在于:所述方法是将主成分分析和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合,具体包括如下步骤:1)收集不同的训练音频样本集;2)根据Librosa中描述的算法,计算每个样本的时域和频域音频特征;3)分别计算出上述时域和频域音频特征的平均值和标准偏差;4)通过计算出的上述数据对训练样本进行主成分分析,选择出能解释95%方差的前N个分量;5)将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表;6)采用UPGMA聚类分析算法,基于n维空间中的距离对说话人进行聚类。2.根据权利要求1所述的用音频特征主成分建立的语音群集来识别说话人的方法,其特征在于:步骤2)中所述样本的时域和频域音频特征包括过零率、均方根能量、频谱质心和带宽、Mel-Frequency倒谱系数和基音等级或色度。3.根据权利要求1所述的用音频特征主成分建立的语音群集来识别说话人的方法,其特征在于:步骤6)中所述基于n维空间中的...

【专利技术属性】
技术研发人员:陈永清陈东风王贵珊李瑞娟
申请(专利权)人:新巴特安徽智能科技有限公司
类型:发明
国别省市:安徽,34

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1