用音频特征主成分建立的语音群集来识别说话人的方法技术

技术编号：19861455 阅读：44 留言：0更新日期：2018-12-22 12:36

本发明专利技术公开了一种用音频特征主成分建立的语音群集来识别说话人的方法，该方法是将主成分分析和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合，具体为：收集不同的训练音频样本集；计算每个样本的时域和频域音频特征；计算出时域和频域音频特征的平均值和标准偏差；通过计算出的数据对训练样本进行主成分分析；将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表；采用UPGMA聚类分析算法，基于n维空间中的距离对说话人进行聚类。本发明专利技术的方法具有速度快，添加新说话人语音方便的特点，用于智能语言教学系统，实现了说话人识别，从未知的多个发言者会话中及时分辨说话人，利于针对性的教学。

全部详细技术资料下载

【技术实现步骤摘要】
用音频特征主成分建立的语音群集来识别说话人的方法
：本专利技术属于说话人识别
，特别涉及一种用音频特征主成分建立的语音群集来识别说话人的方法。
技术介绍
：说话人识别是一种模式识别问题。用于处理和存储声纹的各种技术包括频率估计、隐马尔可夫模型、高斯混合模型、模式匹配算法、矩阵表示、矢量量化、支持向量机和决策树，一些系统还使用“反说话人”技术，如队列模型和世界模型。近几年神经网络，尤其是深神经网络和卷积神经网络被广泛应用于语音识别并获得巨大成功。类似的技术也被用于说话人识别。然而现有的会话识别技术不仅需要大量语音数据，而且训练时间也较长，对有些应用不是很方便。目前，服务机器人无论是在国际上还是国内都不算特别成熟，会话机器人不仅要能听懂你在说什么，还要听懂多人同时对话，这对于机器人来说很难。因为语音语调不同的交杂，机器人接受不了就不能流畅的对话。为此，针对现有技术中会话识别技术难以满足实际应用需求，本申请为打破这个技术壁垒提供一种用音频特征主成分建立的语音群集来识别说话人的方法。
技术实现思路
：本专利技术的目的旨在提供一种用音频特征主成分建立的语音群集来识别说话人的方法，以实现智能语言教学系统说话人识别，从未知的多个发言者会话中及时分辨说话人。为达到上述目的，本专利技术采取以下技术方案：本专利技术用音频特征主成分建立的语音群集来识别说话人的方法，主要是将主成分分析(PCA)和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合，具体包括如下步骤：1)收集不同的训练音频样本集；2)根据Librosa中描述的算法，计算每个样本的时域和频域音频特征；所述频域...

【技术保护点】
1.用音频特征主成分建立的语音群集来识别说话人的方法，其特征在于：所述方法是将主成分分析和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合，具体包括如下步骤：1)收集不同的训练音频样本集；2)根据Librosa中描述的算法，计算每个样本的时域和频域音频特征；3)分别计算出上述时域和频域音频特征的平均值和标准偏差；4)通过计算出的上述数据对训练样本进行主成分分析，选择出能解释95％方差的前N个分量；5)将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表；6)采用UPGMA聚类分析算法，基于n维空间中的距离对说话人进行聚类。

【技术特征摘要】
1.用音频特征主成分建立的语音群集来识别说话人的方法，其特征在于：所述方法是将主成分分析和基于音频特征在主分量空间中的欧几里得距离的层次聚类相结合，具体包括如下步骤：1)收集不同的训练音频样本集；2)根据Librosa中描述的算法，计算每个样本的时域和频域音频特征；3)分别计算出上述时域和频域音频特征的平均值和标准偏差；4)通过计算出的上述数据对训练样本进行主成分分析，选择出能解释95％方差的前N个分量；5)将每个音频由音频特征数据沿着上述N个主成分投影的坐标来代表；6)采用UPGMA聚类分析算法，基于n维空间中的距离对说话人进行聚类。2.根据权利要求1所述的用音频特征主成分建立的语音群集来识别说话人的方法，其特征在于：步骤2)中所述样本的时域和频域音频特征包括过零率、均方根能量、频谱质心和带宽、Mel-Frequency倒谱系数和基音等级或色度。3.根据权利要求1所述的用音频特征主成分建立的语音群集来识别说话人的方法，其特征在于：步骤6)中所述基于n维空间中的...

【专利技术属性】
技术研发人员：陈永清，陈东风，王贵珊，李瑞娟，
申请(专利权)人：新巴特安徽智能科技有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人