基于三维卷积神经网络文本无关的说话人识别方法及系统技术方案

技术编号:16781350 阅读:224 留言:0更新日期:2017-12-13 00:56
本发明专利技术公开了一种基于三维卷积神经网络文本无关的说话人识别系统,包括:模块一:语音采集模块,用于语音数据的采集;模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;模块四:说话人识别模块,用于实时识别说话人的身份。本发明专利技术还公开了一种基于三维卷积神经网络文本无关的说话人识别方法。本发明专利技术提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统,可以达到用户的注册和识别的文本无关,提高用户的体验度。

【技术实现步骤摘要】
基于三维卷积神经网络文本无关的说话人识别方法及系统
本专利技术涉及一种说话人识别方法和系统,具体涉及一种基于三维卷积神经网络的文本无关的说话人识别方法及系统,属于智能识别

技术介绍
随着人工智能的发展,智能家居语音控制系统的前景开始凸显出来。不过,即使当前的语音识别技术已经基本上达到了人们所需要的标准,在智能家居语音控制系统之中,仍然有一些瑕疵的存在,例如如何准确辨认发出命令的用户的身份,说话人识别(也即声纹识别)是有效解决方式之一。智能家居系统辨别出用户的身份,便可以根据对应用户的个人喜好推送相关内容。以此,借助说话人识别能让用户体验进一步的提升,同时提高了家庭应用环境的安全系数。因此,随着语音识别热潮的过去,说话人识别又成为了新的热门,被称为智能家居未来发展的关键,或是语音交互的下一个风口。说话人识别将改变未来的智能家居领域的操作习惯,解放用户的双手,双脚,无需走来走去或者拿着移动终端拼命按键。也让老人小孩等不方便用物理形式操控产品系统的用户人群享受智能家居生活,更有助于智能家居在大众家庭的普及落地。现有的说话人识别技术存在的问题:(1)说话人识别算法基本都是基于文本相本文档来自技高网...
基于三维卷积神经网络文本无关的说话人识别方法及系统

【技术保护点】
一种基于三维卷积神经网络文本无关的说话人识别系统,其特征在于包括:模块一:语音采集模块,用于语音数据的采集;模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;模块四:说话人识别模块,用于实时识别说话人的身份。

【技术特征摘要】
1.一种基于三维卷积神经网络文本无关的说话人识别系统,其特征在于包括:模块一:语音采集模块,用于语音数据的采集;模块二:语音预处理模块,用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据,等到最终的训练数据;模块三:说话人识别模型训练模块,用于训练说话人识别的离线模型;模块四:说话人识别模块,用于实时识别说话人的身份。2.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:语音采集是采用录音的方式收集的。3.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:剔除特征中的非音频数据采用能量比对的方法,首先设定一个能量阈值E,对MFCC的特征中每一帧的能量小于E则认为是噪音剔除,否则是音频数据保留。4.根据权利要求3所述基于三维卷积神经网络文本无关的说话人识别系统,其特征在于:语音预处理模块进一步包括以下步骤:S0:对每一个原始语音数据,提取梅尔频率倒谱系数特征,假设帧长为A毫秒,步长为B毫秒,因此每个帧长内就会得到一个C维的特征向量,假设原始语音数据有N个帧,这样得到NxC的二维矩阵X;S1:将步骤一种的特征采用语音激活检测剔除其中的非音频数据,每个原始语音等到MxC的二维矩阵Y,其中M小于等于N;S2:构建三维训练样本,所有数据以hd5的格式保存,假设每个三维训练数据的格式为h*n...

【专利技术属性】
技术研发人员:伍强
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1