【技术实现步骤摘要】
基于卷积神经网络的语音特征匹配方法
本专利技术涉及语音识别
,更为具体地,涉及一种基于卷积神经网络的语音特征匹配方法。
技术介绍
语音是人们之间交流的重要工具,例如语音电话、语音聊天和语音功能提示等,随着信息化时代的深入发展,近年来语音交互技术受到了广泛的关注。在现有语音处理技术中,例如公开号为CN103236260B的中国专利公开了一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的语音特征参数与至少一个语音模型进行匹配,确定待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。但是,存在语音识别的准确率较低,语音识别系统的较为复杂,软件运行健壮性较差等问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足 ...
【技术保护点】
1.一种基于卷积神经网络的语音特征匹配方法,其特征在于,包括:S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对所述图像片段做傅里叶变换得到频谱信号;并提取出特征向量;S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;S3,语音特征匹配,利用语音查询文件与所述语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件;S4,对匹配的语音记录文件进行分类处理后,解码转换为文本信息,并匹配识别相应的情感分类模板,在完成情感匹配识别后,通过输出设备输出匹配结果内容。
【技术特征摘要】
1.一种基于卷积神经网络的语音特征匹配方法,其特征在于,包括:S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对所述图像片段做傅里叶变换得到频谱信号;并提取出特征向量;S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;S3,语音特征匹配,利用语音查询文件与所述语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件;S4,对匹配的语音记录文件进行分类处理后,解码转换为文本信息,并匹配识别相应的情感分类模板,在完成情感匹配识别后,通过输出设备输出匹配结果内容。2.根据权利要求1所述的基于卷积神经网络的语音特征匹配方法,其特征在于,在步骤S1中,采用PCA白化降低频谱的维度。3.根据权利要求1所述的基于卷积神经网络的语音特征匹配方法,其特征在于,在步骤S2中,包括如下步骤:S...
【专利技术属性】
技术研发人员:李剑峰,
申请(专利权)人:湖南检信智能科技有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。