基于时空信息融合的声纹识别方法、系统及存储介质技术方案

技术编号：27979649 阅读：34 留言：0更新日期：2021-04-06 14:14

本发明专利技术涉及一种基于时空信息融合的声纹识别方法、系统及存储介质，方法包括：S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；S2、对声音特征向量进行阈值判定；S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理，获取声音全局特征；S4、采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；S5、将具有时序关系的声音特征输入全连接网络层进行分类，实现声纹的识别。本发明专利技术提升了声纹识别和分类的准确率，使得准确率达到了90％以上。

全部详细技术资料下载

【技术实现步骤摘要】
基于时空信息融合的声纹识别方法、系统及存储介质
本专利技术涉及一种基于时空信息融合的声纹识别方法、系统及存储介质，涉及语音识别

技术介绍
保证人民群众生命财产安全，维护国内治安稳定一直是近年来不变的旋律。因此对于治安监控、网络侦察等技术手段提出了更高的要求。灾难发生时往往伴随着人群的慌乱呼救及灾难本身的声音特征，因此对于声纹识别技术手段的探索是急需的。传统的声音类监控只能是预先录音或者人工实时监听的方式。但是对于大面积区域的多种声音，监听人员往往容易注意力分散、精力不够，对于突如其来的各种声音很难做到有效识别。对有多种混合声音时难以分辨，错过了防止各种事故发生的时机，使得声音监控相对于视频监控的优势不能完全体现。综上，目前对于语音识别为文字等技术手段已经层出不穷但是对于音色的识别，现有识别技术的成熟度和准确率并不高。
技术实现思路
针对上述问题，本专利技术的目的是提供一种能够对各种声音类型进行精确识别的基于时空信息融合的声纹准确识别方法、系统及存储介质。为实现上述目的，本...

【技术保护点】
1.一种基于时空信息融合的声纹识别方法，其特征在于包括以下内容：/nS1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；/nS2、对声音特征向量进行阈值判定；/nS3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理，获取声音全局特征；/nS4、采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；/nS5、将具有时序关系的声音特征输入全连接网络层进行分类，实现声纹的识别。/n

【技术特征摘要】
1.一种基于时空信息融合的声纹识别方法，其特征在于包括以下内容：
S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；
S2、对声音特征向量进行阈值判定；
S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理，获取声音全局特征；
S4、采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；
S5、将具有时序关系的声音特征输入全连接网络层进行分类，实现声纹的识别。

2.根据权利要求1所述的基于时空信息融合的声纹识别方法，其特征在于，步骤S1前还包括原始声音数据采集的步骤。

3.根据权利要求2所述的基于时空信息融合的声纹识别方法，其特征在于，原始声音数据采集采用麦克风设备或者直接录入语音文件的方式。

4.根据权利要求1所述的基于时空信息融合的声纹识别方法，其特征在于，上述S1的实现过程包括：
S11、将原始声音数据根据预设固定的长度进行分帧；
S12、将分帧后的数据进行快速傅里叶变换，得到声音数据的频谱图；
S13、将频谱图的横纵坐标进行翻转交换，根据数据的大小映射到灰度值；
S14、将灰度值经过梅尔滤波器进行滤波得到梅尔频谱，对梅尔频谱取对数并做逆变换，选取变换后的若干系数作为梅尔倒谱系数，得到声音的特征向量。

5.根据权利要求4所述的基于时空信息融合的声纹识别方法，其特征在于，灰度值＝255*(原数据值-原数据最小值...

【专利技术属性】
技术研发人员：郭宇鹏，毛少将，王晓，周昌锋，石雷，
申请(专利权)人：通号智慧城市研究设计院有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人