【技术实现步骤摘要】
声音识别方法、装置、计算机设备和存储介质
[0001]本专利技术涉及深度学习
,特别涉及一种声音识别方法、装置、计算机设备和存储介质。
技术介绍
[0002]在某些传染性疾病中,咳嗽不仅能够有效提醒观察对象是否可能被感染,也有助于对病情发展做出有效判断。目前,声音的录制技术已经较为成熟,但录音内容仍然需要依靠人力来分析,从中选择出咳嗽出现的片段,工作量非常大。若能采用计算机辅助识别咳嗽信号,对于医生对病人的临床诊断与治疗都具有重要意义。
[0003]目前,咳嗽声音识别方法主要包括动态时间规整(DTW)、聚类、隐马尔科夫过程(HMM)以及各种算法的组合和改进。经过人工提取声音信号特征后,利用算法模型进行信号的分类和识别,常用的声音信号特征向量包括功率谱密度(PSD)、梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)等。
[0004]近年来,随着深度神经网络(DNN)的深入研究与广泛应用,逐渐有人将之应用到咳嗽识别,基于卷积神经网络(CNN)或递归神经网络(RNN)或组合方法设计出高效的模型结构,大大 ...
【技术保护点】
【技术特征摘要】
1.一种声音识别方法,其特征在于,包括:获取待识别的声音信号的频谱特征数据;将所述频谱特征数据输入至预先训练的声音识别模型,由所述声音识别模型识别所述声音信号的类别,其中,所述声音识别模型用于对频谱特征数据提取序列特征,并基于提取的序列特征进行类别识别,且所述声音识别模型由标注有声音类别的声音样本训练得到。2.根据权利要求1所述的方法,其特征在于,所述声音识别模型包括第一卷积层、序列特征提取层、序列特征强化层、全局最大与全局平均池化层、以及全连接层,并且,所述声音识别模型通过以下方式对待识别的声音信号进行识别:所述第一卷积层对所述频谱特征数据进行卷积;所述序列特征提取层从所述第一卷积层输出的卷积后结果中提取时序特征数据;所述全局最大与全局平均池化层从所述时序特征数据中提取多个时刻的最大数据和平均数据,并拼接为特征向量;所述全连接层基于拼接后的特征向量输出声音类别。3.根据权利要求2所述的方法,其特征在于,所述序列特征提取层包括至少一个时序特征提取层,并且,每个时序特征提取层后连接一个参数归一化层。4.根据权利要求3所述的方法,其特征在于,所述时序特征提取层为门控循环单元GRU层,且所述时序特征提取层的数量为两个;所述参数归一化层为batch normalization层。5.根据权利要求2所述的识别方法,其特征在于,所述声音识别模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。