语音信号中针对通用特定语音的并联特征提取系统及方法技术方案

技术编号:23769086 阅读:94 留言:0更新日期:2020-04-11 21:42
本发明专利技术公开了一种语音信号中针对通用特定语音的并联特征提取系统及方法,所述模型主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并,得到1*1024维情感特征;语谱图作为输入馈入卷积神经网络CNN中,语谱图和MFCC馈入Seq2Seq中,2个通道的模型融合加入注意力机制,形成声纹识别模型;采用42维MFCC作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。本发明专利技术具有准确率高、集成度高、可自由选择方案等优点。

Parallel feature extraction system and method for general specific speech in speech signal

【技术实现步骤摘要】
语音信号中针对通用特定语音的并联特征提取系统及方法
本专利技术涉及信号处理提取领域,尤其是一种语音任务的特征提取系统。
技术介绍
语音是人类最有效、最自然也是最重要的一种通信形式,通过语音实现人与机器之间的交流,需要机器有足够的智能去识别人类的声音。伴随着机器学习、神经网络和深度学习理论的发展,语音识别相关任务的完成度在逐步提升,这对于计算机理解出语音的内容提高很大帮助。目前,语音识别任务主要涉及以下3种识别任务:1、声纹识别声纹识别又称为说话者识别,它是一种生物特征识别形式,是对说话人的连续语音信号经过分析处理提取离散语音特征,通过与数据库中的模板进行匹配来自动确认该语音的说话者。它关注说话人本身,而不在乎说话内容。由于人与人之间的发音器官、口音、说话节奏等存在差异,通过分析人的语音能够提取出说话人信息,从而达到识别人的身份的目的。2、语音识别语音识别是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用。3、语音情感识别传统的人机交互主要依靠键盘和鼠标,计算机只是被动地接受信息,不能主动和人进行沟通,人机之间无法进行情感通信。计算机自然无法实现自然与和谐的人机交互。情感识别可以帮助实现模拟的人与人之间蕴含情感的交流和沟通,让计算机也具备情感计算的能力。然而,上述3中识别任务在实际应用或设计上,存在诸多缺陷或不足。例如:声纹识别、语音识别、情感识别任务模型之间不通用、输入形式不统一、没有普适的解决方案、集成准确度不高、情感识别单个任务的识别准确率不高等等。
技术实现思路
本专利技术目的在于提供一种准确率高、集成度高、可自由选择方案的语音信号中针对通用特定语音任务的并联特征提取系统。为实现上述目的,采用了以下技术方案:本专利技术所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;所述情感识别模型如下:语音信号通过特征提取,获得语谱图、TEO(Teagerenergyoperator)和声学特征描述符LLD(low-levelacousticfeaturedescriptors);对LLD特征进行HSF表示,获取切分后的音频文件的全局特征,采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围;将HSF后的特征馈入GRU(GatedRecurrentUnit)模型中,由GRU模型学习得到了情感识别特征,输出特征为1*512维;采用语谱图和TEO作为卷积循环神经网络CRNN(ConvolutionalRecurrentNeuralNetwork)的输入,LLD采用低级描述符和高级统计函数HSF通道的30维特征;TEO和语谱图的特征融合后,送入CRNN中,CRNN由卷积神经网络(ConvolutionalNeuralNetwork,CNN)和循环神经网络两部分构成;在CRNN模型的情感识别特征输入注意力机制得到1*512维输出特征;将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并,得到1*1024维情感特征。所述声纹识别模型如下:以语音信号为输入,通过特征提取,获得语谱图和MFCC(梅尔频率倒谱系数);语谱图作为输入馈入卷积神经网络CNN中,语谱图和MFCC(MelFrequencyCepstralCoefficents,梅尔频率倒谱系数)馈入Sequence-to-Sequence(Seq2Seq)中,2个通道的模型融合加入注意力机制,形成声纹识别模型;所述语音识别模型如下:以语音信号为输入,通过特征提取,获得MFCC和语谱图;采用42维MFCC作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。进一步的,所述语谱图是语音信号的傅里叶分析的显示图像,语谱图是一种三维频谱,表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间;获取方法如下:对于一段语音信号x(t),首先分帧,变为x(m,n)(n为帧长,m为帧的个数),进行快速傅立叶变换,得到X(m,n),得到周期图Y(m,n)(Y(m,n)=X(m,n)*X(m,n)’),取10*log10(Y(m,n)),把m根据时间变换刻度,得到M,n根据频率变换刻度,得到N,(M,N,10*log10(Y(m,n)组成的二维图像,即为语谱图。进一步的,所述TEO是一种非线性运动结构的能量算子,可以反映单个语音频率成分的特性,还能反映多个语音频率成分之间的关系。对于连续信号X(t),TEO描述为:ψ[x(t)]=(x′(t))2-x(t)x(t)n(1)式中x'(t)=dx(t)/dt,x(t)为连续的时域信号,对于离散信号x(n),TEO表示为:ψ[x(n)]=(x2(n))-x(n-1)x(n+1),式中x(n)是信号在n时刻的值。求取TEO的具体过程是,对语音信号加窗分帧后求每一帧的TEO能量,计算公式如下。其中,ETEO是第t帧的TEO能量,τ是每帧样本数量,L为每帧的长度。进一步的,在捕获最原始的声学特征时,需要将语音信号转换为语音特征向量,即结合低级描述符(LLD)和高级统计函数(HighlevelStatisticsFunctions,HSF),特征均可使用OpenSmiletoolbox工具箱直接计算得到。进一步的,所述的语音信号中针对通用特定语音任务的并联特征提取模型,其特征在于:所述GRU中包含更新门和重置门;GRU模型的设计公式如下:zt=σ(Wz·[ht-1,xt])(3)rt=σ(Wr·[ht-1,xt])(4)zt和rt分别表示更新门和重置门。为第t层部分隐藏层输出;ht为第t层全部隐藏层向量。进一步的,卷积神经网络部分基于传统CNN网络模型,用于提取语谱图的频域特征,对于预先分段的语音,可获得每个片段的CNN学习特征;对输入图像进行卷积,分为4个步骤,即连续的2组卷积和池化操作,从而生成一组特征集合;然后进入循环神经网络部分,采用2层双向循环长短期记忆网络(BidirectionalLongShort-TermMemory,BLSTM)网络,其中每个时间步对应于原始音频输入的一段,保留区域之间的长期依赖性,此模型输出为512维特征;对于输入x的序列中的每个向量xi,可以按照公式7计算注意力权重αi,其中f(xi)是评分函数。注意力层的输出,即attentive_x,是输入序列的权重之和,如公式8所示。attentive_x=∑iαixi(8)由此通本文档来自技高网
...

【技术保护点】
1.一种语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;/n所述情感识别模型如下:/n语音信号通过特征提取,获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD;/n对声学特征描述符特征进行HSF表示,获取切分后的音频文件的全局特征,采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围;将HSF后的特征馈入GRU模型中,由GRU模型学习得到了情感识别特征,输出特征为1*512维;/n采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入,声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征;非线性运动结构的能量算子和语谱图的特征融合后,送入卷积循环神经网络中,卷积循环神经网络由卷积神经网络和循环神经网络两部分构成;在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征;/n将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并,得到1*1024维情感特征;/n所述声纹识别模型如下:/n以语音信号为输入,通过特征提取,获得语谱图和梅尔频率倒谱系数MFCC;/n语谱图作为输入馈入卷积神经网络中,语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中,2个通道的模型融合加入注意力机制,形成声纹识别模型;/n所述语音识别模型如下:/n以语音信号为输入,通过特征提取,获得梅尔频率倒谱系数和语谱图;/n采用42维梅尔频率倒谱系数作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。/n...

【技术特征摘要】
1.一种语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;
所述情感识别模型如下:
语音信号通过特征提取,获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD;
对声学特征描述符特征进行HSF表示,获取切分后的音频文件的全局特征,采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围;将HSF后的特征馈入GRU模型中,由GRU模型学习得到了情感识别特征,输出特征为1*512维;
采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入,声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征;非线性运动结构的能量算子和语谱图的特征融合后,送入卷积循环神经网络中,卷积循环神经网络由卷积神经网络和循环神经网络两部分构成;在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征;
将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并,得到1*1024维情感特征;
所述声纹识别模型如下:
以语音信号为输入,通过特征提取,获得语谱图和梅尔频率倒谱系数MFCC;
语谱图作为输入馈入卷积神经网络中,语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中,2个通道的模型融合加入注意力机制,形成声纹识别模型;
所述语音识别模型如下:
以语音信号为输入,通过特征提取,获得梅尔频率倒谱系数和语谱图;
采用42维梅尔频率倒谱系数作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。


2.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述语谱图是语音信号的傅里叶分析的显示图像,语谱图是一种三维频谱,表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间;获取方法如下:对于一段语音信号x(t),首先分帧,变为x(m,n),n为帧长,m为帧的个数;进行快速傅立叶变换,得到X(m,n),得到周期图Y(m,n),Y(m,n)=X(m,n)*X(m,n)’,取10*log10(Y(m,n)),把m根据时间变换刻度,得到M,n根据频率变换刻度,得到N;M,N,10*log10(Y(m,n))组成的二维图像,即为语谱图。


3.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述非线性运动结构的能量算子TEO,可以反映单个语音频率成分的特性,还能反映多个语音频率成分之间的关系;
对于连续信号X(t),TEO描述为:
ψ[x(t)]=(x'(t))2-x(t)x(t)n(1)
式中x'(t)=dx(t)/dt,x(t)为连续的时域信号,对于离散信号x(n),TEO表示为:
ψ[x(n)]=(x2(n))-x(n-1)x(n+1),式中x(n)是信号在n时刻的值;
求取TEO的具体过程是,对语音信号加窗分帧后求每一帧的TEO能量,计算公式如下;



其中,ETEO是第t帧的TEO能量,τ是每帧样本数量,L为每帧的长度。


4.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:在捕获最原始的声学特征时,需要将语音信号转换为语音特征向量,即结合低级描述符LLD和高级统计函数HSF,特征均可使用OpenSmiletoolbox工具箱直接计算得到。


5.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述GRU中包含更新门和重置门;GRU模型的设计公式如下:
zt=σ(Wz·[ht-1,xt])(3)
rt=σ(Wr·[ht-1,xt])(4)






zt和rt分别表示更新门和重置门;

为第t层部分隐藏层输出;
ht为第t层全部隐藏层向量。


6.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:卷积神经网络部分基于传统CNN网络模型,用于提取语谱图的频域特征,对于预先分段的语音,可获得每个片段的CN...

【专利技术属性】
技术研发人员:郑纯军贾宁陈明华周伊佳张轶
申请(专利权)人:大连东软信息学院
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1