当前位置: 首页 > 专利查询>汪秀英专利>正文

一种语音识别方法及系统技术方案

技术编号:26175213 阅读:26 留言:0更新日期:2020-10-31 14:07
本发明专利技术涉及一种语音识别的技术领域,揭露了一种语音识别方法,包括:获取待识别语音信号,并计算待识别语音信号的能量密度谱;将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;利用盲源分离算法估计待识别语音中目标语音信号的mask值;利用基于mask值的多通道增强算法对目标语音信号进行增强;利用预训练的DFSMN‑CTC模型对语音信号进行识别,得到语音识别结果。本发明专利技术还提出一种语音识别系统。本发明专利技术实现了语音的识别。

【技术实现步骤摘要】
一种语音识别方法及系统
本专利技术涉及语音识别的
,尤其涉及一种语音识别方法及系统。
技术介绍
近年来,随着移动互联网的兴起和智能手机等移动终端的普日益及,自然人机交互技术受到广泛关注并发展迅速。语音识别技术是自然人机交互的重要桥梁,能够大力地促进人工智能的发展。但是,现实生活中,不管是机器还是人类接受到的语音信号都是通过空气等媒介才能间接地传递过来,因此,这些声波信号极易受到各种噪声干扰以及不同环境存在的回声、混响等影响导致失真,甚至在更复杂的声学场景下,还会把目标语音完全掩盖,这就对语音识别系统在真实场景中的应用提出了巨大的挑战。传统声学模型训练时,为了得到每个音素对应的发音模型,必须准确得到每个音素对应的特征,亦即执行所谓的对齐操作,如在GMM-HMM模型中,为了使对齐准确,往往需要根据每次训练之后,根据损失值进行对齐多次,且在噪声环境下对齐操作极易受噪声的干扰,这种对齐错位将导致模型出现插入错误与替换错误。同时为提升噪声环境下语音识别系统的鲁棒性,现有技术大多采用基于子空间的语音增强算法和谱减法进行待识别语音的增强处理,其中,基于子空间的语音增强算法利用线性代数中的基础理论,将带有噪声的语音信号分解为两个独立的子向量空间,分别由噪声和干净语音作为主导,然后只保留干净语音信号所在的分量,来还原期望的干净语音信号,但是子空间法的问题在于矩阵分解的计算量大且结构繁杂,并不利于实际工程应用;谱减法具有算法结构简单、计算复杂度低的优点,因此在当前语音识别工程应用中最为常用,但是,谱减法在计算时会采用半波整流的方法保证信号幅度谱不为负数,这导致了信号在频谱上某些位置会出现毛刺,在听感上就表现为刺耳的“音乐噪声”,带来难以抑制的失真问题。鉴于此,如何有效去除干扰说话人以及环境噪音信息,保留目标说话人的语音信息,并对目标说话人的语音信息进行识别,成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术提供一种语音识别方法,能够有效去除干扰说话人以及环境噪音信息,保留目标说话人的语音信息,并对目标说话人的语音信息进行识别。为实现上述目的,本专利技术提供的一种语音识别方法,包括:获取待识别语音信号,并计算待识别语音信号的能量密度谱;将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;利用盲源分离算法估计待识别语音中目标语音信号的mask值;利用基于mask值的多通道增强算法对目标语音信号进行增强;利用预训练的DFSMN-CTC模型对语音信号进行识别,得到语音识别结果。可选地,所述计算待识别语音信号的能量密度谱,包括:1)对待识别语音信号进行短时傅里叶变换:其中:x(n)为待识别语音的离散时域采样信号,n=0,1,...,N-1,n为时域采样点信号,N为语音信号的长度;Xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;m为帧同步的时间信号,m=0,1,...,M-1,M为帧长;ω为窗序列;2)采用离散傅里叶变换DFT得:其中:0≤k≤N-1,k为待识别语音的离散时域采样信号的幅度值;n为时域采样点信号;X(n,k)是待识别语音的离散时域采样信号的短时幅度谱估计;Xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;m为帧同步信号,m=0,1,...,M-1,M为帧长;N为语音信号的长度;3)计算时间m处的频谱能量密度函数:P(n,k)=|X(n,k)|2=(X(n,k))×(conj(X(n,k)))其中:n为时域采样点信号;k为待识别语音的离散时域采样信号的幅度值;X(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;conj(·)函数用于计算复数的共轭值;P(n,k)为信号x(n)的短时自相关函数的傅里叶变换,它是二维的非负实值函数;用时间n作为横坐标,k作为纵坐标,将P(n,k)的值表示为灰度级所构成的二维图像就是能量密度谱;通过变换101gP(n,k)能得到语谱图的dB表示。可选地,所述将能量密度谱进行伪彩色映射,包括:1)将P(n,k)的最大值Pmax(n,k)映射为归一化1电平,将最小值Pmin(n,k)映射为归一化0电平;2)将P(n,k)线性映射为0~1间的电平Li,计算机监视器根据Li的值将能量密度谱以伪彩色模式显示出来;3)选择基准电平值Base,将小于Base的值限定在此基准电平上,将大于Base的值线性映射到0~1的归一化彩色值,则彩色矩阵值L={l(n,k)}的数学表示为:其中:n为时域采样点信号;k为待识别语音的离散时域采样信号的幅度值;Base为基准电平值,本专利技术将其设为0;P(n,k)为信号x(n)的短时自相关函数的傅里叶变换,它是二维的非负实值函数。可选地,所述自适应的时域滤波器为:所述时域滤波器的结构为频域分块自适应滤波器的结构,时域滤波器的系数向量可表示为w(n)=[w0(n),...,wM-1(n)]T,时域滤波器的误差向量为e(n)=[e(n),...e(n+M-1)]T,时域滤波器的滤波器系数W(k)和误差信号向量E(k)分别为:W(k)=[w0(k),...,w2M-1(k)]T=F[wT(kM)0...0]E(k)=F[0…0e(kM)]T其中:F是2M×2M的DFT矩阵;k为待识别语音的离散时域采样信号;M为待识别语音信号的帧长;wi为时域滤波器的系数向量;e(·)为时域滤波器的误差向量;所述时域滤波器的频域自适应系数迭代表达式为:W(k+1)=W(k)+2μ(k)∧(k)-1X(k)E(k)其中:W(k)为时域滤波器的滤波器系数;k为待识别语音的离散时域采样信号;E(k)为误差信号向量;μ(k)=diag{μ0(k)...μ2M-1(k)}为归一化步长矩阵;∧(k)=diagdiag{P0(k)...P2M-1(k)}为输入信号功率矩阵;X(k)为输入的语音信号矩阵。可选地,所述利用盲源分离算法估计语音信号的mask值,包括:1)计算目标语音信号的位置特征:其中:Xt,f为时频域信号;t为时间帧;f为语音信号频率;2)采用复角中心混合模型对目标语音分离的方向特征进行建模,所述复角中心混合模型的概率密度函数为:其中:Kf,n为时不变的混合权值;A(dt,f;Bf,n)为一个复角中心高斯分布;B为正定的厄密特矩阵;n为噪音信号;t为时间帧;<本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n获取待识别语音信号,并计算待识别语音信号的能量密度谱;/n将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;/n利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;/n利用盲源分离算法估计待识别语音中目标语音信号的mask值;/n利用基于mask值的多通道增强算法对目标语音信号进行增强;/n利用预训练的DFSMN-CTC模型对语音信号进行识别,得到语音识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音信号,并计算待识别语音信号的能量密度谱;
将能量密度谱进行伪彩色映射,得到待识别语音信号的彩色语谱图;
利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除;
利用盲源分离算法估计待识别语音中目标语音信号的mask值;
利用基于mask值的多通道增强算法对目标语音信号进行增强;
利用预训练的DFSMN-CTC模型对语音信号进行识别,得到语音识别结果。


2.如权利要求1所述的一种语音识别方法,其特征在于,所述计算待识别语音信号的能量密度谱,包括:
1)对待识别语音信号进行短时傅里叶变换:



其中:
x(n)为待识别语音的离散时域采样信号,n=0,1,...,N-1,n为时域采样点信号,N为语音信号的长度;
Xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步的时间信号,m=0,1,...,M-1,M为帧长;
ω为窗序列;
2)采用离散傅里叶变换DFT得:



其中:
0≤k≤N-1,k为待识别语音的离散时域采样信号的幅度值;
X(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
Xn(m)为待识别语音离散时域采样信号的短时傅里叶变换结果;
m为帧同步信号,m=0,1,...,M-1,M为帧长;
N为语音信号的长度;
3)计算时间m处的频谱能量密度函数:
P(n,k)=|X(n,k)|2=(X(n,k))×(conj(X(n,k)))
其中:
X(n,k)为待识别语音的离散时域采样信号的短时幅度谱估计;
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
conj(·)函数用于计算复数的共轭值;
P(n,k)为信号x(n)的短时自相关函数的傅里叶变换,是二维的非负实值函数;
用时间n作为横坐标,k作为纵坐标,将P(n,k)的值表示为灰度级所构成的二维图像就是能量密度谱;通过变换101gP(n,k)得到语谱图的dB表示。


3.如权利要求2所述的一种语音识别方法,其特征在于,所述将能量密度谱进行伪彩色映射,包括:
1)将P(n,k)的最大值Pmax(n,k)映射为归一化1电平,将最小值Pmin(n,k)映射为归一化0电平;
2)将P(n,k)线性映射为0~1间的电平Li,计算机监视器根据Li的值将能量密度谱以伪彩色模式显示出来;
3)选择基准电平值Base,将小于Base的值限定在此基准电平上,将大于Base的值线性映射到0~1的归一化彩色值,则彩色矩阵值L={l(n,k)}的数学表示为:






其中:
Base为基准电平值,本发明将其设为0;
n为时域采样点信号;
k为待识别语音的离散时域采样信号的幅度值;
P(n,k)为信号x(n)的短时自相关函数的傅里叶变换,是二维的非负实值函数。


4.如权利要求3所述的一种语音识别方法,其特征在于,所述自适应的时域滤波器为:
所述时域滤波器的结构为频域分块自适应滤波器的结构,时域滤波器的系数向量可表示为w(n)=[w0(n),...,wM-1(n)]T,时域滤波器的误差向量为e(n)=[e(n),...e(n+M-1)]T,时域滤波器的滤波器系数W(k)和误差信号向量E(k)分别为:
W(k)=[w0(k),...,w2M-1(k)]T=F[wT(kM)0...0]
E(k)=F[0...0e(kM)]T
其中:
F是2M×2M的DFT矩阵;
k为待识别语音的离散时域采样信号;
M为待识别语音信号的帧长;
wi为时域滤波器的系数向量;
e(·)为时域滤波器的误差向量;
所述时域滤波器的频域自适应系数迭代表达式为:
W(k+1)=W(k)+2μ(k)∧(k)-1X(k)E(k)
其中:
W(k)为时域滤波器的滤波器系数;
k为待识别语音的离散时域采样信号;
E(k)为误差信号向量;
μ(k)=diag{μ0(k)...μ2M-1(k)}为归一化步长矩阵;
∧(k)=diagdiag{P0(k)...P2M-1(k)}为输入信号功率矩阵;
X(k)为输入的语音信号矩阵。


5.如权利要求4所述的一种语音识别方法,其特征在于...

【专利技术属性】
技术研发人员:汪秀英
申请(专利权)人:汪秀英
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1