一种基于制造技术

技术编号:39503110 阅读:7 留言:0更新日期:2023-11-24 11:34
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于Transformer全局特征的音素识别方法


[0001]本专利技术涉及一种基于
Transformer
全局特征的音素识别方法,属于语音识别



技术介绍

[0002]音素识别属于语音识别领域,语音识别的模型大多能应用于音素识别

音素识别将语音转换为一段发音序列,这段发音序列可以应用于语音中敏感词

违禁词

污秽词的检测,对于信息化时代具有重要意义

音素识别一般采用的语音学特征主要有梅尔倒谱系数
(Mel

Frequency Cepstral Coefficients

MFCC)、
感知线性预测系数
(Perceptral LinearPrediction Coefficients,PLPC)、
伽马通滤波器倒谱系数
(Gammatone Filter CepstralCoefficients,GFCC)、Fbank
特征等,上述特征在音素任务中表现较好的为
Fbank
特征

音素识别常用的模型有
GMM

HMM、DNN

HMM、CTC
端到端模型等,但是上述模型对于全局特征的关注性不够

为了提高音素识别的识别率,需要对这些模型加以改进,基于
Transformer
全局特征的音素识别方法应运而生


技术实现思路

[0003]本专利技术提供了一种基于
Transformer
全局特征的音素识别方法,用于解决音素识别模型对全局特征关注度不够的问题

[0004]本专利技术的技术方案:一种基于
Transformer
全局特征的音素识别方法,首先在前端对原语音信号进行预加重

分帧

加窗操作,接着对每一帧信号进行快速傅里叶变换

取模得到幅度谱,然后通过等高
Mel
滤波器组进行滤波

取对数得到静态
Fbank
特征参数,并使其标准化,再经过帧数的一

二阶差分得到动态特征

最后将
Fbank
总特征通过
Transformer
编码器,提取更为抽象的全局特征输入
CNN

RNN

CTC
端到端音素识别系统进行验证,得到识别结果

[0005]具体步骤为:
[0006]Step1
:对语音信号进行预处理操作,具体操作包括预加重

分帧

加窗

[0007]原始的语音信号为
x(n)

n

0,1,2,

,T

T
为总采样点数,预加重处理为:
[0008]x

(n)

x(n)

α
x(n
‑1ꢀꢀꢀ
)(1)
[0009]式中
x

(n)
为预加重后的信号,
α
一般取
0.97。
预加重是为了补偿声音在传播到人耳过程中的快速衰减的高频

[0010]分帧是为了将非平稳的长语音信号切分成平稳的短语音信号,帧长一般取
10ms

30ms。
接着为了每帧信号之间能够平滑过度,还设置了帧移,帧移重叠部分取帧长的
1/3

1/2
,但本专利技术中不进行帧移操作

大量实验表明,增加帧移和去除帧移的识别率结果相差无几,去除帧移后,还能大幅度提高运算效率

所以分帧之后的帧长为
N
,帧移为
0ms
,帧数为
F
,第
i
帧信号为
x
i

(n)

0≤i≤F。
[0011]加窗的目的是为了减少语音信号分帧之后产生的频谱泄露问题,加窗的类型为汉
明窗
(hamming)

hamming
窗的表达式为:
[0012][0013](2)
式中的
N
代表窗的长度,第
i
帧信号
x
i

(n)
加窗之后得到
y
i
(n)

y
i
(n)
的表达式为:
[0014]y
i
(n)

x
i

(n)
×
w(n),n

0,1,

,N
ꢀꢀꢀ
(3)
[0015]Step2
:将预处理的信号进行快速傅里叶变换,取模得到幅度谱

[0016]对
y
i
(n)
进行快速傅里叶变换
(FFT)
,将时域信号
y
i
(n)
转为频域信号
X
i
(k)

k

0,1,

,K
,更利于捕捉语音中的信息分量

变换后每一帧的点数为
K

K

N
,表达式为:
[0017]X
i
(k)

FFT[y
i
(n)],0≤i≤F
ꢀꢀꢀ
(4)
[0018]傅里叶变换后的数值具有实数和虚数,所以接着对频域信号
X
i
(k)
进行取模操作得到
|X
i
(k)|。
[0019]Step3
:得到幅度谱
|X
i
(k)|
后,将其输入到等高
Mel
滤波器组
(Mel Filter Banks)
进行滤波,该滤波器组模仿人耳听觉特性而设计,可以较好地突出语音中的共振峰,共振峰对于语音识别和音素识别来说具有重要的特征关系

[0020]将
|X
i
(k)|
通过
Mel
滤波器组滤波得到每一帧的谱线能量
S
i
(m)

m

...

【技术保护点】

【技术特征摘要】
1.
一种基于
Transformer
全局特征的音素识别方法,其特征在于:
Step1
:对语音信号进行预处理操作,具体操作包括预加重

分帧

加窗;
Step2
:将预处理的信号进行快速傅里叶变换,取模得到幅度谱;
Step3
:将幅度谱输入到等高
Mel
滤波器组进行滤波;
Step4
:将滤波信号进行常用对数运算得到静态
Fbank
特征,并使其标准化;
Step5
:对标准化后的特征进行一二阶差分得到动态特征,将静态
Fbank
特征和动态特征结合得到
Fbank
总特征;
Step6
:将
Fbank
总特征输入
Transformer
编码器进行全局特征处理;
Step7
:将全局特征输入端到端网络进行音素序列识别
。2.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所述
Step1
具体为:
Step1.1
:原语音信号设为
x(n)

n
=0,1,2,


T

T
为总采样点数,预加重处理为:
x

(n)

x(n)

α
x(n

1)
式中
x

(n)
为预加重后的信号,
α
为参数;
Step1.2
:分帧帧长取
10ms

30ms
,帧移为
0ms
,分帧之后的帧长点数为
N
,帧数为
F
,第
i
帧信号为
x

i
(n)

0≤i≤F

Step1.3
:加窗的类型为汉明窗,汉明窗的表达式为:式中,
N
代表窗的长度,窗长和帧长相等;第
i
帧信号
x

i
(n)
加窗之后得到
y
i
(n)

y
i
(n)
的表达式为:
y
i
(n)

x

i
(n)
×
w(n)

n
=0,1,


N
其中每一帧都需要进行加窗,防止频谱泄露
。3.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所述
Step2
具体为:
Step2.1
:对
y
i
(n)
进行快速傅里叶变换,将时域信号
y
i
(n)
转为频域信号
X
i
(k)
,快速傅里叶变换后每一帧的点数为
K
,变换表达式为:
X
i
(k)

FFT[y
i
(n)]
其中,
k
=0,1,


K

K

N
,即
FFT
变换后的点数
K
与帧长点数
N
相等;
Step2.2
:对频域信号
X
i
(k)
再进行取模操作得到
|X
i
(k)|。4.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所述
Step3
具体为:
Step3.1
:将
|X
i
(k)|
通过
Mel
滤波器组滤波得到每一帧的谱线能量
S
i
(m)
,滤波表达式为:其中,
m
=0,1,


M

M
为滤波器组的个数,
Mel
m
(k)
代表
Mel
滤波器组当中第
m
个滤波器的第
k
个值
。5.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所

Step4
具体为:
Step4.1
:对
S
i
(m)
取常用对数得到静态
Fbank
特征参数
F
i
(m)
,表达式为:
F
i
(m)

ln(S
i
(m))Step4.2
:然后对
F
i
(m)
...

【专利技术属性】
技术研发人员:邵玉斌黄辉波龙华杜庆治段云周大春张昊阁
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1