【技术实现步骤摘要】
一种基于Transformer全局特征的音素识别方法
[0001]本专利技术涉及一种基于
Transformer
全局特征的音素识别方法,属于语音识别
。
技术介绍
[0002]音素识别属于语音识别领域,语音识别的模型大多能应用于音素识别
。
音素识别将语音转换为一段发音序列,这段发音序列可以应用于语音中敏感词
、
违禁词
、
污秽词的检测,对于信息化时代具有重要意义
。
音素识别一般采用的语音学特征主要有梅尔倒谱系数
(Mel
‑
Frequency Cepstral Coefficients
,
MFCC)、
感知线性预测系数
(Perceptral LinearPrediction Coefficients,PLPC)、
伽马通滤波器倒谱系数
(Gammatone Filter CepstralCoefficients,GFCC)、Fbank
特征等,上述特征在音素任务中表现较好的为
Fbank
特征
。
音素识别常用的模型有
GMM
‑
HMM、DNN
‑
HMM、CTC
端到端模型等,但是上述模型对于全局特征的关注性不够
。
为了提高音素识别的识别率,需要对这些模型加以改进,基于
Transformer
全局特征的音素识别方
【技术保护点】
【技术特征摘要】
1.
一种基于
Transformer
全局特征的音素识别方法,其特征在于:
Step1
:对语音信号进行预处理操作,具体操作包括预加重
、
分帧
、
加窗;
Step2
:将预处理的信号进行快速傅里叶变换,取模得到幅度谱;
Step3
:将幅度谱输入到等高
Mel
滤波器组进行滤波;
Step4
:将滤波信号进行常用对数运算得到静态
Fbank
特征,并使其标准化;
Step5
:对标准化后的特征进行一二阶差分得到动态特征,将静态
Fbank
特征和动态特征结合得到
Fbank
总特征;
Step6
:将
Fbank
总特征输入
Transformer
编码器进行全局特征处理;
Step7
:将全局特征输入端到端网络进行音素序列识别
。2.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所述
Step1
具体为:
Step1.1
:原语音信号设为
x(n)
,
n
=0,1,2,
…
,
T
,
T
为总采样点数,预加重处理为:
x
′
(n)
=
x(n)
‑
α
x(n
‑
1)
式中
x
′
(n)
为预加重后的信号,
α
为参数;
Step1.2
:分帧帧长取
10ms
~
30ms
,帧移为
0ms
,分帧之后的帧长点数为
N
,帧数为
F
,第
i
帧信号为
x
′
i
(n)
,
0≤i≤F
;
Step1.3
:加窗的类型为汉明窗,汉明窗的表达式为:式中,
N
代表窗的长度,窗长和帧长相等;第
i
帧信号
x
′
i
(n)
加窗之后得到
y
i
(n)
,
y
i
(n)
的表达式为:
y
i
(n)
=
x
′
i
(n)
×
w(n)
,
n
=0,1,
…
,
N
其中每一帧都需要进行加窗,防止频谱泄露
。3.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所述
Step2
具体为:
Step2.1
:对
y
i
(n)
进行快速傅里叶变换,将时域信号
y
i
(n)
转为频域信号
X
i
(k)
,快速傅里叶变换后每一帧的点数为
K
,变换表达式为:
X
i
(k)
=
FFT[y
i
(n)]
其中,
k
=0,1,
…
,
K
,
K
=
N
,即
FFT
变换后的点数
K
与帧长点数
N
相等;
Step2.2
:对频域信号
X
i
(k)
再进行取模操作得到
|X
i
(k)|。4.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所述
Step3
具体为:
Step3.1
:将
|X
i
(k)|
通过
Mel
滤波器组滤波得到每一帧的谱线能量
S
i
(m)
,滤波表达式为:其中,
m
=0,1,
…
,
M
,
M
为滤波器组的个数,
Mel
m
(k)
代表
Mel
滤波器组当中第
m
个滤波器的第
k
个值
。5.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法,其特征在于,所
述
Step4
具体为:
Step4.1
:对
S
i
(m)
取常用对数得到静态
Fbank
特征参数
F
i
(m)
,表达式为:
F
i
(m)
=
ln(S
i
(m))Step4.2
:然后对
F
i
(m)
...
【专利技术属性】
技术研发人员:邵玉斌,黄辉波,龙华,杜庆治,段云,周大春,张昊阁,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。