一种基于制造技术

技术编号：39503110 阅读：7 留言：0更新日期：2023-11-24 11:34

本发明专利技术公开了一种基于

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer全局特征的音素识别方法

[0001]本专利技术涉及一种基于
Transformer
全局特征的音素识别方法，属于语音识别

。

技术介绍

[0002]音素识别属于语音识别领域，语音识别的模型大多能应用于音素识别
。
音素识别将语音转换为一段发音序列，这段发音序列可以应用于语音中敏感词
、
违禁词
、
污秽词的检测，对于信息化时代具有重要意义
。
音素识别一般采用的语音学特征主要有梅尔倒谱系数
(Mel
‑
Frequency Cepstral Coefficients
，
MFCC)、
感知线性预测系数
(Perceptral LinearPrediction Coefficients,PLPC)、
伽马通滤波器倒谱系数
(Gammatone Filter CepstralCoefficients,GFCC)、Fbank
特征等，上述特征在音素任务中表现较好的为
Fbank
特征
。
音素识别常用的模型有
GMM
‑
HMM、DNN
‑
HMM、CTC
端到端模型等，但是上述模型对于全局特征的关注性不够
。
为了提高音素识别的识别率，需要对这些模型加以改进，基于
Transformer
全局特征的音素识别方

【技术保护点】

【技术特征摘要】
1.
一种基于
Transformer
全局特征的音素识别方法，其特征在于：
Step1
：对语音信号进行预处理操作，具体操作包括预加重
、
分帧
、
加窗；
Step2
：将预处理的信号进行快速傅里叶变换，取模得到幅度谱；
Step3
：将幅度谱输入到等高
Mel
滤波器组进行滤波；
Step4
：将滤波信号进行常用对数运算得到静态
Fbank
特征，并使其标准化；
Step5
：对标准化后的特征进行一二阶差分得到动态特征，将静态
Fbank
特征和动态特征结合得到
Fbank
总特征；
Step6
：将
Fbank
总特征输入
Transformer
编码器进行全局特征处理；
Step7
：将全局特征输入端到端网络进行音素序列识别
。2.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法，其特征在于，所述
Step1
具体为：
Step1.1
：原语音信号设为
x(n)
，
n
＝0，1，2，
…
，
T
，
T
为总采样点数，预加重处理为：
x
′
(n)
＝
x(n)
‑
α
x(n
‑
1)
式中
x
′
(n)
为预加重后的信号，
α
为参数；
Step1.2
：分帧帧长取
10ms
～
30ms
，帧移为
0ms
，分帧之后的帧长点数为
N
，帧数为
F
，第
i
帧信号为
x
′
i
(n)
，
0≤i≤F
；
Step1.3
：加窗的类型为汉明窗，汉明窗的表达式为：式中，
N
代表窗的长度，窗长和帧长相等；第
i
帧信号
x
′
i
(n)
加窗之后得到
y
i
(n)
，
y
i
(n)
的表达式为：
y
i
(n)
＝
x
′
i
(n)
×
w(n)
，
n
＝0，1，
…
，
N
其中每一帧都需要进行加窗，防止频谱泄露
。3.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法，其特征在于，所述
Step2
具体为：
Step2.1
：对
y
i
(n)
进行快速傅里叶变换，将时域信号
y
i
(n)
转为频域信号
X
i
(k)
，快速傅里叶变换后每一帧的点数为
K
，变换表达式为：
X
i
(k)
＝
FFT[y
i
(n)]
其中，
k
＝0，1，
…
，
K
，
K
＝
N
，即
FFT
变换后的点数
K
与帧长点数
N
相等；
Step2.2
：对频域信号
X
i
(k)
再进行取模操作得到
|X
i
(k)|。4.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法，其特征在于，所述
Step3
具体为：
Step3.1
：将
|X
i
(k)|
通过
Mel
滤波器组滤波得到每一帧的谱线能量
S
i
(m)
，滤波表达式为：其中，
m
＝0，1，
…
，
M
，
M
为滤波器组的个数，
Mel
m
(k)
代表
Mel
滤波器组当中第
m
个滤波器的第
k
个值
。5.
根据权利要求1所述的基于
Transformer
全局特征的音素识别方法，其特征在于，所
述
Step4
具体为：
Step4.1
：对
S
i
(m)
取常用对数得到静态
Fbank
特征参数
F
i
(m)
，表达式为：
F
i
(m)
＝
ln(S
i
(m))Step4.2
：然后对
F
i
(m)
...

【专利技术属性】
技术研发人员：邵玉斌，黄辉波，龙华，杜庆治，段云，周大春，张昊阁，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人