基于单元点积相似度特征的并行化语音识别模型建立方法技术

技术编号:39568485 阅读:10 留言:0更新日期:2023-12-03 19:19
基于单元点积相似度特征的并行化语音识别模型建立方法属于语音处理技术领域

【技术实现步骤摘要】
基于单元点积相似度特征的并行化语音识别模型建立方法


[0001]本专利技术属于语音处理
,特别是涉及到一种基于单元点积相似度特征的并行化语音识别模型建立方法


技术介绍

[0002]语音识别就是将语音信号转化成文字

语音信号本质上是一种波,这种波被录音器以数字化的形式记录下来

因此将语音的数字信号送入语音识别模型之前,通常需要进行分帧

傅里叶变换等操作

这些操作也被叫做语音的特征提取

语音的特征提取完成之后,会得到一个特征向量的序列
(
每一帧对应一个特征向量
)
,语音识别就是要将这个向量序列送入语音识别模型,得到最终的识别文本

也就是说语音识别中最核心的两个问题就是特征处理和模型建立

[0003]虽然目前的端到端语音识别技术主要使用了深度学习技术,语音识别中由于语音时序特征的特殊性,模型设计不能直接使用其它领域的方法,需要对方法进行改进

注意力可以明显提升整个模型的效果,但计量相对较高

注意力在结构上拓展性较差,无法很好的利用局部或全局信息
。Transformer
在受限数据训练的情况下,容易出现过拟合的问题,因此需要寻求对算法进一步优化方法

对于最优模型结构的选取,需要考虑精度和收敛速度的平衡,即使是在非流式语音识别任务中,也需要提高模型最终的推理解码速度

[0004]在语音识别应用的技术中,对特征进行比较时都要用到相似度判断,目前比较流行的相似度判断方法有两种,一种是点积相似度,一种是余弦相似度

点积相似度与模长和夹角相关,首先,夹角不变的情况下,存在两个完全相同向量的相似度的值比两个不同的向量的相似度的值小的问题,这明显不符合相似度判定的认知

其次,当向量模长较大时,还存在计算结果溢出的问题

而余弦相似度只考虑了两个向量的夹角关系,当夹角相同时,两个向量不改变方向,只改变模长,相似度不变

这也不符合相似度判定的常识

[0005]语音识别建模时,为了去除训练过程中偏差较大的模型

通常使用传统的贪婪汤
(greedy soup)
方法,该方法的缺点是:验证集中产生的失真
(loss)
结果,不能完全反映模型的好坏,另一方面失真效果最低的若干个模型中可能存在对平均结果十分不利的模型

因此直接对失真效果最低的若干个模型进行参数平均,效率较低并且得到不一定是最优的模型结果

[0006]因此现有技术当中亟需要一种新型的技术方案来解决这一问题


技术实现思路

[0007]本专利技术所要解决的技术问题是:提供一种基于单元点积相似度特征的并行化语音识别模型建立方法,用于解决目前比较流行的点积相似度和余弦相似度均不适用于语音识别技术中对特征进行比较时的相似度判断;语音识别建模时传统的贪婪汤很难得到最优的模型结果等技术问题

[0008]基于单元点积相似度特征的并行化语音识别模型建立方法,包括以下步骤,并且
以下步骤顺次进行,
[0009]步骤一

待识别语音输入到语音特征处理模块对语音信号进行特征提取,获得待识别语音向量特征;构建语音识别模型,将模型中的向量模长和待识别语音向量特征模长进行归一化处理,让语音特征在归一化的数字范围内重新分布;
[0010]步骤二

将归一化之后的模型向量与待识别语音向量进行点积操作,计算并获得模型向量与待识别语音向量的单元点积相似度;
[0011]步骤三

将注意力中的缩放系数引入到单元点积相似度中,在点积的结果上乘以一个常数,对模型向量与待识别语音向量归一化之后的数值结果进行缩放,得到缩放后的单元点积相似度从而增加两个向量的区分度;
[0012]用缩放后的单元点积相似度替代传统注意力机制中查询向量与键向量之间的点积相似度,并以此定义基于单元点积相似度的注意力机制;
[0013]步骤四

将基于单元点积相似度的注意力机制运用到
Transformer

Conformer
框架中,在注意力机制下建立编码解码模型,该编码解码模型作为语音识别模型;
[0014]步骤五

通过采集的开源语音数据集作为训练集对语音识别模型进行训练,一个轮次训练的模型个数由相应硬件配置的
GPU
个数确定,有
N

GPU
一个轮次能够同时对连续的
N
个没判断过的新模型进行并行处理;
[0015]由于语音识别模型属于神经网络模型,在每个轮次的训练中,神经网络的参数用于存储网络训练过程中学习到的语音信号特征和发音模式;
[0016]每个轮次的训练均生成不同的模型,根据模型的失真效果,将模型从好到坏进行排序,并依次对模型进行标记,对标记的模型进行所有可能的排列组合,将每个组合训练时用到的神经网络的各参数保存下来,并按照失真度进行排序,取指定组数的模型,对这些模型的参数进行平均获得参数平均模型,再对参数平均后的模型进行筛选,选出各种组合中平均模型失真效果最低的模型集合,对组合中加入的模型下标进行更新,持续进行循环训练,直至最后一个模型加入完成,最后筛选出的模型就是识别效果最好的模型

[0017]所述步骤二中模型向量与待识别语音向量的单元点积相似度为:
[0018][0019]其中
S
表示相似度的值,代表模型中的任意一个向量,代表待识别语音的向量,并且
R
n
表示
n
维实数向量空间,表示分别表示的模长,不同时为0,并且定义:当即时,
S

0。
[0020]所述基于单元点积相似度的注意力机制表示如下:
[0021]D
ij

(||q
i
||
p
+||k
j
||
p
[0022][0023]output

softmax(score)
·
V
[0024]其中,
q
i
为查询矩阵
Q
的第
i
个行向量,
k
j
为键矩阵
K
的第
j
个行向量,
V
为值矩阵,
V

每一列为一个值向量,
score
为得分矩阵,
D
ij
表示
...

【技术保护点】

【技术特征摘要】
output

softmax(score)
·
V
其中,
q
i
为查询矩阵
Q
的第
i
个行向量,
k
j
为键矩阵
K
的第
j
个行向量,
V
为值矩阵,
V
的每一列为一个值向量,
score
为得分矩阵,
D
ij
表示
D

【专利技术属性】
技术研发人员:孙一鸣宋小龙刘葳陈庆
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1