【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质
本申请涉及基于人工智能的语音识别
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
语音识别技术,其目的是接收人类的语音信号并让机器负责将语音信号转化为文字。对于语音的处理,整个流程可分为四部分:前端处理、声学模型建模、语言模型与词典建模以及解码。随着人工智能技术尤其是深度学习的研究和发展,当前语音识别分为三种,一是概率模型方法,二是深度学习方法,三是应用自注意力机制。对于概率模型方法,模型并不能利用每一帧的上下文信息,即不能利用历史信息来辅助当前任务;对于深度学习方法,模型虽然能达到较好的收敛效果,但由于循环神经网络(RecurrentNeuralNetwork,RNN)本身的循环结构,较多的RNN单元使得训练时间较长,难以并行化;而针对目前的自注意力机制虽在一定程度上克服了上述方式的问题,但是受到该方法中对语音信号的时间加窗技术会导致信息的丢失。因此,怎样在目前的研究形势下减弱建模过程中信息的丢失成为亟待解决的问题。
技术实现思路
r>本专利技术实施例本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法应用于语音识别模型的训练,所述语音识别模型包括多层时间截断的自注意力网络,所述方法包括:/n按照预设时间窗获取语音帧序列,并确定所述语音帧序列的特征信息;/n根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;/n针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法应用于语音识别模型的训练,所述语音识别模型包括多层时间截断的自注意力网络,所述方法包括:
按照预设时间窗获取语音帧序列,并确定所述语音帧序列的特征信息;
根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征,所述根据所述特征信息确定第一层时间截断的自注意力网络的输入信息,包括:
对所述功率归一化倒谱系数特征和所述身份认证矢量特征进行线性判别分析处理,得到融合信息;
将所述融合信息输入全连接网络进行处理,并将所述全连接网络的输出作为第一层时间截断的自注意力网络的输入信息。
3.根据权利要求1或2所述的方法,其特征在于,所述任意一层时间截断的自注意力网络包括级联的整合处理层、第一全连接层、自注意力层、第一激活函数层和第一规范化层。
4.根据权利要求3所述的方法,其特征在于,所述任意一层时间截断的自注意力网络还包括连接在所述第一规范化层之后,且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。
5.根据权利要求1所述的方法,其特征在于,所述按照预设时间窗获取语音帧序列,包括:
按照预设时间窗从语音数据中截取语音信号;
对所述语音信号进行预处理,以得到对应的语音帧序列,所述预处理包括降噪、音源定位以及回音消除中的一种或多种。
6.根据权利要求5所述的方法,其特征在于,所述方法包括:
获取所述语音数据的验证集数据和/或测试集数据;
将所述验证集数据或所述测试集数据输入所述训练后的语音识别模型...
【专利技术属性】
技术研发人员:曹松军,马龙,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。