【技术实现步骤摘要】
一种语音识别方法、系统及设备
[0001]本专利技术涉及语音识别
,特别是指一种语音识别方法、系统及设备。
技术介绍
[0002]目前,深度学习的绝大多数组成部件、技术和体系结构均基于实值操作和表示。然而,最近关于递归神经网络和较早的基础理论分析的研究表明,复数可以具有更丰富的表示能力,并且还可以促进噪声鲁棒的记忆检索机制。它们可能在带来全新的神经架构具有吸引人瞩目的潜能。这里将它们应用于CNN(复数)和Transformer(翻译器)中。更确切地说,依靠于复数卷积和目前的算法来实现复数值的神经网络的复数批量归一化,权重初始化策略,并且在端到端训练方案的实验中使用它们。通过实验证明这种复数值的模型的性能可以与相同结构的实数模型表现更好。
[0003]对于Transformer,用常用的机器翻译举例会更简单易懂。
[0004]首先将这个模型看成是一个黑箱操作。在机器翻译中,就是输入一种语言,输出另一种语言。
[0005]那么拆开这个黑箱,可以看到它是由编码组件、解码组件和它们之间的连接组成。 />[0006]编码本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的多通道语音信号;对所述待识别的多通道语音信号进行处理,得到固定长度的音频帧;将所述音频帧进行傅里叶变换,得到所述待识别的多通道语音信号的实部向量和虚部向量;将所述实部向量和所述虚部向量输入通过训练得到的复数深度神经网络;通过所述复数深度神经网络进行处理,输出所述待识别的多通道语音信号的识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,对所述待识别的多通道语音信号进行处理,得到固定长度的音频帧,包括:对所述待识别的多通道语音信号进行按时域进行切分,得到多个固定长度的音频帧。3.根据权利要求2所述的语音识别方法,其特征在于,还包括:对所述音频帧添加汉明Hamming窗。4.根据权利要求1所述的语音识别方法,其特征在于,将所述音频帧进行傅里叶变换,得到所述待识别的多通道语音信号的实部向量和虚部向量,包括:对所述音频帧X(k,i),其中k表示时间属于[0,K]这个范围,i表示通道数取值范围为[1,c],c为通道数,利用下式:将时域信号转换为了频域信号,其中的x(n,i)为实部,为虚部,多通道输入信号可以表示为实部向量real(n,i)和虚部向量image(j,i)。5.根据权利要求1所述的语音识别方法,其特征在于,所述复数深度神经网络包括:复数CNN、1*1卷积和翻译结构;所述复数深度神经网络通过以下过程进行训练得到:根据训练语音信号的实部向量和虚部向量,使用复数神经网络进行建模;将所述训练语音信号对应的文字标注作为所述复数深度神经网络的标签,所述训练语音信信号的实部向量和虚部向量作为所述复数深度神经网络的特征进行训练,确定复数深度神经网络。6.根据权利要求5所述的语音识别方法,其特征在于,所述训练语音信信号的实部向量和虚部向量作为所述复数深度神经网络的特征进行训练,确定复数深度神经网络,包括:将所述训练语音信号的实部向量和所述虚部...
【专利技术属性】
技术研发人员:潘昕,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。