【技术实现步骤摘要】
基于前馈神经网络的低延时语音识别模型及训练方法
本专利技术涉及智能信息处理
,尤其是涉及了基于前馈神经网络的低延时语音识别模型及训练方法。
技术介绍
语音是人类最自然的一种交互方式。语音识别是将语音转换为对应的文字的一种智能信息处理技术。将语音转换为文字有利于计算机终端进行进一步地处理,所以语音识别技术被广泛地用于智能对话、智能客服、智能翻译等系统中。虽然,目前已经有一批语音识别技术,但是,这些语音识别技术都需要在预测阶段自左向右地搜索概率最大的序列,具体来说,预测下一个词需要将上一步预测的词输入进模型,如生成句子“今天_天气_很好”,在预测“很好”时,需要将前一步预测的结果“天气”输入进模型。这导致了以下问题:1、由于需要搜索序列,自左向右地生成整个序列,所以在预测左边的词时,模型无法利用右侧的词提供的信息;2、由于需要搜索序列,自左向右地生成整个序列,所以整个预测阶段难以并行执行,影响了预测的速度;3、由于需要搜索序列,自左向右地生成整个序列,所以神经网络需要前馈多次,影响了预测的速 ...
【技术保护点】
1.基于前馈神经网络的低延时语音识别模型,包括:编码器和解码器,其特征在于还包括总结器,编码器将声学特征序列转换为高层语义表示,总结器通过预设的位置编码和高层语义表示转换为对应于每一个词位置的高层语义表示,解码器从对应于每一个词位置的高层语义表示中进一步提取词级别的语义信息。/n
【技术特征摘要】
1.基于前馈神经网络的低延时语音识别模型,包括:编码器和解码器,其特征在于还包括总结器,编码器将声学特征序列转换为高层语义表示,总结器通过预设的位置编码和高层语义表示转换为对应于每一个词位置的高层语义表示,解码器从对应于每一个词位置的高层语义表示中进一步提取词级别的语义信息。
2.如权利要求1所述的基于前馈神经网络的低延时语音识别模型,其特征在于所述的编码器、总结器、解码器均由多层注意力模块堆叠而成,每一个注意力模块由残差连接的注意力机制和前馈神经网络组成,注意力机制为内积注意力机制:
其中,表示Query,表示Key,表示Value,TK和Tq分别为Key和Query的序列长度,D为输入的维度,编码器和解码器的注意力机制为自注意力机制,Q、V、K为相同的序列;总结器为互注意力机制,V、K为相同的序列,Q是预设的位置编码。
3.如权利要求2所述的基于前馈神经网络的低延时语音识别模型,其特征在于所述注意力机制是多头注意力机制:
MHA(Q,K,V)=Cat(head1,…,headn)
其中,为参数,Cat为拼接操作。
4.如权利要求2所述的基于前馈神经网络的低延时语音识别模型,其特征在于所述前馈神经网络是一个逐位置的前馈神经网络:
FFN(x)=W2relu(W1x+b1)+b2
其中,W1,W2,b1,b2为参数,relu为受限制线性单元激活函数,逐位置表示一个由向量构成的序列,对其中每一个向量用同一个前馈神经网络进行变换,变换后的每一个新的向量构成了一个新的序列。
5.如权利要求1所述的基于前馈神经网络的低延时语音识别模型,其特征在于所述位置编码是正弦-余弦位置编码,其每一个位置元素按照如下方式计算:
其中,2j和2j+1为位置编码序列中第i个位置向量的元素索引。
6...
【专利技术属性】
技术研发人员:白烨,温正棋,
申请(专利权)人:中科极限元杭州智能科技股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。