【技术实现步骤摘要】
一种面向航天专业领域的语音识别系统和方法
[0001]本专利技术涉及电子信息
更具体地,涉及一种面向航天领域的语音识别系统和方法。
技术介绍
[0002]语音交互是最为自然的一种人机交互方式。语音交互的核心是语音识别,即将语音转换为文本,供计算机进行后续处理。近年来,语音识别已经取得了巨大的突破,走入人们的实际应用中。同时,随着航天技术的发展,人类已经有机会进入太空。使航天员更自然更方便地与设备进行交互与控制,已经成为一个必要的技术。航天领域的语音识别系统,需要其更低地占用系统资源,更小的计算代价,同时,对于航天设备的专业词汇要识别得更为精准。
[0003]目前,已经有很多语音识别的技术与系统,如基于隐马尔可夫的大词汇量语音识别系统等,在诸多商业产品中得到了应用。这些大词汇量连续语音识别系统往往基于加权有限状态转换器构建解码网络。解码网络的体积很大,导致解码过程中搜索的计算代价也很大。整个系统的存储和内存占用很高,而且解码时的功耗也很大,限制了其在航天领域的应用。然而,如果过于压缩解码网络的大小,则会大大损害识别系统的性能,导致错误率大大提升。
[0004]因此,需要一种新的面向航天领域的语音识别方法和系统,既能降低计算代价和存储占用,又能对航天领域专业词汇和日常用语进行高效准确的识别。
技术实现思路
[0005]本专利技术提供了一种面向航天专业领域的语音识别系统和方法,解决目前语音识别系统计算代价高,对专业词汇识别准确率低的问题。
[0006]为了实现上述目的,本专利 ...
【技术保护点】
【技术特征摘要】
1.一种面向航天专业领域的语音识别系统,其特征在于,包括:由第一长短时记忆网络构成的编码器,用于输入基于信号处理的特征提取器提取的声学特征序列,经过编码后,输出声学特征序列对应的隐藏表示;由第二长短时记忆网络构成的预测网络,首先输入文本序列起始符号sos,经过预测网络,输出文本序列第一个词对应的隐藏表示,之后每次都输入上一个词的嵌入向量,经过预测网络后输出预测后的词对应的隐藏表示;由第三长短时记忆网络构成的偏置编码网络,用于输入航天领域的专业词汇序列,经过编码后,输出航天领域的专业词汇序列对应的隐藏表示;由多层感知机构成的融合网络,输入所述由第一长短时记忆网络构成的编码器、由第二长短时记忆网络构成的预测网络和由第三长短时记忆网络构成的偏置网络三个网络的输出结果,预测出文本序列的下一个词。2.根据权利要求1所述的系统,其特征在于,所述由第一长短时记忆网络构成的编码器根据如下公式编码提取的声学特征序列:h
t
=LSTM(h
t-1
,x
t
)其中,LSTM为长短时记忆网络的单元函数,h
t
为t时刻的声学特征序列对应的隐藏表示,h
t-1
为第t-1时刻的声学特征序列对应的隐藏表示,x
t
为t时刻的声学特征序列。3.根据权利要求1所述的系统,其特征在于,所述由第二长短时记忆网络构成的预测网络根据如下公式,得到对应文本序列中每个词的隐藏表示:c
j
=LSTM(c
j-1
,y
j
)其中,LSTM为长短时记忆网络的单元函数,c
j-1
为第j-1位置的词对应的隐藏表示,y
j
为j位置的词的嵌入向量。4.根据权利要求1所述的系统,其特征在于,所述由第三长短时记忆网络构成的偏置编码网络,根据如下公式,获得航天领域的专业词汇序列对应的隐藏表示:b
k
=LSTM(b
k-1
,z
k
)其中,LSTM为长短时记忆网络的单元函数,b
k-1
为第k-1位置航天领域的专业词汇序列的字对应的隐藏表示,z
k
为航天领域的专业词汇序列k位置字的嵌入向量。5.根据权利要求1所述的系统,其特征在于,所述多层感知机构成的融合网络,融合...
【专利技术属性】
技术研发人员:温正棋,李博,刘进涛,任斌,李振龙,周仔恒,
申请(专利权)人:北京仿真中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。