一种引入外部数据校正的空中管制语音识别方法技术

技术编号:24414272 阅读:25 留言:0更新日期:2020-06-06 10:42
本发明专利技术公开了一种引入外部数据校正的空中管制语音识别方法,包含数据预处理模块、语音识别模型和外部数据校正模型;数据预处理模块将原始语音数据和外部信息数据(航班列表)转化为输入语音识别模型和外部数据校正模型的数据;语音识别模型包含深度残差卷积模块、深度残差序列学习模块和全连接层,预处理后的语音信号依次经深度残差卷积模块、深度残差序列学习模块、全连接层生成多层次语音通道信息特征、高层次特征序列、文字序列。外部数据校正模型将预处理后的外部信息数据与语音识别模型中的高层次序列特征数据相融合,通过注意力机制计算语音中的航班号以校正语音识别结果中的航班号,从而提高语音识别准确率和航班号识别准确率。

An air traffic control speech recognition method with external data correction

【技术实现步骤摘要】
一种引入外部数据校正的空中管制语音识别方法
本专利技术属于信息处理领域,具体涉及一种引入外部数据校正的空中管制语音识别方法。
技术介绍
中国民航业发展迅速,然而空中管制人员缺口较大,且人员流失现象严重,导致现有空管人员工作负荷大,易引发空中交通潜在的效率问题和安全问题。当前中国空中交通管制以空管员主观决策进行指挥,人为失误无法避免。据统计,航空事故总量的80%是人为差错所引起的,是影响目前航空安全的重要因素。因此有必要采用自动语音识别系统辅助空管员发送指令、接收与记录飞行员的回复语音,从而减少漏听、遗忘和理解歧义等情况。在空管语音的识别方面,由于空管语音含有大量专业术语,以及语速和口音多变等特点,通用语音识别模型的识别准确率很低,需要采用专门的模型和训练方法。2016年,桂林市晶准测控技术有限公司采用预训练的空管语音库进行语音识别,这种方法受到语音数据库的限制,对不完全匹配规则的语音识别效果较差,准确率较低。2018年,中国电子科技集团十五所搭建了基于连续隐马尔科夫CHMM的声学模型,这种模型的识别准确率显著低于深度学习模型;中国民航大学构建了特征增强的DNN-HMM模型,能够在一定程度上提高识别准确率,但是DNN容易产生过拟合和陷于局部最优等缺点,其识别准确率明显低于CNN-GRU神经网络模型。2019年,上海麦图信息科技有限公司构建了CNN-GRU-CTC结构的空管语音识别模型,识别准确率较高,然而其模型复杂度仍有待进一步提高,识别准确率仍有上升空间。同时,当前的空管语音识别只有语音识别的功能,而在实际应用中,由于涉及安全因素,空管员十分重视航班号的识别准确率,因此除了不断提高语音识别的准确性,也有必要利用航班计划表等外部数据,对语音识别结果进行进一步校正,提高语音识别的整体准确率和关键航班号的识别准确率。
技术实现思路
本专利技术旨在针对上述现有技术的不足,构建一套专门用于空中管制指令的语音识别模型,并引入外部数据校正,不仅能够识别空管语音,还能对关键的航班号进行修正,提高识别准确率。为了实现上述目的,本专利技术提供的技术方案如下:一种引入外部数据校正的空中管制语音识别方法,包括数据预处理模块、语音识别模型、外部数据校正模型,其语音识别方法如下:S1:通过数据预处理模块中的语谱图转换器和词嵌入层,分别将原始语音数据和外部信息数据(航班列表)转换成可输入语音识别模型和外部数据校正模型的语谱图和词向量;S2:语谱图数据进入语音识别模型,先通过深度残差卷积模块生成多层次语音通道信息特征,再通过深度残差序列学习模块生成高层次特征序列,最后通过全连接层生成文字序列(含航班号);S3:词向量数据和语音识别模型中的高层次特征序列数据同时进入外部数据校正模型,通过注意力机制计算语音中的航班号;S4:语音识别模型所得的文字序列(含航班号)进入外部数据校正模型,与注意力机制所计算的航班号相对比,经过航班号校正过程后,获得最终的语音识别结果。上述的数据预处理模块,其数据处理包括如下步骤:S1.1:原始语音数据进入数据预处理模块中的语谱图转换器,先后经过分帧、加窗以及短时傅里叶变换后,获得相应的语谱图数据;S1.2:外部信息数据(航班列表)进入数据预处理模块中的词嵌入层,生成相应的词向量数据。上述的语音识别模型,由深度残差卷积模块、深度残差序列学习模块和全连接层串联而成。上述的深度残差卷积模块包含多个串联的残差卷积块,每个残差卷积块有两个分支:一个分支由二维卷积层、批标准化层、线性整流层和抛弃层经若干个循环串联而成;另一个分支由一个二维卷积层和线性整流层串联而成;数据进入单个残差卷积块,分别经由两个分支可得相等维度的两个数据,随后两个数据相加并再经过一个抛弃层得到残差卷积块的输出数据。上述的深度残差序列学习模块由两个双向GRU神经网络组成,数据通过每个GRU神经网络时都采用shortcut直连模式,即输入数据经过GRU神经网络后,与原输入数据相加,数据经过两个双向GRU神经网络时都使用这种模式。所述的注意力机制中,计算高层次特征序列在外部信息数据(航班列表)词向量中各个位置的概率,从而计算得到相应的航班号。上述航班号的校正过程,是由注意力机制计算得到的航班号与语音识别模型预测得到的文字序列相对比,若不一致则对文字序列中的航班号进行替换。本专利技术具有以下有益效果:本专利技术在语音识别模型中充分应用深度残差结构,一方面能够大幅增加网络深度,有效缓解由网络深度增加而导致的梯度弥散和梯度爆炸现象,另一方面shortcut直连结构能够组合成高低多个层次的特征,有助于神经网络模型充分学习语音的特征,提高语音识别准确率。其次,本专利技术中还使用了基于注意力机制的外部数据校正模型,能够有效学习语音中有关航班号的特征,并通过注意力机制准确地从航班计划表中找到相应航班,从而进一步提高航班号识别准确率,同时提高空管语音识别的整体准确率。附图说明图1是本专利技术引入外部数据校正的空中管制语音识别方法流程示意图;图2是本专利技术深度残差卷积模块示意图;图3是本专利技术深度残差序列学习模块示意图;图4是本专利技术外部数据校正模型中注意力机制示意图。具体实施方式下面将结合附图和实施例对本专利技术作清楚完整的说明。实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,一种引入外部数据校正的空中管制语音识别方法,包括数据预处理模块、语音识别模型、外部数据校正模型,其语音识别方法如下:S1:通过数据预处理模块中的语谱图转换器和词嵌入层,分别将原始语音数据和外部信息数据(航班列表)转换成可输入语音识别模型和外部数据校正模型的语谱图和词向量;将语音信号数据转化成语谱图数据,需要经过一系列变换处理。首先对语音信号进行分帧加窗处理,窗口大小为25毫秒,帧移10毫秒,采用汉明窗。汉明窗是一种余弦窗,能够改善频率泄露问题,有效保留音频特征。随后对加窗后的数据进行快速傅里叶变换(FFT),将时域信号转换为频域信号,获得语谱图数据。外部信息数据(航班列表)包含某个特定时刻可能出现的所有航班号。航班号由航司名和三到五位数字组成,有些航班号末尾还有一位英文字母。航班号由专门的词典,每个航司名、数字和字母都对应唯一的序号,因此航司名转换为对应的序号最大长度为7,不足7个补零处理。最终,航班计划表数据可以初步转换成N*7维度的张量,N为航班号个数。随后,张量进入Embedding层进行处理,转换成词向量,Embedding层中词维度设定为16。S2:语谱图数据进入语音识别模型,先通过深度残差卷积模块生成多层次语音通道信息特征,再通过深度残差序列学习模块生成高层次特征序列,最后通过全连接层生成文字序列(含航班号)。语音识别模型在图1左侧虚线框出,主要包含深度残差卷积模块、深本文档来自技高网
...

【技术保护点】
1.一种引入外部数据校正的空中管制语音识别方法,其特征是:包括数据预处理模块、语音识别模型、外部数据校正模型,其语音识别方法如下:/nS1:通过数据预处理模块中的语谱图转换器和词嵌入层,分别将原始语音数据和外部信息数据(航班列表)转换成可输入语音识别模型和外部数据校正模型的语谱图和词向量;/nS2:语谱图数据进入语音识别模型,先通过深度残差卷积模块生成多层次语音通道信息特征,再通过深度残差序列学习模块生成高层次特征序列,最后通过全连接层生成文字序列(含航班号);/nS3:词向量数据和语音识别模型中的高层次特征序列数据同时进入外部数据校正模型,通过注意力机制计算语音中的航班号;/nS4:语音识别模型所得的文字序列(含航班号)进入外部数据校正模型,与注意力机制所计算的航班号相对比,经过航班号校正过程后,获得最终的语音识别结果。/n

【技术特征摘要】
1.一种引入外部数据校正的空中管制语音识别方法,其特征是:包括数据预处理模块、语音识别模型、外部数据校正模型,其语音识别方法如下:
S1:通过数据预处理模块中的语谱图转换器和词嵌入层,分别将原始语音数据和外部信息数据(航班列表)转换成可输入语音识别模型和外部数据校正模型的语谱图和词向量;
S2:语谱图数据进入语音识别模型,先通过深度残差卷积模块生成多层次语音通道信息特征,再通过深度残差序列学习模块生成高层次特征序列,最后通过全连接层生成文字序列(含航班号);
S3:词向量数据和语音识别模型中的高层次特征序列数据同时进入外部数据校正模型,通过注意力机制计算语音中的航班号;
S4:语音识别模型所得的文字序列(含航班号)进入外部数据校正模型,与注意力机制所计算的航班号相对比,经过航班号校正过程后,获得最终的语音识别结果。


2.根据权利要求1所述的引入外部数据校正的空中管制语音识别方法,其特征在于,所述的数据预处理模块,其数据处理包括如下步骤:
S1.1:原始语音数据进入数据预处理模块中的语谱图转换器,先后经过分帧、加窗以及短时傅里叶变换后,获得相应的语谱图数据;
S1.2:外部信息数据(航班列表)进入数据预处理模块中的词嵌入层,生成相应的词向量数据。


3.根据权利要求1所述的引入外部数据校正的空中管制语音识别方法,其特征在于,所述的语音识别模型...

【专利技术属性】
技术研发人员:王耀彬李鑫
申请(专利权)人:上海麦图信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1