【技术实现步骤摘要】
一种基于对比学习的管制员语音识别方法及装置
[0001]本专利技术涉及语音识别领域和民用航空空中交通管制领域,特别是一种基于对比学习的管制员语音识别方法及装置。
技术介绍
[0002]空中交通管制(空管)通过管制员主观性决策干预航班运行,是保证空中交通安全和提高运行效率的基础和关键。航班运行过程中,地面管制员与飞行员之间通过以语音通话的方式进行实时的沟通和协调,往来语音通过无线电甚高频进行传输。如图1所示,展示了空管语音产生和传输过程,描述如下:1)管制员语音通过上行传输经过麦克风、通信服务器、接口服务器传输到无线电台并发送到飞行员端;2)为了使管制员能够确认飞行员是否收到其发送的语音指令,空管内话系统采用了“回传机制”,将发送的语音通过同一无线电频率收回来并通过下行传输到管制员耳机;3)飞行员发出的复诵语音通过下行传输给管制员,实现双方语音沟通;4)为确保管制席位具有统一的语音输出接口,空管内话系统将上下行语音信号采用叠加拼接的方式进行合并,输出到下游的语音应用,如记录仪系统、语音识别系统。
[0003]图2展示了 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习的管制员语音识别方法,其特征在于,包括以下步骤:S1:获取原始噪声
‑
清晰语音数据对,生成原始数据集,并对所述原始数据集进行标注处理,输出标注数据集;S2:基于神经网络结构搭建管制员语音识别初步模型,所述管制员语音识别初步模型包括TFAtt模块以及多任务损失模块;所述TFAtt模块用于优化并确定时频注意力参数;所述多任务损失模块用于建立多任务损失函数;S3:所述多任务损失模块基于对比学习以及CTC算法建立所述管制员语音识别初步模型的多任务损失函数;S4:基于所述多任务损失函数以及所述标注数据集,通过神经网络训练算法更新所述管制员语音识别初步模型的模型参数,并输出为管制员语音识别模型;S5:将待识别管制员语音输入所述语音识别模型,输出对应的文本结果;所述步骤S1中所述原始噪声
‑
清晰语音数据对的获取方法为:在现有内话系统的基础上,在每一个空管席位添加一套旁路内话系统,并同时通过所述旁路内话系统以及所述现有内话系统对管制员的语音进行采集,获取所述原始噪声
‑
清晰语音数据对;其中,所述现有内话系统设置为正常通话工作模式,所述旁路内话系统设置为监听模式,所述旁路内话系统的无线电通信频率与其对应的所述现有内话系统的无线电通信频率一致。2.根据权利要求1所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述步骤S1包括:S1
‑
1:搜集真实空管运行场景下的原始噪声
‑
清晰语音数据对,生成原始数据集;S1
‑
2:对所述原始数据集中的原始噪声
‑
清晰语音数据对进行预处理,并输出预处理后的所述原始噪声
‑
清晰语音数据对;所述预处理包含语音活动检测、说话人身份判别和/或静音
‑
噪音数据筛查;S1
‑
3:针对预处理后的所述原始噪声
‑
清晰语音数据对进行人工标注,输出为标注数据集;所述人工标注的标注内容包含所述原始噪声
‑
清晰语音数据对对应的指令文本。3.根据权利要求1所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述管制员语音识别初步模型包括CNN模块、TFAtt模块、BiLSTM模块、TDFC模块以及多任务损失模块;所述CNN模块使用多路径、多尺度的卷积核配置在输入的语音特征图上抽取抽象语音特征;所述CNN模块的路径数至少为2,尺度数至少为2;所述TFAtt模块搭建双路注意力机制微调语音特征,通过并行的时序和频率维度的注意力机制引导所述管制员语音识别初步模型关注不同语音帧以及频率范围对识别性能的影响,并通过学习的方式优化并确定时频注意力参数。4.根据权利要求3所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述TFAtt模块包括以下运行步骤:S2
‑
1:根据输入特征图,在时序维度上利用全局平均池化操作生成初始化的时序注意力权重,运算式为:
,其中,为输入特征图,为平均池化操作,为时序维度,为初始化的时序注意力权重;S2
‑
2:根据输入特征图,在频率维度上利用全局平均池化操作生成初始化的频率注意力权重,运算式为:,其中,为频率维度,为初始化的频率注意力权重;S2
‑
3:搭建一维CNN模块分别挖掘时序维度和频率维度的空间相关性,运算式为:,,其中,为时序维度的卷积操作计算公式,为时序注意力权重;为频率维度的卷积操作计算公式,为频率注意力权重;S2
‑
4:通过所述TFAtt模块将所述时序注意力权重以及所述频率注意力权重处理为语音特征图,并将所述语音特征图发送到所述BiLSTM模块;所述语音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。