当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于视听融合的管制员语音识别方法及装置制造方法及图纸

技术编号:36913532 阅读:17 留言:0更新日期:2023-03-18 09:31
本发明专利技术公开了一种基于视听融合的管制员语音识别方法及装置,包括以下步骤:步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;步骤2:构建语音表示模型并进行预训练;步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;步骤4:根据步骤2和步骤3得到的模型构建语音

【技术实现步骤摘要】
一种基于视听融合的管制员语音识别方法及装置


[0001]本专利技术涉及空中交通管理
,具体涉及一种基于视听融合的管制员语音识别方法及装置。

技术介绍

[0002]目前,在空中交通管理领域,管制员通常使用无线电通讯技术向飞行员语音传达空中交通管制指令。为了实现高度自动化的飞行管制,自动语音识别技术逐步应用于管制员和飞行员的无线电交流中。将管制语音转换为文本信息可以显著减少管制员工作负荷并提高空中交通管理的效率。同时也避免了无线电干扰下的模糊语音信号导致飞行员错误理解管制指令的情况。但在实际管制场景中,管制员语音易收到环境噪声、说话习惯和录制设备的影响,导致自动语音识别给出不符合规范甚至是错误的管制指令,进而影响飞行器安全。

技术实现思路

[0003]本专利技术针对现有技术存在的问题提供一种为语音识别任务提供具有丰富语义的补充信息,提升了管制员语音识别的准确率的基于视听融合的管制员语音识别方法及装置。
[0004]本专利技术采用的技术方案是:一种基于视听融合的管制员语音识别方法,包括以下步骤:步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;步骤2:构建语音表示模型并进行预训练;语音表示模型包括下采样模块、量化表示模块和Masked

Transformer模块;步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;步骤4:根据步骤2和步骤3得到的模型构建语音

视频联合自编码器,并进行预训练;步骤5:构建语音识别模块,语音识别模块和语音

视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。
[0005]进一步的,所述步骤2中的下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;用于从原始语音信号中学习语音浅层特征;量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;码本张量为三维张量,三个维度分别表示词表、词条和词条维数;量化表示模块用于根据语音浅层特征得到语音离散量化表征;Masked

Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;位置编码叠加层依次包括一维卷积层
和Gelu激活函数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;Masked

Transformer模块用于根据语音浅层特征得到最终语音表征。
[0006]进一步的,所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,得到视频表征;图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;位置编码张量为二维张量,两个维度分别表示位置和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;图像重构模块包括多层线性映射层。
[0007]进一步的,所述构建语音

视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,所述步骤2和步骤3中的模型不参与参数更新;双模块融合模块用于学习模态之间的关联性,输出双模态融合特征;双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;注意力模块包括多个循环神经网络和多个线性映射层;循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征。最终语音表征和最终视频表征的时间步长可能不一致;注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合;进行时间步长对齐时,具体为:式中:N和M分别为最终语音表征和最终视频表征的时间步长。为第i个最终语音表征与第j个最终视频表征的时间步距离;为第i个最终语音表征与第k个最终视频表征的时间步距离;为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步
修正系数。y
j
为第j个最终视频表征向量,为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W
p
为图像映射层的线性变换矩阵,b
p
为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,W
a
为语音映射层的线性变换矩阵,b
a
为语音映射层的权重向量,均为可训练参数。x
i
为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,为对齐后的第i个最终视频表征,为的注意力分数。时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征。其中;进行特征融合时,具体为:式中:h1、h2分别为语音和视频的单模态权重系数向量,GRU1(
·
), GRU2(
·
)为多层循环门限单元,输出为每个时间步的隐藏状态向量,、分别为语音和视频的第i个时间步的单模态权重系数, W3、W4为权重向量,b3、b4为偏置标量,均为可训练参数;x为最终语音表征,y
align
为对齐后的最终图像表征,为第i个最终语音表征,为对齐后的第i个最终图像表征,σ(
·
)为sigmoid激活函数,m
i,1
和m
i,2
分别为和的注意力分数;o
i
为第个双模态融合特征;其中,;音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视听融合的管制员语音识别方法,其特征在于,包括以下步骤:步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;步骤2:构建语音表示模型并进行预训练;语音表示模型包括下采样模块、量化表示模块和Masked

Transformer模块;步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;步骤4:根据步骤2和步骤3得到的模型构建语音

视频联合自编码器,并进行预训练;步骤5:构建语音识别模块,语音识别模块和语音

视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。2.根据权利要求1所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤2中的下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;用于从原始语音信号中学习语音浅层特征;量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;码本张量为三维张量,三个维度分别表示词表、词条和词条维数;量化表示模块用于根据语音浅层特征得到语音离散量化表征;Masked

Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;位置编码叠加层依次包括一维卷积层和Gelu激活函数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;Masked

Transformer模块用于根据语音浅层特征得到最终语音表征。3.根据权利要求2所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,得到视频表征;图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;位置编码张量为二维张量,两个维度分别表示位置和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;图像重构模块包括多层线性映射层。4.根据权利要求3所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述构建语音

视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,所述步骤2和步骤3中的模型不参与参数更新;
双模块融合模块用于学习模态之间的关联性,输出双模态融合特征;双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;注意力模块包括多个循环神经网络和多个线性映射层;循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征;最终语音表征和最终视频表征的时间步长可能不一致;注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合;进行时间步长对齐时,具体为:式中:N和M分别为最终语音表征和最终视频表征的时间步长;为第i个最终语音表征与第j个最终视频表征的时间步距离; 为第i个最终语音表征与第k个最终视频表征的时间步距离;为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数,y
j
为第j个最终视频表征向量,为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,为第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W
p
为图像映射层的线性变换矩阵,b
p
为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,W
a
为语音映射层的线性变换矩阵,b
a
为语音映射层的权重向量,均为可训练参数;x
i
为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,为对齐后的第i个最终视频表征,为的注意力分数;时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征;其中;进行特征融合时,具体为:式中:h1、h2分别为语音和视频的单模态权重系数向量,GRU1(
·
), GRU2(
·
)为多层循环门限单元,输出为每个时间步的隐藏状态向量,、分别为语音和视频的第i个时间步的单模态权重系数, W3、W4为权重向量,b3、b4为偏置标量,均为可训练参数;x为最终语音表征,y
align
为对齐后的最终图像表征,为第i个最终语音表征,为对齐后的第i个最终图像表征,σ(
·
)为sigmoid激活函数, m
i,1
和m
i,2
分别为和的注意力分数;o
i
为第个双
模态融合特征;其中,;音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer解码器和一个线性映射层;位置编码张量为二维张量,两个维度分别表示时间步和特...

【专利技术属性】
技术研发人员:林毅郭东岳
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1