使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统技术方案

技术编号：26069261 阅读：32 留言：0更新日期：2020-10-28 16:42

本发明专利技术题为“使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统”。本发明专利技术公开了一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法。方法包括通过至少一个处理器经由用户界面获得预定短语的多个语音数据发音。多个语音数据发音包括实际发音的语音数据的第一数量的音频样本，并且多个语音数据发音中的每一个包括音频样本中的一个，音频样本包括声频分量。方法还包括对预定短语的多个语音数据发音执行多次增广以生成语料库音频数据集，语料库音频数据集包括第一数量的音频样本和第二数量的音频样本，第二数量的音频样本包括第一数量的音频样本的增广版本。

全部详细技术资料下载

【技术实现步骤摘要】
使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统
本公开一般涉及声学语音识别方法和系统。更具体地讲，本公开涉及使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统。
技术介绍
在现代飞机中，传感器和信息处理技术的进展已使得可供飞行员使用的信息量显著增加。虽然这通常使飞行员能够在任何给定时间获得更好的态势感知，但常常要求飞行员扫描来自若干源的信息以便获得该态势感知。另外，由于现代飞机的复杂性增大，可能要求飞行员控制比以往技术上不太复杂的飞机中存在的更多的飞机系统和子系统。在飞机操作期间，要求飞行员准确地确定并保持当前飞机状态的各种要素的持续感知，这些要素诸如为速度、海拔高度、位置、飞行方向、外部大气条件、机舱条件、燃油状态和各种参数的变化率以及众多其他要素。此外，特别重要的是在起飞和着陆期间确保飞机在各种参数界限内正常运行，并且外部条件有利于起飞或着陆机动。然而，一般来讲，考虑到飞行员需要在飞机操作的各个阶段期间准确地确定和监测的参数数量，飞行员可能只有非常有限的时间来作出关于飞机控制的重要决策。另外，可能常常要求飞行员从控制仪表移开一只手并且将他或她的注意力从手头的任务转移到操纵用户界面的物理部件(例如，键、刻度盘、按钮、控制杆等)以便根据与所监测的参数相关联的信息来改变飞机操作。飞机的监测和控制有时可给飞行员带来相当大的压力。近年来为协助飞行员保持态势感知并且减少用户界面的物理部件的操纵而开发的一种方法/系统是声学语音识别(ASR)。ASR方法/系统从飞行员或空中

【技术保护点】
1.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法，所述方法包括：/n通过所述至少一个处理器经由用户界面获得预定短语的多个语音数据发音，其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本，并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个，所述音频样本包括声频分量；/n对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集，所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本，所述第二数量的音频样本包括所述第一数量的音频样本的增广版本，具体方式为：/n通过以下方式执行第一级增广：处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集，以生成包括多个语音变换的经变换的语音数据发音；以及/n通过处理所述经变换的语音数据发音来执行第二级增广，具体方式为：/n通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音；以及/n通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声...

【技术特征摘要】
20190418 US 16/388,6471.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法，所述方法包括：
通过所述至少一个处理器经由用户界面获得预定短语的多个语音数据发音，其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本，并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个，所述音频样本包括声频分量；
对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集，所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本，所述第二数量的音频样本包括所述第一数量的音频样本的增广版本，具体方式为：
通过以下方式执行第一级增广：处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集，以生成包括多个语音变换的经变换的语音数据发音；以及
通过处理所述经变换的语音数据发音来执行第二级增广，具体方式为：
通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音；以及
通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集，其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个；以及
通过所述至少一个处理器使用所述语料库音频数据集来训练所述ASR模型以执行ASR。

2.根据权利要求1所述的方法，其中所述设备在飞机中实现，并且其中获得所述多个语音发音是使用与所述飞机通信地耦接的包括麦克风和扬声器的耳麦来执行的。

3.根据权利要求1所述的方法，其中执行所述第一级增广包括利用语音随机变换算法，所述语音随机变换算法随机地选择所述第一子集和所述第二子集。

4.根据权利要求1所述的方法，其中所述声频分量的所述第一子集包括相同频率范围的频率分量。

5.根据权利要求1所述的方法，其中所述声频分量的所述第二子集...

【专利技术属性】
技术研发人员：王鲁宁，杨威，代智勇，
申请(专利权)人：霍尼韦尔国际公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人