使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统技术方案

技术编号:26069261 阅读:32 留言:0更新日期:2020-10-28 16:42
本发明专利技术题为“使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统”。本发明专利技术公开了一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法。方法包括通过至少一个处理器经由用户界面获得预定短语的多个语音数据发音。多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且多个语音数据发音中的每一个包括音频样本中的一个,音频样本包括声频分量。方法还包括对预定短语的多个语音数据发音执行多次增广以生成语料库音频数据集,语料库音频数据集包括第一数量的音频样本和第二数量的音频样本,第二数量的音频样本包括第一数量的音频样本的增广版本。

【技术实现步骤摘要】
使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统
本公开一般涉及声学语音识别方法和系统。更具体地讲,本公开涉及使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统。
技术介绍
在现代飞机中,传感器和信息处理技术的进展已使得可供飞行员使用的信息量显著增加。虽然这通常使飞行员能够在任何给定时间获得更好的态势感知,但常常要求飞行员扫描来自若干源的信息以便获得该态势感知。另外,由于现代飞机的复杂性增大,可能要求飞行员控制比以往技术上不太复杂的飞机中存在的更多的飞机系统和子系统。在飞机操作期间,要求飞行员准确地确定并保持当前飞机状态的各种要素的持续感知,这些要素诸如为速度、海拔高度、位置、飞行方向、外部大气条件、机舱条件、燃油状态和各种参数的变化率以及众多其他要素。此外,特别重要的是在起飞和着陆期间确保飞机在各种参数界限内正常运行,并且外部条件有利于起飞或着陆机动。然而,一般来讲,考虑到飞行员需要在飞机操作的各个阶段期间准确地确定和监测的参数数量,飞行员可能只有非常有限的时间来作出关于飞机控制的重要决策。另外,可能常常要求飞行员从控制仪表移开一只手并且将他或她的注意力从手头的任务转移到操纵用户界面的物理部件(例如,键、刻度盘、按钮、控制杆等)以便根据与所监测的参数相关联的信息来改变飞机操作。飞机的监测和控制有时可给飞行员带来相当大的压力。近年来为协助飞行员保持态势感知并且减少用户界面的物理部件的操纵而开发的一种方法/系统是声学语音识别(ASR)。ASR方法/系统从飞行员或空中交通管制员接收语音输入并且对飞机系统作出适当的改变,而这原本需要飞行员输入。例如,ASR方法/系统可能能够从空中交通管制员接收语音输入(经由无线电发送到飞机),该语音输入指示改变无线电频率、海拔高度、航向、速度或某种其他飞机操作参数的请求,并且可在飞机的适当系统处识别并自动地输入,从而使飞行员减轻了该负担。在另一个场景中,ASR方法/系统可能能够从飞行员接收语音输入,该语音输入指示改变无线电频率、海拔高度、航向、速度或某种其他飞机操作参数的命令,并且可在飞机的适当系统处识别并自动地输入,从而使飞行员减轻了该负担。ASR技术的一个挑战是实现可接受的语音识别准确度级别,以便避免对飞机系统的不正确输入。在现有技术ASR方法/系统中,可接受的语音识别准确度级别基于由大量“语音语料库”数据进行的模型训练。如本文所用,术语“语音语料库”数据是指用于训练ASR系统的语音录制“主体”。然而,在航空工业应用中,收集和标记语音语料库数据很困难,这是由于有许多不同讲话者(任何给定飞机通常由许多不同机组人员驾驶)以及周围声音环境(飞行期间的发动机声音和其他声音可使语音语料库数据失真)。基于上述内容,希望提供使用有限语音语料库数据实现相对较高准确度级别的飞机驾驶舱声学语音识别方法和系统。此外,根据随后的具体实施方式和所附权利要求,结合附图、
技术实现思路

和本
技术介绍
,本公开的其他期望的特征和特性将变得显而易见。
技术实现思路
一般来讲,本文公开了用于改善声学语音识别的方法和系统。根据一个示例性实施方案,本文公开了使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法。该方法包括通过至少一个处理器经由用户界面获得预定短语的多个语音数据发音。多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且多个语音数据发音中的每一个包括音频样本中的一个,音频样本包括声频分量。该方法还包括对预定短语的多个语音数据发音执行多次增广以生成语料库音频数据集,该语料库音频数据集包括第一数量的音频样本和第二数量的音频样本,该第二数量的音频样本包括第一数量的音频样本的增广版本。执行多次增广包括通过以下方式执行第一级增广:处理多个语音数据发音中的每一个以增强声频分量的第一子集并抑制声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音。执行多次增广还包括通过处理经变换的语音数据发音来执行第二级增广。执行第二级增广包括通过至少一个处理器将经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音,并且通过至少一个处理器为经组合的语音数据发音中的每个调节基于噪声的音频数据的级别以生成包括各种噪声级的语料库音频数据集。语料库音频数据集的每个音频样本包括多个语音变换中的一个和各种噪声级中的一个。该方法还包括通过至少一个处理器使用语料库音频数据集来训练ASR模型以执行ASR。根据另一个示例性实施方案,使用声学语音识别(ASR)模型来执行ASR的计算机系统包括系统存储器元件、用户界面和至少一个处理器。至少一个处理器被配置为经由用户界面获得预定短语的多个语音数据发音。多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且多个语音数据发音中的每一个包括音频样本中的一个,音频样本包括声频分量。至少一个处理器被进一步配置为对预定短语的多个语音数据发音执行多次增广以生成语料库音频数据集,该语料库音频数据集包括第一数量的音频样本和第二数量的音频样本,该第二数量的音频样本包括第一数量的音频样本的增广版本。至少一个处理器通过执行第一级增广和执行第二级增广来执行多次增广,该第一级增广包括处理多个语音数据发音中的每一个以增强声频分量的第一子集并抑制声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音。该第二级增广包括通过以下方式处理经变换的语音数据发音:将经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音,并且为经组合的语音数据发音中的每个调节基于噪声的音频数据的级别以生成包括各种噪声级的语料库音频数据集。语料库音频数据集的每个音频样本包括多个语音变换中的一个和各种噪声级中的一个。至少一个处理器被进一步配置为使用语料库音频数据集来训练ASR模型以执行ASR。提供本
技术实现思路
是为了以简化形式描述精选概念,这些精选概念将在具体实施方式中根据涵盖
技术实现思路
中所述的概念的各种实施方案进一步描述。本
技术实现思路
不旨在通过参考权利要求或以其他方式识别本公开的主题的关键或基本特征,本
技术实现思路
也不旨在用作确定所公开的主题的完整范围的辅助,所公开的主题的完整范围通过参考本公开的各种实施方案来适当确定。附图说明可从附图得出对本公开的更完整的理解,其中类似的附图标号表示类似的元件,并且其中:图1是根据一个示例性实施方案的具有集成声学语音识别系统的飞机系统的示意性框图;图2是根据一个示例性实施方案的声学语音识别系统的功能框图;图3是根据一个示例性实施方案的示出图2的声学语音识别系统的增广模块的设计和操作的系统图;图4是根据一个示例性实施方案的示出图3的增广模块的语音变换处理模块的设计和操作的系统图;图5是根据一个示例性实施方案的示出图3的增广模块的噪声注入处理模块的设计和操作的系统图;并且图6是根据一个示例性实施方案的由图3的增广模块生成的派生的语音语料库数据集的表示。具体实施方式...

【技术保护点】
1.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法,所述方法包括:/n通过所述至少一个处理器经由用户界面获得预定短语的多个语音数据发音,其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个,所述音频样本包括声频分量;/n对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集,所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本,所述第二数量的音频样本包括所述第一数量的音频样本的增广版本,具体方式为:/n通过以下方式执行第一级增广:处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音;以及/n通过处理所述经变换的语音数据发音来执行第二级增广,具体方式为:/n通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音;以及/n通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集,其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个;以及/n通过所述至少一个处理器使用所述语料库音频数据集来训练所述ASR模型以执行ASR。/n...

【技术特征摘要】
20190418 US 16/388,6471.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法,所述方法包括:
通过所述至少一个处理器经由用户界面获得预定短语的多个语音数据发音,其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个,所述音频样本包括声频分量;
对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集,所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本,所述第二数量的音频样本包括所述第一数量的音频样本的增广版本,具体方式为:
通过以下方式执行第一级增广:处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音;以及
通过处理所述经变换的语音数据发音来执行第二级增广,具体方式为:
通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音;以及
通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集,其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个;以及
通过所述至少一个处理器使用所述语料库音频数据集来训练所述ASR模型以执行ASR。


2.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中获得所述多个语音发音是使用与所述飞机通信地耦接的包括麦克风和扬声器的耳麦来执行的。


3.根据权利要求1所述的方法,其中执行所述第一级增广包括利用语音随机变换算法,所述语音随机变换算法随机地选择所述第一子集和所述第二子集。


4.根据权利要求1所述的方法,其中所述声频分量的所述第一子集包括相同频率范围的频率分量。


5.根据权利要求1所述的方法,其中所述声频分量的所述第二子集...

【专利技术属性】
技术研发人员:王鲁宁杨威代智勇
申请(专利权)人:霍尼韦尔国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1