车辆动态声学模型制造技术

技术编号:18466344 阅读:50 留言:0更新日期:2018-07-18 16:12
车辆语音处理器包括处理设备和数据存储介质。处理设备编程为从可穿戴设备接收识别信息、根据识别信息识别讲话者、根据识别信息识别与讲话者相关联的语调、选择预定的声学模型、并且至少部分地基于所识别的语调来调整预定的声学模型。

Vehicle dynamic acoustic model

The vehicle voice processor includes processing equipment and data storage medium. The processing device programming is to adjust the predetermined acoustic mode for receiving identification information from the wearable device, identifying the speaker according to the identification information, identifying the intonation associated with the speaker according to the identification information, selecting the predetermined acoustic model, and at least partly based on the identified intonation.

【技术实现步骤摘要】
【国外来华专利技术】车辆动态声学模型
技术介绍
具有语音识别的车辆允许乘客使用语音命令来控制某些车辆功能。语音指令允许乘客通过说出某些车辆可理解的命令来控制信息娱乐系统、娱乐系统、气候控制系统等。根据接收到的语音命令,车辆将处理和通过输出各种控制信号来执行语音命令。附图说明图1示出了具有与可穿戴设备通信的语音处理系统的示例车辆;图2是示出语音处理系统的示例部件的框图;图3是示出示例数据流的框图;图4是示出可以并入语音处理系统中的声学模型的示例性调整的框图;图5是可由语音处理系统执行以解释特定用户的语音模式的示例过程的流程图。具体实施方式改善乘客如何通过语音与车辆交互会增强车内体验。可以使乘客感觉好像在与车辆进行交流、而不是简单地给出指令的自然语言模式,是一种改善乘客与车辆互动的方式。在自然语言模型普及到车辆中之前,车辆必须能够更稳定和更精确地识别语音。一种增加车辆语音识别系统的稳定性和精确性的方式包括修改语音识别系统处理语音的方式。传统的声学模型是静态的,并且在被认为是自动语音识别(automaticspeechrecognition,ASR)的典型用例的各种条件下进行训练。也就是说,传统的声学模型是根据一般人的预期语音模式而进行训练的。为每一种可能的语调和口音包括一种声学模型即使不是不可能的,也会是成本高昂的。而且,背景噪声使得传统的声学模型难以精确地处理语音。可穿戴设备可以允许车辆更好地识别和理解特定的乘员的讲话模式。可以基于来自特定人员的可穿戴设备的数据而为特定人员定制声学模型的示例车辆语音处理器包括处理设备和数据存储介质。处理设备编程为从可穿戴设备接收识别信息、根据识别信息识别讲话者、根据识别信息识别与讲话者相关联的语调、选择预定的声学模型、并且至少部分地基于所识别的语调来调整预定的声学模型。因此,根据可穿戴设备的识别信息,语音处理器可以动态地对声学模型再加权。由于传统的声学模型是以在各种适当的组合形式下从训练集中导出的特征向量(featurevector)的线性组合构建的,并且由于许多静态模型在处理有口音的讲话方面做得不好,因此语音处理器可以针对由可穿戴设备识别的特定讲话者校准声学模型。校准声学模型可以包括例如选择可用的特征向量和对可用的特征向量再加权。因此,语音处理器可以充分利用由可穿戴设备收集的数据。数据可以包括由用户在设置可穿戴设备时自愿提供的基本分类信息,如种族、民族、主要语言等。可替代地或额外地,数据可以包括由机器学习算法执行的分类,以具体地识别用户偏向何种音素分布。利用这些信息,语音处理器可以将声学模型针对讲话者的特征向量的最佳线性组合再加权,极大地改善了语音识别。另外,由于信息娱乐系统可以构建出连续增强特征向量权重的配置文件,所以语音识别(通过语音识别讲话者)可以与内置于例如信息娱乐系统中的自适应学习范例一起使用,以进一步增强识别。所示的元件可以采取许多不同的形式并且包括多个和/或可替代的部件和设施。所示的示例部件不旨在限制。事实上,可以使用额外的或可替代的组件和/或实施方式。此外,除非明确说明,所示的元件不一定按比例绘制。如图1所示,主车辆100包括与可穿戴设备110通信的语音处理系统105。尽管示为四门轿车,但是主车辆100可以包括任何乘客车辆或商用车辆,例如轿车、卡车、越野车、跨界车、厢式货车、面包车、出租车、公共汽车等。在一些可能的方法中,主车辆100是配置为以自主(例如无人驾驶)模式、部分自主模式、和/或非自主模式操作的自主车辆。可穿戴设备110可以包括允许可穿戴设备110与语音处理系统105无线通信的任何数量的电路或部件。可穿戴设备110可以配置为使用任何数量的无线通信技术而通信,例如无线保真(Wirelessfidelity,Wi-Fi),无线保真直连(Wi-FiDirect)等等。可穿戴设备110可以编程为与语音处理系统105配对,这使得可穿戴设备110和语音处理系统105可以交换数据。例如,可穿戴设备110可以编程为将与穿戴可穿戴设备110的人相关联的识别信息发送到语音处理系统105。识别信息可以包括例如讲话者的身份。讲话者的身份可以基于例如由讲话者在设置可穿戴设备110时提供的信息。设置可穿戴设备110可以包括生成配置文件并将配置文件关联到可穿戴设备110。识别信息可以包括例如与讲话者相关联的唯一标识,并且可以将唯一标识符与识别信息一起发送到主车辆100。识别信息还可以包括语调信息。例如,可穿戴设备110可以执行正在进行的“训练”功能,其中可穿戴设备110通过例如将讲话音素与预期音素相匹配而持续尝试理解用户的讲话。讲话音素和预期音素之间的差异可以表征为讲话者的语调。因此,语调信息可以被识别讲话者的语调、或讲话音素相对于预期音素的另一表示。语音处理系统105可以编程为与可穿戴设备110配对,并且从可穿戴设备110接收识别信息。语音处理系统105可以处理识别信息以识别讲话者。在识别出讲话者的情况下,语音处理系统105可以选择声学模型。可称为“预定的声学模型”的声学模型可以是并入语音处理系统105中的标准模型。语音处理系统105可以进一步识别讲话者的语调。可以根据讲话者的身份、或关于讲话者的其他信息(包括从可穿戴设备110发送的语调信息)来识别语调。例如,语调可以与不同的地理区域相关联,该地理区域可以包括讲话者的当前地理区域或讲话者的先前地理区域(讲话者长大或消耗最多时间的地理区域)。例如,可以为在波士顿附近度过他大半生的讲话者选择一种语调,并且可以为在美国南部度过大半生的讲话者选择不同的语调。替代地理方法或除地理方法之外,语音处理系统105还可以基于由可穿戴设备110执行的“训练”来识别讲话者的语调。语音处理系统105可以基于所识别的语调来调整预定的声学模型,以创建校准的声学模型。调整预定的声学模型可以包括例如在多个语音特征中选择语音特征。每个语音特征可以与特定的音素相关联。调整预定的声学模型可以进一步包括调整施加到所选语音特征的权重。所施加的权重可以指示在解释讲话者的讲话时,特定音素应该受到多大的影响。因此,增加权重可以使特征更具影响力,而降低权重可以使特征的影响力降低。语音处理系统105可以接收声学信号(即穿戴可穿戴设备110的人发出的讲话),并将校准的声学模型应用于声学信号。语音处理系统105可以根据校准的声学模型处理声学信号,并且生成与由声学信号表示的语音命令一致的适当命令,该命令发送到一个或多个车辆子系统115(参见图2)。图2是示出语音处理系统105的示例部件的框图。如图所示,语音处理系统105包括通信设备120、拾音器125、数据存储介质130、和语音处理器135。通信设备120可以包括便于可穿戴设备110和语音处理器135之间通信的任何数量的电路或部件。通信设备120可以编程为通过任何数量的无线通信技术(例是Wi-Fi、Wi-FiDirect等)与可穿戴设备110通信。通信设备120可以编程为与可穿戴设备110配对,并且从可穿戴设备110无线接收包括语调信息的识别信息。通信设备120可以编程为将识别信息发送到例如语音处理器135。拾音器125可以包括可以接收声学信号(例如语音)、并且将声学信号转换成可以称为“模拟声学信号”的电信号的任何数量的电路或部件。本文档来自技高网...

【技术保护点】
1.一种车辆语音处理器,包括处理设备和数据存储介质,其中所述处理设备编程为:从可穿戴设备接收识别信息;根据所述识别信息识别讲话者;根据所述识别信息识别与所述讲话者相关联的语调;选择预定的声学模型;并且至少部分地基于所识别的所述语调来调整所述预定的声学模型。

【技术特征摘要】
【国外来华专利技术】1.一种车辆语音处理器,包括处理设备和数据存储介质,其中所述处理设备编程为:从可穿戴设备接收识别信息;根据所述识别信息识别讲话者;根据所述识别信息识别与所述讲话者相关联的语调;选择预定的声学模型;并且至少部分地基于所识别的所述语调来调整所述预定的声学模型。2.根据权利要求1所述的车辆语音处理器,其中所述处理设备编程为至少部分地基于根据由所述识别信息所识别的所述语调而调整的所述预定的声学模型来生成校准的声学模型。3.根据权利要求1所述的车辆语音处理器,其中所述处理设备编程为将校准的声学模型应用于声学信号。4.根据权利要求3所述的车辆语音处理器,其中所述处理设备编程为至少部分地基于所述声学信号和所述校准的声学模型而输出车辆命令。5.根据权利要求1所述的车辆语音处理器,其中调整所述预定的声学模型包括从多个语音特征中选择语音特征。6.根据权利要求5所述的车辆语音处理器,其中调整所述预定的声学模型包括调整与所述选择的语音特征相关联的权重。7.根据权利要求1所述的车辆语音处理器,其中调整所述预定的声学模型包括调整与多个语音特征中的至少一个相关联的权重。8.根据权利要求7所述的车辆语音处理器,其中所述多个语音特征中的每一个都与音素相关联。9.根据权利要求1所述的车辆语音处理器,还包括编程为与所述可穿戴设备配对的通信设备。10.根据权利要求1所述的车辆语音处理器,还包括配置为接...

【专利技术属性】
技术研发人员:普拉米塔·密特拉加里·史蒂文·斯特鲁莫洛克雷格·约翰·西蒙兹阿里·哈桑尼马克·A·库迪西戴维·梅尔彻
申请(专利权)人:福特全球技术公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1