经由标识信息的语音识别分析制造技术

技术编号：6043073 阅读：251 留言：0更新日期：2012-04-11 18:40

本发明专利技术描述了一种经由标识信息的语音识别分析的方法和系统。所公开的各实施例涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件。一个实施例提供了一种方法，该方法包括接收语音识别数据，该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据，并且还接收包括与图像中的每个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人，并且基于该确定来调整置信数据。

Speech recognition analysis via identification information

The present invention describes a method and system for speech recognition analysis via identification information. The disclosed embodiments involve using identity information to aid in the avoidance of false positive speech recognition events in speech recognition systems. One embodiment provides a method, the method includes receiving data for speech recognition, the speech recognition data including speech segments, identified by determining the signal from the microphone array and the identification of the origin of the acoustic speech segment position position data, and the data including confidence and recognition confidence values. Receiving image data included with each image of the location of the visual location information. The acoustic position data is compared with the visual position data to determine whether the identified speech segment is derived from the person in the field of view of the image sensor and to adjust the confidence data based on the determination.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别技术，尤其涉及一种经由标识信息的语音识别分析的方法和系统。
技术介绍
语音识别技术允许计算设备的用户经由语音命令而非经由键盘或其他外围设备输入设备来作出输入。不同的语音识别系统共有的一个困难在于将预期语音输入与其他所接收的声音辨别开来，这些声音包括但不限于，背景噪声、背景语音、以及来自当前系统用户的不旨在成为输入的语音。提出了将预期语音输入与其他声音辨别开来的各种方法。例如，某些语音输入系统在接受任何语音并将其作为输入进行分析之前要求用户说出一个特定命令，诸如“开始收听”。然而，这些系统可能仍然易于受到随机地匹配所识别的语音模式并因此被解释为输入的背景噪声的影响。这种“假肯定”可能导致语音识别系统执行用户未期望的动作，或者甚至在没有用户在场的情况下执行动作。
技术实现思路
因此，本文公开了涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件的各种实施例。例如，一个所公开的实施例提供了一种操作语音识别输入系统的方法。该方法包括接收语音识别数据，该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据，并且还接收包括与位于图像传感器的视场中的每一个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人。该方法还包括基于所识别的语音段是否被确定为源自图像传感器的视场中的人来调整置信数据。提供本
技术实现思路
是为了以简化的形式介绍将在以下具体实施方式中进...

【技术保护点】
１．一种在包括麦克风阵列和图像传感器的计算系统中操作语音识别输入系统的方法（３００），所述方法包括：接收（３０２）语音识别数据，所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列的信号确定的与所述所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据；接收（３１２）包括与位于所述图像传感器的视场中的每个人的位置有关的视觉位置信息的图像数据；将所述声学位置数据与所述视觉位置数据进行比较（３１６）来确定所述所识别的语音段是否源自所述图像传感器的所述视场中的人；以及基于所述所识别的语音段是否被确定为源自所述图像传感器的所述视场中的人来调整（３１８）所述置信数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：J·弗莱克斯，D·霍金斯，C·克莱恩，M·S·德尼斯，T·莱瓦德，A·M·瓦塞尔，D·麦克凯，
申请(专利权)人：微软公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人