经由社交图谱、语音模型和用户情境识别接近移动装置用户的人制造方法及图纸

技术编号:9798539 阅读:85 留言:0更新日期:2014-03-22 13:31
提供用以使用说话者辨识来改进对人的识别的技术。在一个实施例中,唯一社交图谱可与多个所定义情境中的每一者相关联。所述社交图谱可指示可能存在于特定情境中的说话者。因此,可收集和处理包含语音信号的音频信号。可推断情境,且可识别对应的社交图谱。可基于所述社交图谱确定一组潜在说话者。接着可将所述经处理信号与受限制的一组语音模型进行比较,每一语音模型与一潜在说话者相关联。通过限制所述组潜在说话者,可较准确地识别说话者。

【技术实现步骤摘要】
【国外来华专利技术】经由社交图谱、语音模型和用户情境识别接近移动装置用户的人

技术介绍
识别移动装置用户正与之交互的人是情境感知和社交网络领域中待解决的极有价值的问题。迄今为止,所述问题大部分仍未解决。
技术实现思路
本专利技术提供使用说话者辨识来改进对人的识别的技术。在一个实施例中,可产生唯一社交图谱,并使其与多个所界定情境中的每一者相关联。社交图谱可指示在特定情境中可能存在说话者。因此,可收集并处理包含语音信号的音频信号。可推断情境,且可识别对应的社交图谱。可基于社交图谱来确定一组潜在说话者。接着可将经处理的信号与受限的一组语音模型进行比较,每一语音模型与一潜在说话者相关联。通过限制潜在说话者的集合,可较准确地识别说话者。在一些实施例中,提供一种用于识别说话者的方法。所述方法可包含:存取包括语音信号的音频数据,所述音频数据是使用移动装置上的麦克风产生;推断所述移动装置的用户的情境;至少部分地基于所述所推断的情境来识别社交图谱,所述社交图谱包括潜在说话者列表;以及识别被确定为已用声音为所述语音信号做贡献的说话者,所述说话者识别至少部分地基于所述所识别的社交图谱。推断所述用户的所述情境可至少部分地基于所述用户的位置。所述方法可进一步包含至少部分地基于所述移动装置所接收的GPS、WiFi或蜂窝式信号来确定所述用户的所述位置。推断所述用户的所述情境可至少部分地基于所述用户的环境。所述方法可进一步包含至少部分地基于所述移动装置所接收的蓝牙或音频信号来确定所述环境。推断所述用户的所述情境可至少部分地基于所述用户的活动。所述方法可进一步包含至少部分地基于运动传感器数据、光传感器数据或由所述移动装置上的麦克风捕获的音频信号来确定所述活动。推断所述用户的所述情境可至少部分地基于与所述移动装置相关联的电子邮件数据、短信数据、日历数据、社交网络数据和联系人列表数据中的一者或一者以上。推断所述用户的所述情境可至少部分地基于所述移动装置的呼叫状态和/或当前呼叫细节。推断所述用户的所述情境可至少部分地基于所述移动装置上正活跃地或非活跃地使用的应用程序。推断所述用户的所述情境可至少部分地基于收集所述音频数据时的时刻。所述音频数据可包含以隐私敏感方式采样的音频部分,使得所说的词语无法从所述音频数据重构。所述方法可进一步包含存储多个社交图谱,所述多个社交图谱中的每一者与一不同情境相关联。所述方法可进一步包含存储多个语音模型,其中每一语音模型与一潜在说话者相关联。所述方法可进一步包含:存储多个语音模型,其中每一语音模型与一潜在说话者相关联;处理所述所存取的音频数据;以及将所述经处理的音频数据与所述多个语音模型的子集进行比较,所述子集是至少部分地基于所述所识别的社交图谱来确定的。所述方法可进一步包含产生一个或一个以上情境的社交图谱,其中所述社交图谱的产生是至少部分地基于以下各项中的一者或一者以上:用户位置数据、日历数据、电子邮件数据和社交网络数据。所述所识别的社交图谱可包含所述一个社交图谱的一个或一个以上边缘的边缘加权。每一边缘的所述边缘加权可对应于所述用户与和所述边缘相关联的人交互所花费的时间分数。所述方法可进一步包含在识别所述社交图谱之前:捕获多个情境中的每一者中的训练音频数据;群集所述所捕获的训练音频数据;以及基于所述所群集的音频数据产生多个社交图谱,其中所述所产生的社交图谱包括所述多个社交图谱中的一者。所述方法可进一步包含至少部分地基于群集算法的执行来界定多个潜在情境。所述识别所述说话者可包含识别所述说话者的名称。在一些实施例中,本专利技术提供一种用于辨识说话者的设备。所述设备可包含移动装置,其包括:麦克风,其经配置以接收音频信号,且将所述所接收到的音频信号转换为无线电信号;以及发射器,其经配置以发射所述无线电信号。所述设备还可包含一个或一个以上处理器,其经配置以:从所述麦克风捕获音频数据;推断所述移动装置的用户的情境;至少部分地基于所述所推断的情境来识别社交图谱,所述社交图谱包括潜在说话者列表;以及识别被确定为已用声音为所述语音信号做贡献的说话者,所述说话者识别至少部分地基于所述所识别的社交图谱。远程服务器可包含所述一个或一个以上处理器中的至少一者。所述移动装置可包含所述一个或一个以上处理器中的全部。所述移动装置可包含显示器,且所述一个或一个以上处理器可进一步经配置以在所述显示器上呈现所述说话者的标识。在一些实施例中,本专利技术提供一种计算机可读媒体,所述计算机可读媒体含有执行以下步骤的程序:存取包括语音信号的音频数据,所述音频数据是使用移动装置上的麦克风产生;推断所述移动装置的用户的情境;至少部分地基于所述所推断的情境来识别社交图谱,所述社交图谱包括潜在说话者列表;以及识别被确定为已用声音为所述语音信号做贡献的说话者,所述说话者识别至少部分地基于所述所识别的社交图谱。所述程序可进一步执行以下步骤:将所述所存取的音频数据变换到特征空间。所述程序可进一步执行以下步骤:存储多个社交图谱,每一社交图谱与一不同情境相关联。所述程序可进一步执行以下步骤:存储多个语音模型,其中每一语音模型与一潜在说话者相关联;处理所述所存取的音频数据;以及将所述经处理的音频数据与所述多个语音模型的子集进行比较,所述子集是至少部分地基于所述所识别的社交图谱来确定的。在一些实施例中,本专利技术提供一种用于辨识说话者的系统。所述系统可包含:用于存取包括语音信号的音频数据的装置(例如,收发器和/或麦克风);用于推断情境的装置(例如,当前状态分析器);用于至少部分地基于所述所推断的情境来识别社交图谱的装置(例如,情境到社交图谱映射器),所述社交图谱包括潜在说话者列表;以及用于识别被确定为已用声音为所述语音信号做贡献的说话者的装置,所述说话者识别至少部分地基于所述所识别的社交图谱(例如,分类器和/或语音模型到人映射器)。所述系统可进一步包含用于至少部分地基于以下各项中的一者或一者以上产生一个或一个以上情境的社交图谱的装置(例如,社交图谱产生器):用户位置数据、日历数据、电子邮件数据和社交网络数据。所述所识别的社交图谱可包含所述一个社交图谱的一个或一个以上边缘的边缘加权。所述系统可进一步包含用于向移动装置的用户呈现所述识别说话者的装置(例如,显示器)。【附图说明】图1A说明用于使用社交图谱、语音模型和用户情境信息来识别一个或一个以上人的设备的实施例。图1B是说明根据本专利技术实施例的音频数据的捕获的图。图1C是说明根据本专利技术另一实施例的音频数据的捕获的图。图1D是说明根据本专利技术又一实施例的音频数据的捕获的图。图2是用于识别接近移动装置用户的一个或一个以上人的过程的流程图。图3说明计算机系统的实施例。【具体实施方式】提供用以使用说话者辨识来改进对人的识别的方法、装置和系统。在一些例子中,通过使接收到的音频信号与一组可能说话者中的一者相关联来辨识说话者。举例来说,可定义初始的一组可能说话者,且可使一个或一个以上语音模型与每一可能说话者相关联。可处理接收到的信号,以试图使所述信号与所述可能说话者中的一者相关联。因为移动装置频繁地从大量说话者接收音频信号,所以产生难题。因此,辨识说话者可需要将给定的经处理信号与大量控制变量进行比较。此分析可需要大量的计算处理,且可易于经常发生辨识错误。如果本文档来自技高网...

【技术保护点】
一种用于识别说话者的方法,所述方法包括:存取包括语音信号的音频数据,所述音频数据是使用移动装置上的麦克风产生的;推断所述移动装置的用户的情境;至少部分地基于所述所推断的情境来识别社交图谱,所述社交图谱包括潜在说话者列表;以及识别被确定为已用声音为所述语音信号做贡献的说话者,所述说话者识别至少部分地基于所述所识别的社交图谱。

【技术特征摘要】
【国外来华专利技术】2011.07.01 US 61/504,084;2012.01.06 US 13/344,7261.一种用于识别说话者的方法,所述方法包括: 存取包括语音信号的音频数据,所述音频数据是使用移动装置上的麦克风产生的; 推断所述移动装置的用户的情境; 至少部分地基于所述所推断的情境来识别社交图谱,所述社交图谱包括潜在说话者列表;以及 识别被确定为已用声音为所述语音信号做贡献的说话者,所述说话者识别至少部分地基于所述所识别的社交图谱。2.根据权利要求1所述的方法,其中推断所述用户的所述情境是至少部分地基于所述用户的位置。3.根据权利要求2所述的方法,其进一步包括至少部分地基于所述移动装置所接收的GPS, WiFi或蜂窝式信号来确定所述用户的所述位置。4.根据权利要求1所述的方法,其中推断所述用户的所述情境是至少部分地基于所述用户的环境。5.根据权利要求4所述的方法,其进一步包括至少部分地基于所述移动装置所接收的蓝牙或音频信号来确定所述环境。6.根据权利要 求1所述的方法,其中推断所述用户的所述情境是至少部分地基于所述用户的活动。7.根据权利要求6所述的方法,其进一步包括至少部分地基于运动传感器数据、光传感器数据或由所述移动装置上的所述麦克风捕获的音频信号来确定所述活动。8.根据权利要求1所述的方法,其中推断所述用户的所述情境是至少部分地基于与所述移动装置相关联的电子邮件数据、文本消息数据、日历数据、社交网络数据和联系人列表数据中的一者或一者以上。9.根据权利要求1所述的方法,其中推断所述用户的所述情境是至少部分地基于所述移动装置的呼叫状态和/或当前呼叫细节。10.根据权利要求1所述的方法,其中推断所述用户的所述情境是至少部分地基于所述移动装置上正活跃地或非活跃地使用的应用程序。11.根据权利要求1所述的方法,其中推断所述用户的所述情境是至少部分地基于收集所述音频数据时的时刻。12.根据权利要求1所述的方法,其中所述音频数据包含以隐私敏感方式采样的音频部分,使得所说的词语无法从所述音频数据重构。13.根据权利要求1所述的方法,其进一步包括存储多个社交图谱,所述多个社交图谱中的每一者与一不同情境相关联。14.根据权利要求1所述的方法,其进一步包括存储多个语音模型,其中每一语音模型与一潜在说话者相关联。15.根据权利要求1所述的方法,其进一步包括: 存储多个语音模型,其中每一语音模型与一潜在说话者相关联; 处理所述所存取的音频数据;以及 将所述经处理的音频数据与所述多个语音模型的子集进行比较,所述子集是至少部分地基于所述所识别的社交图谱来确定的。16.根据权利要求1所述的方法,其进一步包括产生一个或一个以上情境的社交图谱,其中所述社交图谱的产生是至少部分地基于以下各项中的一者或一者以上:用户位置数据、日历数据、电子邮件数据和社交网络数据。17.根据权利要求1所述的方法,其中所述所识别的社交图谱包含所述所识别的社交图谱的一个或一个以上边缘的边缘加权。18.根据权利要求17所述的方法,其中每一边缘的所述边缘加权对应于所述用户与和所述边缘相关联的人交互所花费的时间分数。19.根据权利要求1所述的方法,其进一步包括在识别所述社交图谱之前: ...

【专利技术属性】
技术研发人员:里昂纳德·亨利·葛罗科普维迪亚·纳拉亚南
申请(专利权)人:高通股份有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1