This paper describes a phonetic body identity correlation. A system and method for dynamically tracking a picture and audio data over time to indicate people dynamically based on the relevance of speech to body in a multi-user game or multimedia setting.
【技术实现步骤摘要】
本专利技术涉及一种用于在多用户应用程序中将语音与用户相关联的系统和方法。
技术介绍
诸如计算机游戏和多媒体应用之类的系统已经演变到系统能够利用用户移动和 口头通信作为对系统的输入的地步。此类自然系统可能连向多个用户,在此情况下迫使在 个体之间作出区分。现有技术允许游戏或应用通过各种机制来标识视场内的用户,这些机 制包括能够感测诸如大小、面部特征、衣着颜色等用户特征的三维深度相机。还存在语音识 别技术以通过包括话筒阵列在内的各种机制来标识感知用户语音。传统上,这两种技术还 未曾合作地使用过。在不用涉及用户方的特意装置的情况下自动将用户语音与身体相匹配 将是令人信服的。例如,可能会有单独使用成像技术或单独使用音频技术,人的身份不明确 的情况发生。在低成本的消费者系统中尤其如此。除了帮助明确用户外,音频与视觉身份 的此类关联可被用于支持游戏或应用内的用户体验。
技术实现思路
本文描述了一种用于在多用户应用程序中将语音与用户相关联的系统和方法。该 系统包括能够提供所述图像相机组件的视场中的一个或多个用户的深度图像的图像相机 组件。该系统还包括话筒阵列,其能够接收该话筒阵列 ...
【技术保护点】
1.在始于未知用户集合(A-D)的多用户应用程序中,一种标识用户与用户语音之间的相关性的方法,所述方法包括以下步骤:(a)接收在多个时段上拍摄的视频捕捉组件的视场内的对象(A′-D′)的多幅图像;(b)确定在所述步骤(a)中接收到的所述图像包括一个还是多个用户;(c)接收多个时段内话筒阵列的范围内的音频;(d)确定在所述步骤(c)中接收到的所述音频包括一个还是多个人类语音;以及(e)基于所述用户在不同图像中的所确定位置以及所述语音在不同时间的所确定源位置的多次采样来将所述步骤(d)中所标识的语音与所述视场内的所述一个或多个用户(A-D)中的用户相关联。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:M·德尼斯,T·莱瓦德,C·克莱恩,李劲宇,
申请(专利权)人:微软公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。