当前位置: 首页 > 专利查询>索尼公司专利>正文

信息处理装置、信息处理方法和程序制造方法及图纸

技术编号:7192382 阅读:225 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及信息处理装置、信息处理方法和程序。该信息处理装置包括:多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从信息输入单元输入的信息的分析来生成存在于实际空间中的用户的包括估计位置信息和估计识别(ID)信息的事件信息;以及信息统合处理单元,输入事件信息并且基于输入的事件信息生成各用户的包括位置和用户ID信息的目标信息,以及代表针对事件生成源的概率值的信号信息。这里,信息统合处理单元包括具有识别器的说话源概率计算单元,并且使用说话源概率计算单元中的识别器基于输入信息来计算说话源概率。

【技术实现步骤摘要】

本公开内容涉及信息处理装置、信息处理方法和程序,更具体地涉及如下信息处理装置、信息处理方法和程序其通过输入来自外界的诸如图像、语音等信息的输入信息来基于输入信息分析外部环境,并且具体分析说话人的位置、谁正在说话等。
技术介绍
进行在诸如个人、PC(个人计算机)和机器人的信息处理装置之间的交互处理(例如通信处理或者交互处理)的系统被称为人机交互系统。在人机交互系统中,诸如PC、机器人等信息处理装置通过输入图像信息或者语音信息来基于输入信息进行分析以识别人类动作,比如人类行为或者言语。在个人发送信息的情况下,使用用于手势、注视、面部表情等以及言语的各种渠道作为信息发送渠道。当能够在机器中分析这些渠道时,即使在人与机器之间的交流也可以达到与人之间的交流水平相同的水平。能够分析来自这些多渠道(也称为形态或模态)的输入信息的接口被称为多形态接口,并且已经广泛进行针对接口的开发和研究。例如当通过输入由相机捕获的图像信息和由麦克风获得的声音信息来进行分析时,为了更具体进行分析,从布置在各点的多个相机和多个麦克风输入大量信息是有效的。作为具体系统,例如假设以下系统。信息处理装置(电视机)经由相机和麦克风输入电视机前面的用户(父亲、母亲、姐姐和弟弟)的图像和语音,并且分析各用户的位置、 哪个用户说话等,从而可以实现如下系统,该系统能够进行根据分析信息的处理,如关于已经说话的用户的相机推近,关于已经说话的用户进行适当的响应等。作为公开现有人机交互系统的有关领域,例如给出公开号为2009-31951的日本待审专利申请和公开号为2009-140366的日本待审专利申请。在这一有关领域中进行如下处理,在该处理中以概率方式统合来自多渠道(形态)的信息,并且关于多个用户中的各用户确定多个用户中的各用户的位置、多个用户是谁以及谁发出信号(也就是谁说话)。例如当确定谁发出信号时,设置与多个用户对应的虚拟目标(tID = 1至m),并且根据由相机捕获的图像数据或者由麦克风获得的声音信息的分析结果来计算各目标为说话源的概率。具体而言,例如进行以下处理。(a)经由麦克风获得的声音事件的声源方向信息、根据说话者识别(ID)信息可获得的用户位置信息和仅根据用户ID信息可获得的目标tID的说话源概率P(tID)。(b)基于经由相机可获得的图像通过面部识别过程可获得的面部属性得分 的面积 S,t(tID)。其中计算(a)和(b),从而使用α作为预设分配权值系数基于权值α通过加法或者乘法来计算各目标(tID = 1至m)的说话者概率I3S (tID)或Pp(tlD)。此外,例如在公开号为2009-140366的日本待审专利申请中描述了这一处理的细节。在上述有关领域中的说话者概率计算处理中有必要如上文所述预先调节权值系数α。预先调节权值系数令人厌烦,并且当权值系数未调节成适当数值时,有极大地影响说话者概率计算结果的有效性本身这样的问题。
技术实现思路
本公开内容是为了解决上述问题,并且希望提供可以进行如下处理的信息处理装置、信息处理方法和程序,从而可以改进鲁棒性并且可以进行高度准确的分析在用于对来自多个渠道(形态或模态)的输入信息进行分析、更具体地进行关于周围中的人的例如位置等的特定处理的系统中,通过关于在诸如图像信息、声音信息等各种输入信息中包括的不确定信息进行随机处理来统合为更准确估计的信息。本公开内容用于解决上述问题,并且希望提供如下信息处理装置、信息处理方法和程序可以在计算说话源概率时,针对来自输入事件信息内的与用户的说话对应的语音事件信息使用识别器,从而不必预先调节上述权值系数。根据本公开内容的实施例,提供一种信息处理装置,该信息处理装置包括多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从信息输入单元输入的信息的分析来生成存在于实际空间中的用户的包括估计位置信息和估计识别(ID)信息的事件信息;以及信息统合处理单元,输入事件信息并且基于输入的事件信息生成各用户的包括位置信息和用户ID信息的目标信息,且生成代表针对事件生成源的概率值的信号信息。这里,信息统合处理单元可以包括具有识别器的说话源概率计算单元,并且使用说话源概率计算单元中的识别器基于输入信息来计算说话源概率。此外,根据本公开内容的信息处理装置的该实施例,识别器可以输入与说话事件对应的(a)用户位置信息(声源方向信息)和(b)用户ID信息(说话者ID信息),作为来自构成事件检测单元的语音事件检测单元的输入信息、还输入(a)用户位置信息(面部位置信息)、(b)用户ID信息(面部ID信息)和(c)嘴唇动作信息,作为基于来自构成事件检测单元的图像事件检测单元的输入信息而生成的目标信息,并且进行通过应用至少一个输入信息基于输入信息来计算说话源概率的过程。此外,根据本公开内容的信息处理装置的一个实施例,识别器可以进行如下处理 基于从预设目标选择的两个目标的目标信息之间的比较来识别两个目标的目标信息中的哪个为说话源。此外,根据本公开内容的信息处理装置的该实施例,识别器可以在关于识别器对在输入信息中包括的多个目标的目标信息的比较过程中计算在目标信息中包括的各信息的对数似然度比,并且进行根据计算的对数似然度比计算代表说话源概率的说话源得分的处理。此外,根据本公开内容的信息处理装置的该实施例,识别器可以使用用作关于识别器的输入信息的声源方向信息(D)、说话者ID信息(S)和嘴唇动作信息(L)来计算诸如 Iog(D1ZD2) Uog(S1ZiS2)和Iog(L1Zl2)的三种对数似然度比中的至少任何对数似然度比作为两个目标1和2的对数似然度比,从而将说话源得分计算为目标1和2的说话源概率。此外,根据本公开内容的信息处理装置的该实施例,信息统合处理单元可以包括 目标信息更新单元,进行其中应用多个粒子的粒子过滤处理并且生成分析信息,多个粒子基于来自构成事件检测单元的图像事件检测单元的输入信息设置与虚拟用户对应的多个目标数据,分析信息包括存在于实际空间中的用户的位置信息。这里,目标信息更新单元可以通过将粒子设置的各目标数据的分组与从事件检测单元输入的各事件关联来进行设置、 根据输入的事件识别符进行对从各粒子选择的事件对应目标数据的更新,并且生成包括 (a)用户位置信息、(b)用户ID信息和(C)嘴唇动作信息的目标信息,从而向说话源概率计算单元输出生成的目标信息。此外,根据本公开内容的信息处理装置的该实施例,目标信息更新单元可以通过将目标与在事件检测单元中检测到的面部图像单位的各事件关联来进行处理。此外,根据本公开内容的信息处理装置的该实施例,目标信息更新单元可以通过进行粒子过滤过程来生成存在于实际空间中的用户的包括用户位置信息和用户ID信息的分析信息。根据本公开内容的另一实施例,提供一种用于在信息处理装置中进行信息分析处理的信息处理方法,该方法包括多个信息输入单元输入实际空间的观察信息;检测事件检测单元基于对从信息输入单元输入的信息的分析对包括存在于实际空间中的用户的估计位置信息和估计ID信息的事件信息的生成;并且信息统合处理单元输入事件信息,并基于输入的事件信息生成各用户的包括位置信息和用户ID信息的目标信息以及代表针对事件生成源的概率值的信号信息。这里,在输入事件信息以及生成目标本文档来自技高网
...

【技术保护点】
1.一种信息处理装置,包括:多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从所述信息输入单元输入的信息的分析来生成包括存在于实际空间中的用户的估计位置信息和估计识别信息的事件信息;以及信息统合处理单元,输入所述事件信息,并且基于输入的所述事件信息生成包括各用户的位置和用户识别信息的目标信息以及代表针对事件生成源的概率值的信号信息,其中所述信息统合处理单元包括具有识别器的说话源概率计算单元,并且使用所述说话源概率计算单元中的所述识别器来计算基于输入信息的说话源概率。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:山田敬一泽田务
申请(专利权)人:索尼公司
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1