当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用交互化身的通信制造技术

技术编号:16400833 阅读:22 留言:0更新日期:2017-10-17 20:57
大体上本公开描述视频通信系统,其用动画呈现的化身替换参与用户的实际实况图像。方法可包括:选择化身;发起通信;检测用户输入;识别用户输入;基于用户输入识别动画命令;生成化身参数;以及传送动画命令和化身参数中的至少一个。

Communication using interactive avatars

In general, this paper describes a video communication system, which replaces the actual live image of the user with the avatar rendered by animation. The method may include: avatar; initiated communication; detection of user input; identify the user input command; user input recognition based animation generation; embodiment parameters; and transmitting animation commands and parameters in at least one embodiment.

【技术实现步骤摘要】
使用交互化身的通信
下列公开涉及视频通信,并且更特定地涉及使用交互化身的视频通信。
技术介绍
在移动设备中可用的种类日益增加的功能性已经对用户造成除简单电话外还经由视频来通信的期望。例如,用户可发起“视频通话”、“视频会议”等,其中设备中的拍摄装置和麦克风捕捉用户的音频和视频,其实时被传送到一个或多个其他接收者,例如其他移动设备、台式计算机、视频会议系统等。视频的通信可牵涉传送大量数据(例如,根据拍摄装置的技术、处理捕捉的图像数据所采用的特定视频编解码器,等)。考虑到现有2G/3G无线技术的带宽限制,和新兴4G无线技术的仍然有限的带宽,实施并发视频通话的许多设备用户可超出现有无线通信基础设施中的可用带宽,这可能负面影响视频通话的质量。附图说明要求保护的主旨的各种实施例的特征和优势将随着下列详细说明进行以及在参考图(其中类似的数字指示类似的部件)时变得明显,并且其中:图1A图示根据本公开的各种实施例的示例的设备到设备系统;图1B图示根据本公开的各种实施例的示例虚拟空间系统;图2图示根据本公开的各种实施例的示例设备;图3图示根据本公开的至少一个实施例的示例系统实现;以及图4是根据本公开的至少一个实施例的示例操作的流程图。尽管下列详细说明将参考说明性实施例而进行,其许多备选、修改和变化对于本领域内技术人员将是明显的。具体实施方式一般,该公开描述用于使用交互化身的视频通信的系统和方法。使用化身(如与实况图像不同)使要传送的数据的量大大减少,并且从而,化身通信需要较少的带宽。交互化身配置成通过基于用户输入修改选择的化身的显示来增强用户体验。此外,可捕捉用户语音并且将其变换来产生化身语音。化身语音然后可与用户语音相关,但可掩饰用户的身份。音频变换可包括,例如移调(pitchshifting)和/或时间延展。在一个实施例中,在耦合于拍摄装置、麦克风和扬声器的设备中激活应用。该应用可配置成允许用户选择化身用于在远程设备上、虚拟空间中等显示。设备然后可配置成发起与至少一个其他设备、虚拟空间等的通信。例如,通信可通过2G、3G、4G蜂窝连接而建立。备选地或另外,通信可经由WiFi连接通过因特网建立。在建立通信后,拍摄装置可配置成开始捕捉图像和/或到物体的距离并且麦克风可配置成开始捕捉声音(例如,用户语音),并且将用户语音转换成用户语音信号。然后可确定是否检测到用户输入。该用户输入可被用户输入设备捕捉。用户输入包括由触敏显示器捕捉的触摸事件和由拍摄装置(例如,配置成捕捉到物体的距离的深度拍摄装置和/或web拍摄装置)捕捉的手势。从而,用户输入设备包括触敏显示器和/或拍摄装置。如果检测到用户输入,可识别该用户输入。对于触摸事件,用户输入标识符可与触摸类型以及一个或多个触摸位点有关。对于手势(例如,张开的手),用户输入标识符可与手势标识符有关。然后可基于用户输入识别动画命令。动画命令对应于与用户输入关联的期望响应,例如响应于显示的化身的面部上的单击而改变显示的化身的面部的颜色。然后可生成化身参数。化身参数可基于面部检测、头部移动和/或动画命令而生成。化身参数从而可包括基于例如面部检测和头部移动的被动组成,和基于动画命令的交互组成。化身参数可能用于使化身在至少一个其他设备上、在虚拟空间内等动画地呈现。在一个实施例中,化身参数可基于面部检测、头部移动和动画命令而生成。在该实施例中,所得的动画包括基于面部检测的被动动画和基于动画命令由交互动画修改的头部移动。从而,化身动画可包括基于例如面部检测和头部移动的被动动画,和基于用户输入的交互动画。然后可传送动画命令和化身参数中的至少一个。在一个实施例中,接收远程动画命令和远程化身参数中的至少一个。该远程动画命令可促使设备基于远程动画命令确定化身参数以便使显示的化身动画地呈现。远程化身参数可促使设备基于接收的远程化身参数使显示的化身动画地呈现。音频通信可伴随着化身动画。在建立通信后,麦克风可配置成捕捉音频输入(声音)(例如用户语音),并且将捕捉的声音转换成对应的音频信号(例如,用户语音信号)。在实施例中,用户语音信号可变换成化身语音信号,其然后可被编码和传送。接收的化身语音信号然后可由扬声器转换回声音(例如,化身语音)。化身语音从而可基于用户语音并且可保存内容但可更改与捕捉的语音关联的光谱数据。例如,变换包括但不限于,移调、时间延展和/或转换重放速率。用户输入设备(例如,触敏显示器和/或拍摄装置)可配置成捕捉用户输入,其配置成基于至少一个其他设备上的用户输入使化身动画地呈现。用户驱动的动画(基于动画命令)可以是基于面部表情和/或头部移动的动画的补充。动画命令可包括但不限于,化身的显示取向中的改变、面部特征失真、改变特征来表达情感,等。与基于面部检测/跟踪的动画相似或作为对其的补充,动画命令从而可修改化身动画。动画命令可导致有时间限制的动画并且可基于来自远程用户的输入,其中所得的动画在本地用户的显示化身上图示。从而,有限带宽视频通信系统可使用化身来实现。音频可被变换并且视频可基于检测的用户输入和识别的动画命令而动画地呈现来增强用户对化身通信的体验。此外,匿名可使用化身而得到保持,其包括如本文描述的音频变换。图1A图示与本公开的各种实施例一致的设备到设备系统100。系统100一般可包括经由网络122而通信的设备102和112。设备102包括至少拍摄装置104、麦克风106、扬声器107和触敏显示器108。设备112包括至少拍摄装置114、麦克风116、扬声器117和触摸显示器118。网络122包括至少服务器124。设备102和112可包括能够有线和/或无线通信的各种硬件平台。例如,设备102和112可包括但不限于,视频会议系统、台式计算机、便携式计算机、平板计算机、智能电话(例如,基于的电话、基于的电话、基于的电话,等)、蜂窝手持机等。拍摄装置104和114包括用于捕捉代表环境(其包括一个或多个人)的数字图像的任何设备,并且可具有足够的分辨率用于面部分析和/或手势识别,如本文描述的。例如,拍摄装置104和114可包括静态拍摄装置(例如,配置成捕捉静态照片的拍摄装置)或视频拍摄装置(例如,配置成捕捉移动图像(其由多个帧组成)的拍摄装置)。拍摄装置104和114可配置成使用可见光谱中的光或利用电磁波谱(不限于红外光谱、紫外光谱)的其他部分来操作。在一个实施例中,拍摄装置104和114可配置成检测从拍摄装置的深度,即到物体和/或该物体上的点的距离。拍摄装置104和114可分别并入设备102和112内,或可以是配置成经由有线或无线通信与设备102和112通信的单独设备。拍摄装置104和114的特定示例可包括如可与计算机、视频监视器等关联的有线(例如,通用串行总线(USB)、以太网、火线等)或无线(例如,WiFi、Bluetooth,等)web拍摄装置、深度拍摄装置、移动设备拍摄装置(例如在例如之前论述的示例设备中集成的手机或智能电话拍摄装置)、集成便携式计算机拍摄装置、集成平板计算机拍摄装置(例如,Galaxy及类似物),等。设备102和112可进一步包括麦克风106和116以及扬声器107和117。麦克风106和116包括配置成感测(即,捕捉)声音并且将感测的声音转换成对应音频信号的本文档来自技高网...
使用交互化身的通信

【技术保护点】
一个或多个非暂时计算机可读存储设备,具有存储在其上的指令,所述指令在由第一计算设备的至少一个处理器执行时促成操作,其包括:启用第一化身的选择;识别所述第一计算设备的用户的一个或多个面部特征;生成待传送到第二计算设备的信息,用于促使第一选择的化身在所述第二计算设备的显示器上动画地出现,其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及基于用户输入命令启用第一选择的化身的动画,其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。

【技术特征摘要】
1.一个或多个非暂时计算机可读存储设备,具有存储在其上的指令,所述指令在由第一计算设备的至少一个处理器执行时促成操作,其包括:启用第一化身的选择;识别所述第一计算设备的用户的一个或多个面部特征;生成待传送到第二计算设备的信息,用于促使第一选择的化身在所述第二计算设备的显示器上动画地出现,其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及基于用户输入命令启用第一选择的化身的动画,其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。2.如权利要求1所述的一个或多个存储设备,其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个视频图像来识别。3.如权利要求1所述的一个或多个存储设备,其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作,其包括:处理所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。4.如权利要求1所述的一个或多个存储设备,其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作,其包括:启用第二化身的选择;生成待传送到所述第二计算设备的第二信息,用于促使第二选择的化身在所述第二计算设备的显示器上动画地出现,其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及促使在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第二选择的化身的出现。5.如权利要求1所述的一个或多个存储设备,其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作,其包括:将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息,其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。6.如权利要求5所述的一个或多个存储设备,其中所述一个或多个语音效果包括移调语音效果。7.如权利要求1所述的一个或多个存储设备,其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作,其包括:促使在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第一选择的化身的出现。8.一种第一计算设备,其包括:存储器电路,用于存储指令和数据;显示设备,用于显示化身;以及处理器电路,用于处理一个或多个指令来执行操作,其包括:启用第一化身的选择;识别所述第一计算设备的用户的一个或多个面部特征;生成待传送到第二计算设备的信息,用于促使第一选择的化身在所述第一计算设备的显示器上动画地出现,其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及基于用户输入命令启用第一选择的化身的动画,其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。9.如权利要求8所述的第一计算设备,其进一步包括:视频拍摄装置设备,用于捕捉所述第一计算设备的用户的一个或多个视频图像,其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个捕捉的视频图像来识别。10.如权利要求8所述的第一计算设备,其进一步包括音频捕捉设备,用于捕捉所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。11.如权利要求8所述的第一计算设备,其中所述处理器用于处理一个或多个指令来执行额外操作,其包括:启用第二化身的选择;生成待传送到所述第二计算设备的第二信息,用于促使第二选择的化身在所述第一计算设备的显示器上动画地出现,其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及促使在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第二选择的化身的出现。12.如权利要求8所述的第一计算设备,其中所述处理器用于处理一个或多个指令来执行额外操作,其包括:将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息,其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。13.如权利要求12所述的第一计算设备,其中所述一个或多个语音效果包括移调语音效果。14.如权利要求8所述的第一计算设备,其中所述处理器用于处理一个或多个指令来执行额外操作,其包括:促使在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第一选择的化身的出现。15.一种方法,其包括:由第一计算设备启用第一化身的选择;由所述第一计算设备识别所述第一计算设备的用户的一个或多个面部特征;由所述第一计算设备生成待传送到第二计算设备的信息,用于促使第一选择的化身在所述第二计算设备的显示器上动画地出现,其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及由所述第一计算设备基于用户输入命令启用第一选择的化身的动画,其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。16.如权利要求15所述的方法,其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个视频图像来识别。17.如权利要求15所述的方法,其进一步包括:由所述第一计算设备处理所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。18.如权利要求15所述的方法,其进一步包括:由所述第一计算设备启用第二化身的选择;由所述第一计算设备生成待传送到所述第二计算设备的第二信息,用于促使第二选择的化身在所述第二计算设备的显示器上动画地出现,其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及由所述第一计算设备在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第二选择的化身的出现。19.如权利要求15所述的方法,其进一步包括:由所述第一计算设备将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息,其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。20.如权利要求19所述的方法,其中所述一个或多个语音效果包括移调语音效果。21.如权利要求15所述的方法,其进一步包括:由所述第一计算设备在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第一选择的化身的出现。22.一种第一计算设备,其包括:化身选择模块,用于启用第一化身的选择;特征提取模块,用于识别所述第一计算设备的用户的一个或多个面部特征;以及化身控制模块,用于:生成待传送到第二计算设备的信息,用于促使第一选择的化身在所述第一计算设备的显示器上动画地出现,其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征;以及基于用户输入命令启用第一选择的化身的动画,其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。23.如权利要求22所述的第一计算设备,其进一步包括面部检测和跟踪模块,用于检测和跟踪所述第一计算设备的用户的面部。24.如权利要求22所述的第一计算设备,其进一步包括音频捕捉设备,用于捕捉所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。25.如权利要求22所述的第一计算设备,其中所述化身选择模块进一步用于启用第二化身的选择。26.如权利要求25所述的第一计算设备,其中所述化身控制模块进一步用于生成待传送到所述第二计算设备的第二信息,用于促使第二选择的化身在所述第一计算设备的显示器上动画地出现,其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征。27.如权利要求26所述的第一计算设备,其进一步包括显示模块,用于在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第二选择的化身的出现。28.如权利要求22所述的第一计算设备,其进一步包括音频变换模块,用于将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息,其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。29.如权利要求28所述的第一计算设备,其中所述一个或多个语音效果包括移调语音效果。30.如权利要求22所述的第一计算设备,其进一步包括显示模块,用于在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第一选择的化身的出现。31.如权利要求22所述的第一计算设备,其进一步包括音频捕捉设备,用于捕捉所述第一计算设备的用户的一个或多个视频图像,其中所述一个或多个面部特征待从所述计算设备的用户的一个或多个捕捉的视频图像来识别。32.一个或多个非暂时计...

【专利技术属性】
技术研发人员:童晓峰李文龙杜杨洲W胡Y张
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1