用于处理信息的方法和装置制造方法及图纸

技术编号:20822501 阅读:20 留言:0更新日期:2019-04-10 06:38
本公开实施例公开了用于处理信息的方法和装置。该方法的一具体实施方式包括:基于用户发送的语音信息,生成应答语音信息;根据上述应答语音信息生成音素序列;根据上述音素序列生成口型变化信息,其中,上述口型变化信息用于在上述应答语音信息播放时,控制所显示的三维立体人像的口型变化;播放上述应答语音信息,以及根据上述口型变化信息控制上述三维立体人像的口型变化。该实施方式实现了播放应答语音信息的同时,基于所播放的应答语音信息控制三维立体人像的口型变化,提高了三维立体人像的拟人效果。

【技术实现步骤摘要】
用于处理信息的方法和装置
本公开实施例涉及计算机
,具体涉及用于处理信息的方法和装置。
技术介绍
现阶段,智能服务已经被应用到了各个领域。例如,在智能客服的应用场景下,用户可以通过文字或语音来与客服机器人进行信息交互。而虚拟人像技术通过渲染三维立体人像,可以为智能服务提供更为便捷的使用体验。举例来说,通过使用语音识别、语音合成等技术,能够为三维立体人像赋予对话与聆听的能力,从而提升了用户与三维立体人像现场交互的拟人度。现有的虚拟人像技术虽然已经具有很高的拟人效果,但大多仍然停留在脚本化的应用场景,例如三维游戏、CG(computergraphics,计算机动画)电影等,只能做到按照指示的内容对已经设计好的动作进行响应。
技术实现思路
本公开实施例提出了用于处理信息的方法和装置。第一方面,本公开实施例提供了一种用于处理信息的方法,该方法包括:基于用户发送的语音信息,生成应答语音信息;根据上述应答语音信息生成音素序列;根据上述音素序列生成口型变化信息,其中,上述口型变化信息用于在上述应答语音信息播放时,控制所显示的三维立体人像的口型变化;播放上述应答语音信息,以及根据上述口型变化信息控制上述三维立体人像的口型变化。在一些实施例中,上述方法还包括:获取上述用户发送上述语音信息时所采集的上述用户的视频;对于上述视频中的视频帧,对该视频帧中的人脸图像进行面部表情识别,得到表情识别结果;播放上述视频,以及在所播放的当前视频帧中呈现当前视频帧中的人脸图像对应的表情识别结果。在一些实施例中,在播放上述视频之前,上述方法还包括:接收上述用户发送的人脸图像装饰请求,其中,上述人脸图像装饰请求包括装饰用配图选取信息;根据上述装饰用配图选取信息从预设的装饰用配图集合中选取目标装饰用配图;将上述目标装饰用配图添加到上述视频的视频帧中。在一些实施例中,上述将上述目标装饰用配图添加到上述视频的视频帧中,包括:间隔第一预设帧数从上述视频中选取视频帧,得到至少一个视频帧;对于上述至少一个视频帧中的视频帧,对该视频帧中的人脸图像进行人脸关键点检测,得到人脸关键点的位置;根据该视频帧中人脸关键点的位置,将上述目标装饰用配图添加到该视频帧以及该视频帧之后的第二预设帧数的视频帧中。在一些实施例中,上述方法还包括:根据上述音素序列生成手势变化信息,其中,上述手势变化信息用于在上述应答语音信息播放时,控制所显示的三维立体人像的手势变化;以及上述播放上述应答语音信息,以及根据上述口型变化信息控制上述三维立体人像的口型变化,包括:播放上述应答语音信息,以及根据上述口型变化信息和上述手势变化信息控制上述三维立体人像的口型变化和手势变化。在一些实施例中,上述方法还包括:基于上述语音信息生成待显示信息,以及对上述待显示信息进行显示。在一些实施例中,上述方法还包括:根据上述语音信息确定目标业务类别;根据上述目标业务类别确定目标表情信息,以及根据上述目标表情信息控制上述三维立体人像的表情。第二方面,本公开实施例提供了一种用于处理信息的装置,上述装置包括:第一生成单元,被配置成基于用户发送的语音信息,生成应答语音信息;第二生成单元,被配置成根据上述应答语音信息生成音素序列;第三生成单元,被配置成根据上述音素序列生成口型变化信息,其中,上述口型变化信息用于在上述应答语音信息播放时,控制所显示的三维立体人像的口型变化;播放单元,被配置成播放上述应答语音信息,以及根据上述口型变化信息控制上述三维立体人像的口型变化。在一些实施例中,上述装置还包括:获取单元,被配置成获取上述用户发送上述语音信息时所采集的上述用户的视频;识别单元,被配置成对于上述视频中的视频帧,对该视频帧中的人脸图像进行面部表情识别,得到表情识别结果;呈现单元,被配置成播放上述视频,以及在所播放的当前视频帧中呈现当前视频帧中的人脸图像对应的表情识别结果。在一些实施例中,上述装置还包括:接收单元,被配置成接收上述用户发送的人脸图像装饰请求,其中,上述人脸图像装饰请求包括装饰用配图选取信息;选取单元,被配置成根据上述装饰用配图选取信息从预设的装饰用配图集合中选取目标装饰用配图;添加单元,被配置成将上述目标装饰用配图添加到上述视频的视频帧中。在一些实施例中,上述添加单元进一步被配置成:间隔第一预设帧数从上述视频中选取视频帧,得到至少一个视频帧;对于上述至少一个视频帧中的视频帧,对该视频帧中的人脸图像进行人脸关键点检测,得到人脸关键点的位置;根据该视频帧中人脸关键点的位置,将上述目标装饰用配图添加到该视频帧以及该视频帧之后的第二预设帧数的视频帧中。在一些实施例中,上述装置还包括:第四生成单元,被配置成根据上述音素序列生成手势变化信息,其中,上述手势变化信息用于在上述应答语音信息播放时,控制所显示的三维立体人像的手势变化;以及上述播放单元进一步被配置成:播放上述应答语音信息,以及根据上述口型变化信息和上述手势变化信息控制上述三维立体人像的口型变化和手势变化。在一些实施例中,上述装置还包括:第五生成单元,被配置成基于上述语音信息生成待显示信息,以及对上述待显示信息进行显示。在一些实施例中,上述装置还包括:确定单元,被配置成根据上述语音信息确定目标业务类别;控制单元,被配置成根据上述目标业务类别确定目标表情信息,以及根据上述目标表情信息控制上述三维立体人像的表情。第三方面,本公开实施例提供了一种终端,该终端包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开实施例提供的用于处理信息的方法和装置,首先基于用户发送的语音信息生成应答语音信息,之后根据应答语音信息生成音素序列,然后根据音素序列生成口型变化信息,最后播放应答语音信息并根据口型变化信息控制三维立体人像的口型变化,从而实现了播放应答语音信息的同时,基于所播放的应答语音信息控制三维立体人像的口型变化,提高了三维立体人像的拟人效果,提升了人机交互过程中的用户体验。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于处理信息的方法的一个实施例的流程图;图3是根据本公开的用于处理信息的方法的一个应用场景的示意图;图4是根据本公开的用于处理信息的方法的又一个实施例的流程图;图5是根据本公开的用于处理信息的装置的一个实施例的结构示意图;图6是适于用来实现本公开实施例的终端设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开实施例的用于本文档来自技高网...

【技术保护点】
1.一种用于处理信息的方法,包括:基于用户发送的语音信息,生成应答语音信息;根据所述应答语音信息生成音素序列;根据所述音素序列生成口型变化信息,其中,所述口型变化信息用于在所述应答语音信息播放时,控制所显示的三维立体人像的口型变化;播放所述应答语音信息,以及根据所述口型变化信息控制所述三维立体人像的口型变化。

【技术特征摘要】
1.一种用于处理信息的方法,包括:基于用户发送的语音信息,生成应答语音信息;根据所述应答语音信息生成音素序列;根据所述音素序列生成口型变化信息,其中,所述口型变化信息用于在所述应答语音信息播放时,控制所显示的三维立体人像的口型变化;播放所述应答语音信息,以及根据所述口型变化信息控制所述三维立体人像的口型变化。2.根据权利要求1所述的方法,其中,所述方法还包括:获取所述用户发送所述语音信息时所采集的所述用户的视频;对于所述视频中的视频帧,对该视频帧中的人脸图像进行面部表情识别,得到表情识别结果;播放所述视频,以及在所播放的当前视频帧中呈现当前视频帧中的人脸图像对应的表情识别结果。3.根据权利要求2所述的方法,其中,在播放所述视频之前,所述方法还包括:接收所述用户发送的人脸图像装饰请求,其中,所述人脸图像装饰请求包括装饰用配图选取信息;根据所述装饰用配图选取信息从预设的装饰用配图集合中选取目标装饰用配图;将所述目标装饰用配图添加到所述视频的视频帧中。4.根据权利要求3所述的方法,其中,所述将所述目标装饰用配图添加到所述视频的视频帧中,包括:间隔第一预设帧数从所述视频中选取视频帧,得到至少一个视频帧;对于所述至少一个视频帧中的视频帧,对该视频帧中的人脸图像进行人脸关键点检测,得到人脸关键点的位置;根据该视频帧中人脸关键点的位置,将所述目标装饰用配图添加到该视频帧以及该视频帧之后的第二预设帧数的视频帧中。5.根据权利要求1所述的方法,其中,所述方法还包括:根据所述音素序列生成手势变化信息,其中,所述手势变化信息用于在所述应答语音信息播放时,控制所显示的三维立体人像的手势变化;以及所述播放所述应答语音信息,以及根据所述口型变化信息控制所述三维立体人像的口型变化,包括:播放所述应答语音信息,以及根据所述口型变化信息和所述手势变化信息控制所述三维立体人像的口型变化和手势变化。6.根据权利要求1所述的方法,其中,所述方法还包括:基于所述语音信息生成待显示信息,以及对所述待显示信息进行显示。7.根据权利要求1所述的方法,其中,所述方法还包括:根据所述语音信息确定目标业务类别;根据所述目标业务类别确定目标表情信息,以及根据所述目标表情信息控制所述三维立体人像的表情。8.一种用于处理信息的装置,包括:第一生成单元,被配置成基于用户发送的语音信息,生成应答语音信息;第二生成单元,被配置成根据所述应答语音信息生成音素序列;第三生成单元,被配置成根据所述音素序列生成口型变化信息,其中,所述口型变化信息用于在...

【专利技术属性】
技术研发人员:刘骁吕复强王建祥纪建超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1