虚拟角色的形象输出方法、装置、设备以及存储介质制造方法及图纸

技术编号:32483022 阅读:8 留言:0更新日期:2022-03-02 09:47
本申请实施例涉及人工智能领域,公开了一种虚拟角色的形象输出方法、装置、设备以及存储介质。其中,方法包括:当接收目标对象的互动请求时,根据互动请求输出预设的互动响应,并采集目标对象的音频数据及视频数据;根据音频数据的提取目标对象的第一语音数据;根据视频数据获取目标对象对应的第二语音数据;根据第一语音数据和第二语音数据确定目标对象的目标语音数据;根据目标语音获取目标文本信息;利用语义分析模型对目标文本信息进行语义分类处理,得到分类结果;根据分类结果获取目标回应方案,并生成回应语音信息及虚拟人物的面部图像控制信息;输出回应语音信息,并根据面部图像控制信息控制虚拟人物面部状态显示。部图像控制信息控制虚拟人物面部状态显示。部图像控制信息控制虚拟人物面部状态显示。

【技术实现步骤摘要】
虚拟角色的形象输出方法、装置、设备以及存储介质


[0001]本申请涉及语音识别
,尤其涉及一种虚拟角色的形象输出方法、装置、设备以及存储介质。

技术介绍

[0002]随着现今,随着互联网技术和多媒体技术的发展,人们对于电子产品的依赖性也越来越强,目前出现了很多例虚拟人物互动的应用,通过与虚拟人物进行互动能得到一些语音或动作方面的反馈,但是由于目前的虚拟技术大多是通过三维建模后进行后期处理得到的,在进行互动时虚拟人物的表情表现得不自然,用户进行互动时体验感不好,同时,目前的交互方式多为通过预设的人机交互界面来进行交互,减少了互动时体验的乐趣。

技术实现思路

[0003]本申请实施例的主要目的在于提供一种虚拟角色的形象输出方法、装置、设备以及存储介质,旨在实现虚拟人物形象的精准输出,以提升终端设备与用户的互动体验。
[0004]第一方面,本申请实施例提供一种虚拟角色的形象输出方法,应用于终端设备,包括:
[0005]当接收目标对象的互动请求时,根据所述互动请求输出预设的互动响应,并采集所述目标对象的音频数据及视频数据;
[0006]从所述音频数据中提取所述目标对象的第一语音数据,以及从所述视频数据中提取所述目标对象的多张口型变化图像,并根据所述口型变化图像得到所述目标对象的第二语音数据;
[0007]根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据,并将所述目标语音数据输入至预设的语音识别模型,得到目标文本信息;
[0008]利用语义分析模型对所述目标文本信息进行语义分类处理,得到分类结果,并根据所述分类结果从回应方案数据库中获取目标回应方案,以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息;
[0009]输出所述回应语音信息,并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。
[0010]第二方面,本申请实施例还提供一种虚拟角色的形象输出装置,包括:
[0011]数据采集模块,用于当接收目标对象的互动请求时,根据所述互动请求输出预设的互动响应,并采集所述目标对象的音频数据及视频数据;
[0012]语音提取模块,用于从所述音频数据中提取所述目标对象的第一语音数据,以及从所述视频数据中提取所述目标对象的多张口型变化图像,并根据所述口型变化图像得到所述目标对象的第二语音数据;
[0013]文本转换模块,用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据,并将所述目标语音数据输入至预设的语音识别模型,得到目标文本信
息;
[0014]方案选择模块,用于利用语义分析模型对所述目标文本信息进行语义分类处理,得到分类结果,并根据所述分类结果从回应方案数据库中获取目标回应方案,以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息;
[0015]信息输出模块,用于输出所述回应语音信息,并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。
[0016]第三方面,本申请实施例还提供一种终端设备,终端设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线,其中计算机程序被处理器执行时,实现如本申请说明书提供的任一项虚拟角色的形象输出方法步骤。
[0017]第四方面,本申请实施例还提供一种存储介质,用于计算机可读存储,其特征在于,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如本申请说明书提供的任一项虚拟角色的形象输出方法步骤。
[0018]本申请实施例提供一种虚拟角色的形象输出方法、装置、设备及存储介质,其中,该方法包括当接收目标对象的互动请求时,根据所述互动请求输出预设的互动响应,并采集所述目标对象的音频数据及视频数据;从所述音频数据中提取所述目标对象的第一语音数据,以及从所述视频数据中提取所述目标对象的多张口型变化图像,并根据所述口型变化图像得到所述目标对象的第二语音数据;根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据,并将所述目标语音数据输入至预设的语音识别模型,得到目标文本信息;利用语义分析模型对所述目标文本信息进行语义分类处理,得到分类结果,并根据所述分类结果从回应方案数据库中获取目标回应方案,以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息;输出所述回应语音信息,并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。本申请所提供的虚拟角色的形象输出方法通过在目标对象与终端设备交互时,获取目标对象的与终端设备交互的音频数据和视频数据,利用音频数据获取第一语音数据,利用视频数据获取用户的口型变化图像,并根据口型变化图像识别到用户的第二语数据,利用第二语音数据和第一语音数据获取到目标语音数据,从而弥补通过所获取的语音数据中音频丢失,或者噪音干扰等问题,导致获取的音频信息不完整的问题,同时,利用目标语音数据获取对应的回应方案,并根据回应方案获取到对应的回应语音及与回应语音匹配的面部图像控制信息,输出回应语音信息并根据面部图像控制信息控制虚拟人物面部状态显示,从而使得虚拟人物输出的面部表情与回应语音适配,实现虚拟人物形象的精准输出,提高互动时体验的乐趣。
附图说明
[0019]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请实施例提供的一种虚拟角色的形象输出方法的流程示意图;
[0021]图2为本申请实施例提供的一种虚拟角色的形象输出装置的模块结构示意图;
[0022]图3为本申请实施例提供的一种终端设备的结构示意框图。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0025]应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0026]随着现今,随着互联网技术和多媒体技术的发展,人们对于电子产品的依赖性也越来越强,目前出现了很多例虚拟人物互动的应用,通过与虚拟人物进行互动能得到一些语音或动作方面的反馈,但是由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟角色的形象输出方法,应用于终端设备,其特征在于,包括:当接收目标对象的互动请求时,根据所述互动请求输出预设的互动响应,并采集所述目标对象的音频数据及视频数据;从所述音频数据中提取所述目标对象的第一语音数据,以及从所述视频数据中提取所述目标对象的多张口型变化图像,并根据所述口型变化图像得到所述目标对象的第二语音数据;根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据,并将所述目标语音数据输入至预设的语音识别模型,得到目标文本信息;利用语义分析模型对所述目标文本信息进行语义分类处理,得到分类结果,并根据所述分类结果从回应方案数据库中获取目标回应方案,以及根据所述目标回应方案生成回应语音信息及虚拟人物的面部图像控制信息;输出所述回应语音信息,并根据所述面部图像控制信息控制所述虚拟人物面部状态显示。2.根据权利要求1所述的方法,其特征在于,所述互动请求为语音互动请求,所述根据所述互动请求输出预设的互动响应,并采集所述目标对象的音频数据及视频数据,包括:根据所述语音互动请求输出预设的互动响应,并确定发送所述语音互动请求的声源方向;将所述声源方向确认为所述终端设备件信息采集的目标方位,并判断所述目标方位是否存在目标对象;当所述目标方位存在所述目标对象时,采集所述目标对象的音频数据及视频数据。3.根据权利要求1所述的方法,其特征在于,所述从所述音频数据中提取所述目标对象的第一语音数据,包括:将音频数据输入到语音提取模型的特征提取网络进行特征提取,获取所述音频数据对应的特征向量,所述音频数据包括所述目标对象的第一语音数据和环境的噪声数据;将预设向量和所述特征向量输入到所述语音提取模型的语音提取网络,以从所述音频数据中提取出所述目标对象的第一语音数据,其中,所述语音提取模型通过用户语音训练获得,所述预设向量根据所述噪声数据获得,所述语音提取网络以所述预设向量为参考,调整所述第一语音数据和所述噪声数据在所述音频数据中所占的比例,以获取所述目标对象的第一语音数据。4.根据权利要求1所述的方法,其特征在于,所述从所述视频数据中提取所述目标对象的多张口型变化图像,并根据所述口型变化图像得到所述目标对象的第二语音数据,包括:提取所述视频数据的每一帧视频图像中目标对象的口型图像,并根据所述视频数据的时间轴赋予所述口型图像对应的时间戳;根据所述时间戳将所述口型图像输入至预设的唇语识别模型,以获取所述目标对象的第二语音数据。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音数...

【专利技术属性】
技术研发人员:刘钊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1