一种语音生成和表情驱动方法、客户端及服务端技术

技术编号:36847142 阅读:59 留言:0更新日期:2023-03-15 16:39
本申请涉及数据处理领域,尤其是涉及一种语音生成和表情驱动方法、客户端及服务端,该方法包括获取音频数据;确定音频数据所对应的虚拟形象的面部表情数据,虚拟形象的面部表情数据包含多个点位;向服务端发送音频数据以及音频数据所对应的虚拟形象的面部表情数据,以使得服务端将面部表情数据的各个点位与虚拟形象的面部骨骼中各个点位进行绑定;基于服务端的驱动指令,在播放音频数据的同时输出虚拟形象的面部表情。本申请具有提升用户体验感的效果。效果。效果。

【技术实现步骤摘要】
一种语音生成和表情驱动方法、客户端及服务端


[0001]本申请涉及数据处理领域,尤其是涉及一种语音生成和表情驱动方法、客户端及服务端。

技术介绍

[0002]随着科技的发展,计算机语音的合成技术越来越成熟,经过计算机技术合成的语音几乎拥有与真人发声一样的语速、音调和发音,通过语音播报几乎可以媲美真人发声,但是由于没有画面与合成语音相结合,只通过合成的语音进行信息传播,可能会导致用户的体验感较低。
[0003]但是相关技术中,将合成的语音与画面相结合时只关注时长是否匹配,导致画面中人物与合成语音的匹配度不高,例如,10秒的画面与10秒的合成语音相对应,但画面中的人物表情单一,嘴部动作只有开和合,因此可能会降低用户的体验感。

技术实现思路

[0004]为了解决以上至少一项技术问题,本申请实施例提供了一种语音生成和表情驱动方法、客户端及服务端。
[0005]第一方面,本申请提供一种语音生成和表情驱动方法,采用如下的技术方案:一种语音生成和表情驱动方法,由客户端执行,包括:获取音频数据;确定所述音频数据所对应的虚拟形象的面部表情数据,所述虚拟形象的面部表情数据包含多个点位;向服务端发送所述音频数据以及所述音频数据所对应的虚拟形象的面部表情数据,以使得所述服务端将所述面部表情数据的各个点位与所述虚拟形象的面部骨骼中各个点位进行绑定;基于所述服务端的驱动指令,在播放所述音频数据的同时输出所述虚拟形象的面部表情。
[0006]通过采用上述技术方案,在客户端根据音频数据确定出表情数据后,将音频数据和表情数据发送至服务端,以使服务端将表情数据的各个点位与虚拟形象的面部骨骼中的各个点位进行绑定,再经服务端进行驱动后,使客户端可以同时播放音频数据以及虚拟形象所对应的面部表情,由于表情数据是通过音频数据确定的,因此播放的音频数据和虚拟形象的面部表情匹配度较高,也就是说,在播放音频数据时,虚拟形象可以同步显示对应的表情,从而可以便于丰富虚拟形象的面部表情,也便于提升虚拟形象的面部表情播放的流畅度,进而有助于提升用户的体验感。
[0007]在一种可能实现的方式中,所述获取音频数据,包括:获取文本信息,并对所述文本信息进行切句处理,得到语句集合;对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性
信息;基于所述每个语句对应的第一情感信息和/或第一声音属性信息,生成所述文本信息所对应的音频数据,得到所述音频数据。
[0008]通过采用上述技术方案,在将文本信息转换为音频数据时,解析文本信息中每个语句的情感和声音属性信息,进一步地,根据每个语句的情感和声音特点生成音频数据,从而可以使得生成的声音数据,更为符合真实的情境,有助于提升音频数据的真实性,以使音频能够媲美真人发声,进一步地可以提升用户体验。
[0009]在一种可能实现的方式中,所述对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息,之前还包括:获取虚拟形象信息和/或用户输入的第二情感信息;其中,所述对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息,包括:基于所述虚拟形象信息和/或用户输入的第二情感信息,对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息。
[0010]通过采用上述技术方案,通过获取虚拟形象信息,和/或,用户输入的第二情感信息,能够在对文本信息中的各个语句进行解析时考虑虚拟形象信息,和/或,用户输入的第二情感信息,以使得到每个语句对应的第一情感信息和/或第一声音属性信息的同时,可以考虑每个语句的情境以及虚拟形象,和/或,用户输入的第二情感信息,从而可以提高对语句进行分析以得到每个语句对应第一情感信息和/或第一声音属性信息的准确性,进而可以进一步地提升用户体验。
[0011]在一种可能实现的方式中,所述确定所述音频数据所对应的虚拟形象的面部表情数据,包括:对所述音频数据进行分句处理,并获取每个音频语句对应的第三情感信息和/或第二声音属性信息;基于所述每个音频语句对应的第三情感信息和/或第二声音属性信息,确定每个音频语句对应的虚拟形象的面部表情数据。
[0012]通过采用上述技术方案,确定音频数据中每一音频语句对应的面部表情数据时,可通过每一音频语句的第三情感信息和/或第二声音属性信息,丰富每一文字的读音对应的面部表情,而不是仅通过文字的读音确定虚拟形象的面部表情,而是进一步地考虑每个音频语句对应的第三情感信息和/或第二声音属性信息,以确定出每个音频语句对应的虚拟形象的面部表情数据,从而虚拟形象在读取每个音频语句虚拟形象时的面部表情数据,可以同时符合每个音频语句对应的第三情感信息和/或第二声音属性信息,进而可以使得虚拟形象的面部表情数据更为准确,进一步地可以提升用户体验。
[0013]在一种可能实现的方式中,所述确定所述音频数据所对应的虚拟形象的面部表情数据,包括:确定所述音频数据所对应的嘴部运动信息;基于所述音频数据所对应的嘴部运动信息,确定面部其他部位的运动信息;根据所述音频数据所对应的嘴部运动信息以及所述面部其他部位的运动信息,确定面部表情数据的各个点位,以得到所述音频数据所对应的虚拟形象的面部表情数据。
[0014]通过采用上述技术方案,由于嘴部与其他部位的位置固定不变,当虚拟形象的嘴部发生运动时,其他部位也会随着嘴部的运动而发生变化,进而确定出嘴部的运动信息后,其他部位的运动信息也可进行确定,通过嘴部与其他部位之间的位置确定虚拟形象的面部表情,便于提高虚拟形象面部中各个部位发生位移变化时的流畅度,也即便于提高确定面部表情数据时的准确性。
[0015]在一种可能实现的方式中,所述向服务端发送所述音频数据以及所述音频数据所对应的虚拟形象的面部表情数据,之前还包括:将所述音频数据以及所述音频数据对应的虚拟形象的面部表情数据,通过特定的网络协议,生成数据流;其中,所述向服务端发送所述音频数据以及所述音频数据所对应的虚拟形象的面部表情数据,包括:向所述服务端发送所述数据流。
[0016]通过采用上述技术方案,通过模拟特定的网络协议将音频数据和面部表情数据生成数据流,并将数据流进行传输至服务端,以实现客户端与服务端自由数据传输,以使得服务端可以驱动虚拟形象的面部表情。
[0017]第二方面,本申请还提供另一种语音生成和表情驱动方法,采用如下的技术方案:一种语音生成和表情驱动方法,由服务端执行,包括:获取所述音频数据以及所述音频数据所对应的虚拟形象的面部表情数据,所述虚拟形象的面部表情数据包含多个点位;将面部表情数据的各个点位与所述虚拟形象的面部骨骼中各个点位进行绑定;基于绑定关系,控制所述客户端在播放音频数据的同时,驱动所述虚拟形象的面部表情。
[0018]通过采用上述技术方案,将表情数据与虚拟形象的面部骨骼进行绑定,再经驱动后,使客户端可以同时播放音频数据以及虚拟形象所对应的面部表情,由于表情数据是通过音频数据确定的,因此播放的音频数据和虚拟形象的面部表情匹配度较高,并且,通过将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成和表情驱动方法,其特征在于,由客户端执行,包括:获取音频数据;确定所述音频数据所对应的虚拟形象的面部表情数据,所述虚拟形象的面部表情数据包含多个点位;向服务端发送所述音频数据以及所述音频数据所对应的虚拟形象的面部表情数据,以使得所述服务端将所述面部表情数据的各个点位与所述虚拟形象的面部骨骼中各个点位进行绑定;基于所述服务端的驱动指令,在播放所述音频数据的同时输出所述虚拟形象的面部表情。2.根据权利要求1所述的一种语音生成和表情驱动方法,其特征在于,所述获取音频数据,包括:获取文本信息,并对所述文本信息进行切句处理,得到语句集合;对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息;基于所述每个语句对应的第一情感信息和/或第一声音属性信息,生成所述文本信息所对应的音频数据,得到所述音频数据。3.根据权利要求2所述的一种语音生成和表情驱动方法,其特征在于,所述对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息,之前还包括:获取虚拟形象信息和/或用户输入的第二情感信息;其中,所述对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息,包括:基于所述虚拟形象信息和/或用户输入的第二情感信息,对每个语句进行解析,以得到每个语句对应的第一情感信息和/或第一声音属性信息。4.根据权利要求1所述的一种语音生成和表情驱动方法,其特征在于,所述确定所述音频数据所对应的虚拟形象的面部表情数据,包括:对所述音频数据进行分句处理,并获取每个音频语句对应的第三情感信息和/或第二声音属性信息;基于所述每个音频语句对应的第三情感信息和/或第二声音属性信息,确定每个音频语句对应的虚拟形象的面部表情数据。5.根据权利要求1

4任一项所述的一种语音生成和表情驱动方法,其特征在于,所述确定所述音频数据所对应的虚拟形象的面部表情数据,包括:确定所述音频数据所对应的嘴部运动信息;基于所述音频数据所对应的嘴部运动信息,确定面部其他部位的运动信息;根据所述音频数据所对应的嘴部运动信息以及所述面部其他部位的运动信息,确定面部表情数据的各个点位,以得到所述音频数据所对应的虚拟形象的面部表情数据。6.根据权利要求1所述的一种语音生成和表情驱动方法,其特征在于,所述向服务端发送所述音频数据以及所述音频数据所对应的虚拟形象的面部表情数据,之前还包括:将所述音频数据以及所述音频数据对应的虚拟形象的面部表情数...

【专利技术属性】
技术研发人员:邵岩郑航费元华郭建军
申请(专利权)人:北京蔚领时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1