【技术实现步骤摘要】
本专利技术涉及计算机的,尤其是涉及一种驱动数字人语音问答和做动作的方法、装置和电子设备。
技术介绍
1、当前,市场上存在一些语音问答系统和数字人动作驱动技术。这些系统通过服务端处理语音和问答,同时生成数字人的动作视频。然而,这些系统存在一定的复杂性和高配置依赖,尤其是在大规模应用时需要大量的服务器资源来支持高负载的语音问答和动作渲染。
2、传统的驱动数字人语音问答和做动作的技术资源消耗大,需要高配置的服务器资源(cpu和gpu资源)来处理语音问答和数字人动作,导致系统的运行成本和费用较高;另外,数字人的动作反馈滞后,比如,在某些低配置的gpu和cpu系统中,数字人的动作生产可能存在一定的滞后性,因为需要实时驱动服务器生产数字人动作视频,同时播放数字人动作视频也会受到网络传输速度的限制,最终影响客户体验;此外,系统的复杂性高,涉及复杂的集成和配置过程,对开发人员和维护人员提出了一定的技术要求。
3、综上,如何在减少服务器资源占用的基础上实现数字人语音问答和动作视频的流畅性成为目前亟需解决的技术问题。
>技术实本文档来自技高网...
【技术保护点】
1.一种驱动数字人语音问答和做动作的方法,其特征在于,应用于驱动数字人语音问答和做动作的应用程序,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,调用服务端的ASR对所述实时音频源码文件进行文本识别,包括:
3.根据权利要求1所述的方法,其特征在于,所述大模型是通过大模型接口自定义得到的,且所述大模型可通过所述大模型接口实现动态切换。
4.根据权利要求1所述的方法,其特征在于,调用所述服务端的TTS将所述实时应答文本转换为实时应答语音和/或动作标签,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述实时
...【技术特征摘要】
1.一种驱动数字人语音问答和做动作的方法,其特征在于,应用于驱动数字人语音问答和做动作的应用程序,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,调用服务端的asr对所述实时音频源码文件进行文本识别,包括:
3.根据权利要求1所述的方法,其特征在于,所述大模型是通过大模型接口自定义得到的,且所述大模型可通过所述大模型接口实现动态切换。
4.根据权利要求1所述的方法,其特征在于,调用所述服务端的tts将所述实时应答文本转换为实时应答语音和/或动作标签,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述实时应答语音和/或动作标签驱动预先生成的svga动画库中的数字人进行实时应答和/或执行对应动作,包括:
6.根据权利要求1所述的方法,其特征在于,所述实时应答文本包括:已生成文本和所述已生成文本对应的是否结束标...
【专利技术属性】
技术研发人员:王应杰,王宇翔,王涛,李少杰,
申请(专利权)人:航天宏图信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。