驱动数字人语音问答和做动作的方法、装置和电子设备制造方法及图纸

技术编号:41493113 阅读:25 留言:0更新日期:2024-05-30 14:38
本发明专利技术提供了一种驱动数字人语音问答和做动作的方法、装置和电子设备,该方法中,服务器中只有ASR和TTS,资源占用少,大部分工作是由驱动数字人语音问答和做动作的应用程序(即前端)完成的,整个过程中,ASR能够对实时音频源码文件进行文本识别,进而根据得到的实时文本确定完整问题文本,大模型返回实时应答文本、TTS将实时应答文本转换为实时应答语音和/或动作标签,进而驱动预先生成的SVGA动画库中的数字人进行实时应答和/或执行对应动作,流式传输处理(即都是实时得到的),降低了ASR、TTS和数字人应答的延时,速度更快,预先生成的SVGA动画库能够使得数字人在进行应答语音和/或对应动作的播放时,更加流畅,不卡顿,不受网络波动的影响。

【技术实现步骤摘要】

本专利技术涉及计算机的,尤其是涉及一种驱动数字人语音问答和做动作的方法、装置和电子设备


技术介绍

1、当前,市场上存在一些语音问答系统和数字人动作驱动技术。这些系统通过服务端处理语音和问答,同时生成数字人的动作视频。然而,这些系统存在一定的复杂性和高配置依赖,尤其是在大规模应用时需要大量的服务器资源来支持高负载的语音问答和动作渲染。

2、传统的驱动数字人语音问答和做动作的技术资源消耗大,需要高配置的服务器资源(cpu和gpu资源)来处理语音问答和数字人动作,导致系统的运行成本和费用较高;另外,数字人的动作反馈滞后,比如,在某些低配置的gpu和cpu系统中,数字人的动作生产可能存在一定的滞后性,因为需要实时驱动服务器生产数字人动作视频,同时播放数字人动作视频也会受到网络传输速度的限制,最终影响客户体验;此外,系统的复杂性高,涉及复杂的集成和配置过程,对开发人员和维护人员提出了一定的技术要求。

3、综上,如何在减少服务器资源占用的基础上实现数字人语音问答和动作视频的流畅性成为目前亟需解决的技术问题。


>

技术实本文档来自技高网...

【技术保护点】

1.一种驱动数字人语音问答和做动作的方法,其特征在于,应用于驱动数字人语音问答和做动作的应用程序,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,调用服务端的ASR对所述实时音频源码文件进行文本识别,包括:

3.根据权利要求1所述的方法,其特征在于,所述大模型是通过大模型接口自定义得到的,且所述大模型可通过所述大模型接口实现动态切换。

4.根据权利要求1所述的方法,其特征在于,调用所述服务端的TTS将所述实时应答文本转换为实时应答语音和/或动作标签,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述实时应答语音和/或动作标...

【技术特征摘要】

1.一种驱动数字人语音问答和做动作的方法,其特征在于,应用于驱动数字人语音问答和做动作的应用程序,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,调用服务端的asr对所述实时音频源码文件进行文本识别,包括:

3.根据权利要求1所述的方法,其特征在于,所述大模型是通过大模型接口自定义得到的,且所述大模型可通过所述大模型接口实现动态切换。

4.根据权利要求1所述的方法,其特征在于,调用所述服务端的tts将所述实时应答文本转换为实时应答语音和/或动作标签,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述实时应答语音和/或动作标签驱动预先生成的svga动画库中的数字人进行实时应答和/或执行对应动作,包括:

6.根据权利要求1所述的方法,其特征在于,所述实时应答文本包括:已生成文本和所述已生成文本对应的是否结束标...

【专利技术属性】
技术研发人员:王应杰王宇翔王涛李少杰
申请(专利权)人:航天宏图信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1