数字人生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：34174529 阅读：31 留言：0更新日期：2022-07-17 11:35

本申请公开了一种数字人生成方法、装置、计算机设备和存储介质，涉及人机交互领域。具体实现方案为：响应于接收到的交互请求，根据交互请求确定用户的交互文本内容；根据交互文本内容，确定数字人的交互反馈文本内容；响应于交互反馈文本内容存在于缓存信息数据库中，获取预先缓存的与交互反馈文本内容对应的第一缓存音频包和第一缓存视频帧；将预先录制的数字人的静默呼吸态视频帧、第一缓存音频包和第一缓存视频帧进行音视频合成，得到数字人的合成音视频数据；在人机交互界面上播放该数字人的合成音视频数据，以响应交互请求。本申请可减少对固定话术采用实时生成的方式合成音视频的计算资源浪费，且在一定程度上提高了数字人交互的实时性。字人交互的实时性。字人交互的实时性。

全部详细技术资料下载

【技术实现步骤摘要】
数字人生成方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，进一步涉及人机交互
，尤其涉及一种数字人生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]数字人，即采用计算机视觉或计算机图形学的技术手段，生成真人风格或卡通形象的人物模型。用户可以通过语音、文本等形式与数字人进行交互，数字人通过算法驱动面部的表情、嘴型和肢体动作的变化，配合声音，与用户进行互动，给予应答。目前，数字人已广泛应用于政务、金融、景区、电商等场景，例如在景区提供讲解服务、在电商网站上提供客户咨询服务等。
[0003]当前的数字人可以分为拟人卡通风格和真人风格两种类型。其中，拟人卡通风格的数字人采用计算机图形学的技术方案，相比真人风格的数字人，具有渲染速度快，可调节参数空间大的优势。但拟人卡通风格的数字人前期需要大量的设计、建模工作，成本较高，且不适合一些严肃交付的场景，如政务场景。真人风格的数字人主要基于计算机视觉的相关技术实现，基于深度学习，通过算法模型实时渲染生成数字人的面部区域，与预先录制的人物素材相...

【技术保护点】

【技术特征摘要】
1.一种数字人生成方法，其特征在于，包括：响应于接收到的交互请求，根据所述交互请求确定用户的交互文本内容；根据所述交互文本内容，确定数字人的交互反馈文本内容；响应于所述交互反馈文本内容存在于缓存信息数据库中，获取预先缓存的与所述交互反馈文本内容对应的第一缓存音频包和第一缓存视频帧；将预先录制的所述数字人的静默呼吸态视频帧、所述第一缓存音频包和所述第一缓存视频帧进行音视频合成，得到所述数字人的合成音视频数据；在人机交互界面上播放所述数字人的合成音视频数据，以响应所述交互请求。2.根据权利要求1所述的数字人生成方法，其特征在于，还包括：响应于所述交互反馈文本内容未存在于所述缓存信息数据库中，生成所述交互反馈文本内容的目标音频包、音素和时间戳；根据所述音素和时间戳生成对应的表情参数，并根据所述表情参数和数字人面部的特定参数生成面部区域结构；根据所述面部区域结构生成所述数字人的面部区域图像；将所述面部区域图像结合预先生成的面部区域蒙版，与所述静默呼吸态视频帧之中人物素材相融合，得到合成后的数字人视频帧；将所述目标音频包和所述数字人视频帧合成，得到所述数字人的合成音视频数据。3.根据权利要求2所述的数字人生成方法，其特征在于，还包括：响应于所述交互反馈文本内容属于高频话术，将所述交互反馈文本内容进行缓存；根据静默呼吸态视频帧上的多个缓存插入点，针对所述交互反馈文本内容，生成与各所述缓存插入点对应的面部区域缓存图像序列；其中，每个所述缓存插入点之间间隔预设帧数；将生成的所述目标音频包和所述与各所述缓存插入点对应的面部区域缓存图像序列进行缓存；其中，所述与各所述缓存插入点对应的面部区域缓存图像序列共用一份所述交互反馈文本内容的目标音频包。4.根据权利要求1所述的数字人生成方法，其特征在于，所述第一缓存视频帧为面部区域缓存图像；所述将预先录制的所述数字人的静默呼吸态视频帧、所述第一缓存音频包和所述第一缓存视频帧进行音视频合成，得到所述数字人的合成音视频数据，包括：将所述面部区域缓存图像与所述静默呼吸态视频帧之中对应帧进行合成，得到合成视频帧；将所述合成视频帧和所述第一缓存音频包进行时间戳对齐，并对时间戳对齐后得到的音视频包队列进行编码，得到所述数字人的合成音视频数据。5.根据权利要求4所述的数字人生成方法，其特征在于，获取预先缓存的与所述交互反馈文本内容对应的缓存视频帧，包括：确定接收到所述交互请求的时间；从静默呼吸态视频帧上的多个缓存插入点中确定出与所述时间对应的目标缓存插入点；根据所述目标缓存插入点获取对应的所述交互反馈文本内容的缓存视频帧；所述将所述面部区域缓存图像与所述静默呼吸态视频帧之中对应帧进行合成，得到合
成视频帧，包括：根据所述目标缓存插入点，从静默呼吸态视频帧之中确定出对应的目标视频帧；将所述面部区域缓存图像与所述目标视频帧进行合并，得到合成视频帧。6.根据权利要求1所述的数字人生成方法，其特征在于，所述响应于所述交互反馈文本内容存在于缓存信息数据库中，获取预先缓存的与所述交互反馈文本内容对应的第一缓存音频包和第一缓存视频帧，包括：确定所述交互反馈文本内容中包括固定话术内容和随机话术内容；响应于所述交互反馈文本内容之中所述固定话术内容存在于所述缓存信息数据库中，获取预先缓存的与所述固定话术内容对应的第二缓存音频包和第二缓存视频帧；生成所述交互反馈文本内容之中所述随机话术内容的目标音频包、音素和时间戳；根据所述随机话术内容的音素和时间戳，渲染生成所述随机话术内容的数字人随机内容帧；其中，所述将预先录制的所述数字人的静默呼吸态视频帧、所述第一缓存音频包和所述第一缓存视频帧进行音视频合成，得到所述数字人的合成音视频数据，包括：将所述第二缓存音频包、所述第二缓存视频帧、所述随机话术内容的目标音频包、所述数字人随机内容帧和所述数字人的静默呼吸态视频帧进行合成，得到所述数字人的合成音视频数据。7.根据权利要求6所述的数字人生成方法，其特征在于，所述将所述第二缓存音频包、所述第二缓存视频帧、所述随机话术内容的目标音频包、所述数字人随机内容帧和所述数字人的静默呼吸态视频帧进行合成，得到所述数字人的合成音视频数据，包括：生成所述固定话术内容和随机话术内容之间的过渡帧；将所述过渡帧、所述第二缓存音频包、所述第二缓存视频帧、所述随机话术内容的目标音频包、所述数字人随机内容帧和所述数字人的静默呼吸态视频帧进行合成，得到所述数字人的合成音视频数据。8.一种数字人生成装置，其特征在于，包括：第一确定模块，响应于接收到的交互请求，用于根据所述交互请求确定用户的交互文本内容；第二确定模块，用于根据所述交互文...

【专利技术属性】
技术研发人员：左佳伟，朱海涛，王林芳，石凡，张琪，张炜，申童，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人