数字人视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：36552033 阅读：31 留言：0更新日期：2023-02-04 17:05

本公开提供了一种数字人视频生成方法、装置、设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：电子设备在接收到用户输入的目标语音时，可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的PCM数据，并从目标数据库中检索PCM数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇形图片帧，将每个唇形图片帧分别与预先录制得到的底板视频进行融合，从而得到每个唇形图片帧对应的数字人视频帧。最终，显示每个唇形图片帧对应的数字人视频帧。示每个唇形图片帧对应的数字人视频帧。示每个唇形图片帧对应的数字人视频帧。

全部详细技术资料下载

【技术实现步骤摘要】
数字人视频生成方法、装置、设备及存储介质

[0001]本公开涉及人工智能
，尤其涉及深度学习、图像处理、计算机视觉
，具体涉及一种数字人视频生成方法、装置、设备及存储介质。

技术介绍

[0002]当前，虚拟数字人产品被广泛应用于新闻播报类行业、银行服务类行业。在生成虚拟数字人时，需要预先对模特(所需的数字人形象)进行拍摄得到一段底板视频，然后基于得到的底板视频生成预设的虚拟数字人。在用户使用虚拟数字人产品时，可以通过人工智能物联网(Artificial Intelligence&Internet of Things，AIOT)设备采集用户语音，并由AIOT设备将采集到的用户语音发送到数字人服务器，从而数字人服务器对用户语音进行解析得到语音数据。进一步的，数字人服务器可基于语音数据生成用户语音对应的应答内容，再基于应答内容和预设的虚拟数字人生成多帧图像，并将多帧图像编码得到数字人视频流推送到流媒体服务器，以便AIOT设备拉取对应的数字人视频流进行播放，实现了通过虚拟数字人为用户进行服务。

技术实现思路

[0003]本公开提供了一种数字人视频生成方法、装置、设备及存储介质。
[0004]根据本公开的第一方面，提供了一种数字人视频生成方法，包括：
[0005]电子设备在接收到用户输入的目标语音时，可以从本地的目标数据库中检索到目标语音对应的应答内容。进而生成应答内容对应的PCM数据，并从目标数据库中检索PCM数据对应的多个唇形图片帧。以针对多个唇形图片帧中的每个唇...

【技术保护点】

【技术特征摘要】
1.一种数字人视频生成方法，包括：从目标数据库中检索目标语音对应的应答内容，所述目标语音为用户在电子设备中输入的语音，所述目标数据库为所述电子设备的本地数据库；生成所述应答内容对应的脉冲编码调制PCM数据，并从所述目标数据库中检索所述PCM数据对应的多个唇形图片帧；针对所述多个唇形图片帧中的每个唇形图片帧，将每个唇形图片帧分别与预先录制得到的底板视频进行融合，得到每个唇形图片帧对应的数字人视频帧；显示每个唇形图片帧对应的所述数字人视频帧。2.根据权利要求1所述的方法，其中，所述从目标数据库中检索目标语音对应的应答内容，包括：通过自动语音识别技术ASR，将所述目标语音转化为文本数据；从所述目标数据库中检索所述文本数据对应的所述应答内容。3.根据权利要求1或2所述的方法，其中，所述生成所述应答内容对应的脉冲编码调制PCM数据，包括：通过语音合成技术TTS生成所述应答内容对应的PCM数据。4.根据权利要求1至3中任一项所述的方法，其中，所述从所述目标数据库中检索所述PCM数据对应的多个唇形图片帧，包括：将所述PCM数据输入至预设的深度学习网络模型中，得到所述PCM数据对应的多个语素数据，所述多个语素数据用于指示唇形参数；从所述目标数据库中检索所述多个语素数据对应的所述多个唇形图片帧，一个语素数据对应一个唇形图片帧。5.根据权利要求1至4中任一项所述的方法，其中，所述将每个唇形图片帧分别与预先录制得到的底板视频进行融合，得到每个唇形图片帧对应的数字人视频帧，包括：将每个唇形图片帧、所述预先录制得到的底板视频和目标人物图像三者进行融合，得到每个唇形图片帧对应的数字人视频帧。6.一种数字人视频生成装置，包括：检索单元，用于从目标数据库中检索目标语音对应的应答内容，所述目标语音为用户在电子设备中输入的语音，所述目标数据库为所述电子设备的本地数据库；处理单元，用于生成所述应答内容对应的脉冲编码调制PCM数据；所述检索单元，还用于从所述目标数据库中检索所述PCM数据对应...

【专利技术属性】
技术研发人员：张演龙，李彤辉，杨尊程，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人