基于控制策略的数字人合成方法技术

技术编号:39718470 阅读:8 留言:0更新日期:2023-12-17 23:25
本发明专利技术公开了基于控制策略的数字人合成方法

【技术实现步骤摘要】
基于控制策略的数字人合成方法、系统、设备及介质


[0001]本专利技术涉及数字人
,尤其涉及一种基于控制策略的数字人合成方法

系统

计算机设备及存储介质


技术介绍

[0002]当前的网络平台中各类数字人长短视频成为了一种新颖的互联网内容输出的主要形式,一般而言,合成的素材包括了文本库

音频库和视频库

然而,随着提供此类数字人合成视频的提供商之间竞争日趋激烈,对于制作效率

产品质量的要求越来越高

然而,同样一段文字合成的语音结合不同人像素材所合成的数字人视频的质量也会参差不齐,差距具体表现为音画匹配率低

面部的自然度差

画质低下等,这些缺陷的成因往往比较复杂,既与原始素材本身的质量不一有关系,也与不同合成算法间的差异性有关

因此,目前难以促进大规模生成符合特定质量需求的数字人,且数字人合成的制作效率低


技术实现思路

[0003]本专利技术的目的在于针对现有技术的缺陷和不足,本专利技术实施例提供了一种基于控制策略的数字人合成方法

系统

计算机设备及存储介质,能够促进大规模生成符合特定质量需求的数字人,能够更高效提升数字人合成的质量与制作效率

[0004]第一方面,本专利技术实施例提供了一种基于控制策略的数字人合成方法,其包括:
[0005]获取到用户输入信息,并根据所述用户输入信息获得关键特征信息;
[0006]根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项;
[0007]根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材;
[0008]根据所述人像控制编辑选项对所述人像视频素材进行处理,得到人像视频编辑素材;
[0009]基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端

[0010]第二方面,本专利技术实施例提供了一种基于控制策略的数字人合成系统,其包括:人机交互感知模块

决策器

人像素材编辑模块和语音驱动合成模块;
[0011]所述人机交互感知模块,用于获取到用户输入信息,并根据所述用户输入信息获得关键特征信息;
[0012]所述决策器,用于根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项;
[0013]所述决策器,还用于根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材;
[0014]所述人像素材编辑模块,用于根据所述人像控制编辑选项对所述人像视频素材进
行处理,得到人像视频编辑素材;
[0015]所述语音驱动合成模块,用于基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端

[0016]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面的基于控制策略的数字人合成方法

[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述第一方面的基于控制策略的数字人合成方法

[0018]本专利技术实施例提供了基于控制策略的数字人合成方法

系统

设备及介质,该方法包括获取到用户输入信息,并根据用户输入信息获得关键特征信息;根据关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项;根据索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材;根据人像控制编辑选项对人像视频素材进行处理,得到人像视频编辑素材;基于语音素材和人像视频编辑素材生成数字人视频,并将数字人视频传输至用户端

本专利技术能够促进大规模生成符合特定质量需求的数字人,能够更高效提升数字人合成的质量与制作效率

附图说明
[0019]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0020]图1为本专利技术一实施例提供的基于控制策略的数字人合成方法的流程示意图;
[0021]图2为本专利技术一实施例提供的基于控制策略的数字人合成系统的示意性框图;
[0022]图3为本专利技术另一实施例提供的基于控制策略的数字人合成系统的示意性框图;
[0023]图4为本专利技术实施例提供的计算机设备的示意性框图

具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0025]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征

整体

步骤

操作

元素和
/
或组件的存在,但并不排除一个或多个其它特征

整体

步骤

操作

元素

组件和
/
或其集合的存在或添加

[0026]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术

如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式

[0027]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和
/
或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合

[0028]请参阅图1,图1为本专利技术一实施例提供的基于控制策略的数字人合成方法的流程示意图

本专利技术实施例提供的基于控制策略的数字人合成方法应用于服务器中,本专利技术实施例提供的基于控制策略的数字人合成方法包括步骤
S101

S105。
[0029]S101、
获取到用户输入信息,并根据所述用户输入信息获得关键特征信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于控制策略的数字人合成方法,其特征在于,包括:获取到用户输入信息,并根据所述用户输入信息获得关键特征信息;根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项;根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材;根据所述人像控制编辑选项对所述人像视频素材进行处理,得到人像视频编辑素材;基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端
。2.
根据权利要求1所述的基于控制策略的数字人合成方法,其特征在于,在所述基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端的步骤之后,包括:获取用户感受反馈数据,并获取所述数字人视频的人像特征;若获取到当前用户输入信息,则获取历史会话信息;根据所述历史会话信息

所述当前用户输入信息

所述人像特征和所述用户感受反馈数据获得当前关键特征信息,并以所述当前关键特征信息作为所述关键特征信息,返回执行所述根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项的步骤
。3.
根据权利要求2所述的基于控制策略的数字人合成方法,其特征在于,所述获取用户感受反馈数据,包括:若获取到用户输入的文本感受反馈信息,则根据所述文本感受反馈信息和预先训练的文本情绪识别模型获得所述用户感受反馈数据;若获取到用户输入的语音感受反馈信息,则根据所述语音感受反馈信息和预先训练的语音情绪识别模型获得所述用户感受反馈数据
。4.
根据权利要求1所述的基于控制策略的数字人合成方法,其特征在于,在所述基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端的步骤之后,还包括:若接收到用户反馈评分,且确定所述人像语音素材库完成更新,则基于所述数字人视频和所述用户反馈评分得到置信评分;根据所述置信评分更新所述规则策略
。5.
根据权利要求4所述的基于控制策略的数字人合成方法,其特征在于,所述基于所述数字人视频和所述用户反馈评分得到置信评分,包括:基于所述数字人视频获得像素峰值信噪比

图形结构相似度和图像感知相似度;获取与所述像素峰值信噪比对应的第一权重系数

与所述图形结构相似度对应的第二权重系数

与所述图像感知相似度对应的第三权重系数,以及与所述用户反馈评分对应的第四权重系数;根据所述像素峰值信噪比

所述第一权重系数

所述图形结构相似度

所述第二权重系数

所述图像感知...

【专利技术属性】
技术研发人员:黄元忠卢庆华陈高博
申请(专利权)人:深圳市木愚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1