【技术实现步骤摘要】
基于控制策略的数字人合成方法、系统、设备及介质
[0001]本专利技术涉及数字人
,尤其涉及一种基于控制策略的数字人合成方法
、
系统
、
计算机设备及存储介质
。
技术介绍
[0002]当前的网络平台中各类数字人长短视频成为了一种新颖的互联网内容输出的主要形式,一般而言,合成的素材包括了文本库
、
音频库和视频库
。
然而,随着提供此类数字人合成视频的提供商之间竞争日趋激烈,对于制作效率
、
产品质量的要求越来越高
。
然而,同样一段文字合成的语音结合不同人像素材所合成的数字人视频的质量也会参差不齐,差距具体表现为音画匹配率低
、
面部的自然度差
、
画质低下等,这些缺陷的成因往往比较复杂,既与原始素材本身的质量不一有关系,也与不同合成算法间的差异性有关
。
因此,目前难以促进大规模生成符合特定质量需求的数字人,且数字人合成的制作效率低
。
技术实现思路
[0003]本专利技术的目的在于针对现有技术的缺陷和不足,本专利技术实施例提供了一种基于控制策略的数字人合成方法
、
系统
、
计算机设备及存储介质,能够促进大规模生成符合特定质量需求的数字人,能够更高效提升数字人合成的质量与制作效率
。
[0004]第一方面,本专利技术实施例提供了一种基于控制策略的数字人合成方法,其包括:
[0 ...
【技术保护点】
【技术特征摘要】
1.
一种基于控制策略的数字人合成方法,其特征在于,包括:获取到用户输入信息,并根据所述用户输入信息获得关键特征信息;根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项;根据所述索引标签列表从预设的人像语音素材库中获得人像视频素材和语音素材;根据所述人像控制编辑选项对所述人像视频素材进行处理,得到人像视频编辑素材;基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端
。2.
根据权利要求1所述的基于控制策略的数字人合成方法,其特征在于,在所述基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端的步骤之后,包括:获取用户感受反馈数据,并获取所述数字人视频的人像特征;若获取到当前用户输入信息,则获取历史会话信息;根据所述历史会话信息
、
所述当前用户输入信息
、
所述人像特征和所述用户感受反馈数据获得当前关键特征信息,并以所述当前关键特征信息作为所述关键特征信息,返回执行所述根据所述关键特征信息和预设的规则策略得到索引标签列表和人像控制编辑选项的步骤
。3.
根据权利要求2所述的基于控制策略的数字人合成方法,其特征在于,所述获取用户感受反馈数据,包括:若获取到用户输入的文本感受反馈信息,则根据所述文本感受反馈信息和预先训练的文本情绪识别模型获得所述用户感受反馈数据;若获取到用户输入的语音感受反馈信息,则根据所述语音感受反馈信息和预先训练的语音情绪识别模型获得所述用户感受反馈数据
。4.
根据权利要求1所述的基于控制策略的数字人合成方法,其特征在于,在所述基于所述语音素材和所述人像视频编辑素材生成数字人视频,并将所述数字人视频传输至用户端的步骤之后,还包括:若接收到用户反馈评分,且确定所述人像语音素材库完成更新,则基于所述数字人视频和所述用户反馈评分得到置信评分;根据所述置信评分更新所述规则策略
。5.
根据权利要求4所述的基于控制策略的数字人合成方法,其特征在于,所述基于所述数字人视频和所述用户反馈评分得到置信评分,包括:基于所述数字人视频获得像素峰值信噪比
、
图形结构相似度和图像感知相似度;获取与所述像素峰值信噪比对应的第一权重系数
、
与所述图形结构相似度对应的第二权重系数
、
与所述图像感知相似度对应的第三权重系数,以及与所述用户反馈评分对应的第四权重系数;根据所述像素峰值信噪比
、
所述第一权重系数
、
所述图形结构相似度
、
所述第二权重系数
、
所述图像感知...
【专利技术属性】
技术研发人员:黄元忠,卢庆华,陈高博,
申请(专利权)人:深圳市木愚科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。