System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种数字人直播方法、装置、电子设备及存储介质。
技术介绍
1、相关技术中,在进行数字人直播过程中,通常是采用视频生成技术,对预先采集的、真人模特参与的视频进行后期处理后,进行数字人直播的,在数字人直播过程中,无法与观众客户端进行实时交互。
技术实现思路
1、本申请实施例提供了一种数字人直播方法,以解决相关技术中,数字人直播过程中,无法与观众客户端进行实时交互的技术问题。
2、相应的,本申请实施例还提供了一种数字人直播装置、一种电子设备以及一种存储介质,用以保证上述数字人直播方法的实现及应用。
3、一方面,本申请实施例提供一种数字人直播方法,应用于主播客户端,该方法包括:
4、在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段;
5、确定该问题信息对应的答案信息和该答案信息的生成时间;
6、从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;
7、根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端。
8、在一种可行的实施方式中,上述根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,包括:
9、确定第一播放片段中与生成时间对应的第一播放帧,以及确定与第一播放帧相邻、且播放时间位于第一播
10、或
11、确定播放序列中与第一播放片段相邻、且播放区间位于第一播放片段的播放时间区间之后的第二播放片段;将答案信息插入至第一播放片段和第二播放片段之间。
12、在一种可行的实施方式中,上述确定答案信息对应的答案信息,包括:
13、确定问题信息对应的问题文本;
14、对问题文本中的每个分词进行编码,得到每个分词的编码信息;
15、确定对应的编码信息处于预设编码信息范围内的分词的数量;
16、在该数量大于或等于信息回复阈值的情况下,确定该问题文本对应的答案文本,并根据问题信息的信息格式,对答案文本进行格式转换,得到答案信息。
17、在一种可行的实施方式中,上述确定问题文本对应的答案文本,包括:
18、通过训练好的答案文本生成模型,根据提示学习范式提取直播过程的风格信息;
19、根据每个分词在问题文本中的上下文信息以及风格信息,确定答案文本;
20、其中,风格信息包括播放序列的内容信息、直播空间信息以及直播时间信息中的至少一项。
21、在一种可行的实施方式中,上述播放序列是通过以下方式确定的:
22、获取音频文本;
23、根据从至少一个预设声音特性中确定的目标声音特性,对音频文本进行文字转语音处理,得到音频语音;
24、对音频语音进行语音转动作处理,得到音频语音对应的姿态信息;该姿态信息包括身体动作信息和表情信息中的至少一种;表情信息包括面部动作信息和唇齿动作信息中的至少一种;
25、根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧;该目标数字人形象是预设数字人形象中的一个或多个;
26、对音频语音和动作图像帧进行合成,得到播放序列。
27、在一种可行的实施方式中,上述根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
28、确定目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于身体区域信息的第一身体部位、对应于面部区域信息的第二身体部位以及对应于唇齿区域信息的第三身体部位之间的体积比例关系;
29、分别根据身体动作信息、面部动作信息以及唇齿动作信息,对第一身体部位、第二身体部位以及第三身体部位进行渲染;
30、根据上述体积比例信息,对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,得到动作图像帧。
31、在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的身体动作信息,包括:
32、确定音频语音的音强变化信息;
33、从预设视频库中确定音强变化信息对应的目标视频;其中,预设视频库中包括至少一个预设视频;每个预设视频中包括预设身体动作信息和预设音频语音;上述音强变化信息与目标视频中预设音频语音的音强变化信息相匹配;
34、将目标视频中的预设身体动作信息确定为上述身体动作信息。
35、在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的表情信息,包括:
36、通过训练好的唇形驱动模型,根据音频语音,确定音频语音与表情基系数之间的第一映射关系;并根据第一映射关系,对音频语音进行映射,得到表情基系数;
37、根据表情基系数,得到表情信息。
38、在一种可行的实施方式中,上述唇形驱动模型是通过以下方式训练得到的:
39、获取第一训练数据集,该第一训练数据集中包括多个第一训练样本,每个第一训练样本包括第一样本音频语音以及与第一样本音频语音对应的第一样本表情基系数;
40、通过第一神经网络模型提取第一样本音频语音和第一样本表情基系数之间的第一样本映射关系;根据第一样本映射关系,对第一样本音频语音进行映射,得到预测表情基系数;根据预测表情基系数和第一样本表情基系数,确定第一损失孩子;
41、根据第一损失值训练第一神经网络模型,将满足第一训练结束条件的第一神经网络模型确定为唇形驱动模型。
42、在一种可行的实施方式中,上述获取音频文本,包括:
43、实时获取主播客户端采集的第一音频文本;
44、和/或
45、预先获取第二音频文本。
46、另一方面,本申请实施例提供了一种数字人直播装置,应用于主播客户端,该数字人直播装置可以包括:
47、问题信息采集模块,用于在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段;
48、答案信息生成模块,用于确定该问题信息对应的答案信息和该答案信息的生成时间;
49、播放片段确定模块,用于从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;
50、播放序列推流模块,用于根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端。
51、在一种可行的实施方式中,上述播放序列推流模块根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,包括:
<本文档来自技高网...【技术保护点】
1.一种数字人直播方法,其特征在于,所述方法应用于主播客户端,包括:
2.根据权利要求1所述的数字人直播方法,其特征在于,所述根据所述第一播放片段在所述播放序列中的序列位置,将所述答案信息插入至所述播放序列,包括:
3.根据权利要求2所述的数字人直播方法,其特征在于,所述确定所述问题信息对应的答案信息,包括:
4.根据权利要求3所述的数字人直播方法,其特征在于,所述确定所述问题文本对应的答案文本,包括:
5.根据权利要求1所述的数字人直播方法,其特征在于,所述播放序列是通过以下方式确定的:
6.根据权利要求5所述的数字人直播方法,其特征在于,所述根据所述姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
7.根据权利要求5或6所述的数字人直播方法,其特征在于,所述对所述音频语音进行语音转动作处理,得到所述音频语音对应的身体动作信息,包括:
8.根据权利要求5或6所述的数字人直播方法,其特征在于,所述对所述音频语音进行语音转动作处理,得到所述音频语音对应的表情信息,包括:
9.根
10.根据权利要求5或6所述的数字人直播方法,其特征在于,所述获取音频文本,包括:
11.一种数字人直播装置,其特征在于,所述装置应用于主播客户端,包括:
12.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。
...【技术特征摘要】
1.一种数字人直播方法,其特征在于,所述方法应用于主播客户端,包括:
2.根据权利要求1所述的数字人直播方法,其特征在于,所述根据所述第一播放片段在所述播放序列中的序列位置,将所述答案信息插入至所述播放序列,包括:
3.根据权利要求2所述的数字人直播方法,其特征在于,所述确定所述问题信息对应的答案信息,包括:
4.根据权利要求3所述的数字人直播方法,其特征在于,所述确定所述问题文本对应的答案文本,包括:
5.根据权利要求1所述的数字人直播方法,其特征在于,所述播放序列是通过以下方式确定的:
6.根据权利要求5所述的数字人直播方法,其特征在于,所述根据所述姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
7.根据权利要求5或6所述的数字人直播方法,其特征在于,所述对所述音...
【专利技术属性】
技术研发人员:李志航,许靖,张渊,陶鑫,陈承,车帅明,李超,毕沪超,胡小华,王胜慧,商锦铃,陈沛康,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。