System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数字人像,尤其涉及一种交互式数字人像生成方法、装置、设备及存储介质。
技术介绍
1、目前,智能助手类软件在企业内部办公类应用场景越来越广泛,其广泛应用给用户带来了更好的体验与处理效率。目前智能助手类应用一般以文本直接交互的模式进行,用户输入或选择自己希望解决的问题,智能助手机器人去寻找问题的可能答案,并返回给用户。为了提升用户的体验,这种交互方式一般会通过用户意图来理解、知识库辅助、多轮会话等方式,进行提升。
2、但是,目前智能助手类软件一般都是文本类的回复,会导致回复的内容比较单一,不能够生动灵活的表达意图。
3、因此,亟需一种交互式数字人像生成方法,能够提升内容回复的多样性以及提高表达的准确度。
技术实现思路
1、本申请提供一种交互式数字人像生成方法、装置、设备及存储介质,能够提升内容回复的多样性以及提高表达的准确度。
2、第一方面,本申请提供一种交互式数字人像生成方法,所述方法包括:
3、从智能客服系统中获取历史文本交互数据信息,并基于所述历史文本交互数据信息确定与所述历史文本数据信息关联的用户的情绪信息;
4、从所述智能客服系统中获取所述的预留音频信息和所述用户的脸部数据信息;
5、将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合,生成交互式数字人像;其中,所述交互式数字人像用于模拟所述用户在所述智能客服系统交互时的形态。
6、在一
7、将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合,得到情绪语音信息;
8、将所述情绪语音信息和所述用户的脸部数据信息进行融合,生成交互式数字人像。
9、在一个示例中,所述将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合,得到情绪语音信息,包括:
10、对所述历史文本交互数据信息进行文本序列排序,得到文本序列结果,并对所述文本序列结果进行分词转化,得到注音字符结果;
11、将所述注音字符结果输入至文本编码器中,得到隐向量;其中,所述隐向量用于表征文本特征;
12、将标准音频信息输入至自编码器中,得到风格编码向量;其中,所述风格编码向量用于表征音频特征;
13、基于所述隐向量和所述风格编码向量,得到所述情绪语音信息。
14、在一个示例中,所述基于所述隐向量和所述风格编码向量,得到所述情绪语音信息,包括:
15、将所述隐向量与所述风格编码向量进行拼接,得到输入向量;
16、将所述输入向量输入至语音合成模型中,得到所述情绪语音信息;其中,所述语音合成模型包括注意力机制层、解码器网络层和声码器网络层。
17、在一个示例中,将所述情绪语音信息和所述用户的脸部数据信息进行融合,生成交互式数字人像,包括:
18、根据所述情绪语音信息,确定语音特征向量;
19、根据所述用户的脸部数据信息以及三维脸部模型,确定脸部特征向量;
20、根据所述语音特征向量和所述脸部特征向量,确定所述用户的脸部关键点序列信息;
21、对所述用户的脸部关键点序列信息进行渲染,生成所述交互式数字人像。
22、在一个示例中,对所述用户的脸部关键点序列信息进行渲染,生成所述交互式数字人像,包括:
23、将所述用户的脸部关键点序列信息作为隐式函数的输入值,得到所述用户的脸部关键点序列信息中每一个脸部关键点的颜色和密度;
24、根据所述每一个脸部关键点的颜色和密度,生成所述交互式数字人像。
25、第二方面,本申请提供一种交互式数字人像生成装置,所述装置包括:
26、第一获取单元,用于从智能客服系统中获取历史文本交互数据信息,并基于所述历史文本交互数据信息确定与所述历史文本数据信息关联的用户的情绪信息;
27、第二获取单元,用于从所述智能客服系统中获取所述的预留音频信息和所述用户的脸部数据信息;
28、融合单元,用于将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合,生成交互式数字人像;其中,所述交互式数字人像用于模拟所述用户在所述智能客服系统交互时的形态。
29、在一个示例中,融合单元,包括:
30、融合模块,用于将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合,得到情绪语音信息;
31、生成模块,用于将所述情绪语音信息和所述用户的脸部数据信息进行融合,生成交互式数字人像。
32、在一个示例中,融合模块,包括:
33、分词转化子模块,用于对所述历史文本交互数据信息进行文本序列排序,得到文本序列结果,并对所述文本序列结果进行分词转化,得到注音字符结果;
34、第一输入子模块,用于将所述注音字符结果输入至文本编码器中,得到隐向量;其中,所述隐向量用于表征文本特征;
35、第二输入子模块,用于将标准音频信息输入至自编码器中,得到风格编码向量;其中,所述风格编码向量用于表征音频特征;
36、第一确定子模块,用于基于所述隐向量和所述风格编码向量,得到所述情绪语音信息。
37、在一个示例中,第一确定子模块,具体用于将所述隐向量与所述风格编码向量进行拼接,得到输入向量;将所述输入向量输入至语音合成模型中,得到所述情绪语音信息;其中,所述语音合成模型包括注意力机制层、解码器网络层和声码器网络层。
38、在一个示例中,生成模块,包括:
39、第二确定子模块,用于根据所述情绪语音信息,确定语音特征向量;
40、第三确定子模块,用于根据所述用户的脸部数据信息以及三维脸部模型,确定脸部特征向量;
41、第四确定子模块,用于根据所述语音特征向量和所述脸部特征向量,确定所述用户的脸部关键点序列信息;
42、生成子模块,用于对所述用户的脸部关键点序列信息进行渲染,生成所述交互式数字人像。
43、在一个示例中,生成子模块,具体用于将所述用户的脸部关键点序列信息作为隐式函数的输入值,得到所述用户的脸部关键点序列信息中每一个脸部关键点的颜色和密度;
44、根据所述每一个脸部关键点的颜色和密度,生成所述交互式数字人像。
45、第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
46、所述存储器存储计算机执行指令;
47、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
48、第四方面,本申请提供一种计算机可读本文档来自技高网...
【技术保护点】
1.一种交互式数字人像生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合,生成交互式数字人像,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合,得到情绪语音信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述隐向量和所述风格编码向量,得到所述情绪语音信息,包括:
5.根据权利要求2所述的方法,其特征在于,所述将所述情绪语音信息和所述用户的脸部数据信息进行融合,生成交互式数字人像,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述用户的脸部关键点序列信息进行渲染,生成所述交互式数字人像,包括:
7.一种交互式数字人像生成装置,其特征在于,所述装置包括:
8.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
9.一种计算机可读存储
10.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
...【技术特征摘要】
1.一种交互式数字人像生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合,生成交互式数字人像,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合,得到情绪语音信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述隐向量和所述风格编码向量,得到所述情绪语音信息,包括:
5.根据权利要求2所述的方法,其特征在于,所述将所述情绪语音信息和所述用户的脸部数据信息进行融...
【专利技术属性】
技术研发人员:郑江,聂砂,罗奕康,丁苏苏,戴菀庭,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。