System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于照片和短音频快速生成智能陪伴人的方法及系统技术方案_技高网

基于照片和短音频快速生成智能陪伴人的方法及系统技术方案

技术编号:40263701 阅读:9 留言:0更新日期:2024-02-02 22:53
本发明专利技术提供了一种基于照片和短音频快速生成智能陪伴人的方法及系统,涉及数字人视频应用技术领域。本方法采用面部特征映射算法和多分辨率闭合遮罩方法,完成动作引导视频与人物形象图像关键特征匹配及非人像区域的行为预测、缺失区域复原,达到有效的特征融合,智能合成人物形象视频,实现快速、低成本人物形象复刻,节省视频录制、人物动作捕捉等数字人物形象创建成本和时间。利用时间逆向拼接方法,将视频片段按照时间轴倒序处理生成人物形象视频,实现视频衔接部分的平滑过渡。此外,本发明专利技术通过接入智能聊天机器人工具,实现结合上下文语境及先前对话历史的答复文字生成,提供更加连贯、准确和有针对性的答复。

【技术实现步骤摘要】

本专利技术涉及数字人视频应用,尤其涉及一种基于照片和短音频快速生成智能陪伴人的方法及系统


技术介绍

1、随着现代社会的发展,许多家庭面临着父母因为工作压力而无法长时间陪伴孩子成长的问题。为了解决这个问题,市面上出现了许多陪伴儿童的机器人产品。这些机器人利用人工智能和机器学习技术,模拟人类的动作、语音和表情,与孩子进行互动,提供陪伴和娱乐。然而,目前的陪伴机器人无法完全复制父母的形象和声音,无法模拟父母的情感和表情,难以引起孩子们的兴趣和情感共鸣。

2、因此,如何提高陪伴机器人的使用体验,使用户在提供简单静态照片(如证件照等)和短音频样本的基础上,快速、真实地复刻父母的形象和声音,降低父母形象和声音的复刻成本,让陪伴机器人更加吸引孩子们的兴趣,充分发挥陪伴功能,成为了一个重要的研究方向。


技术实现思路

1、专利技术目的:提出一种基于照片和短音频快速生成智能陪伴人的方法及系统,以解决现有技术存在的上述问题。

2、第一方面,提出一种基于照片和短音频快速生成智能陪伴人的方法,步骤如下:

3、步骤s1、根据用户上传的照片,提取用户人物形象的关键点位特征向量,并根据所述关键点位特征向量生成用户人物形象动态视频;其中,用户人物形象动态视频是用户照片根据预设动作引导视频进行的人物形象动态变化序列;

4、步骤s2、根据用户上传的短音频,提取用户声纹特征并针对所述声纹特征建模,形成用户特有音色转换模型;

5、步骤s3、获取互动者输入的语音流文件,将所述语音流文件导入智能聊天api接口,获取答复文本;

6、步骤s4、将步骤s3获取的所述答复文本导入步骤s2中所述用户特有音色转换模型,生成具有用户音色特征的答复音频;

7、步骤s5、基于步骤s4生成的所述答复音频文件以及步骤s1生成的所述人物形象动态变化序列,合成唇形与发音匹配的答复视频,并输出所述答复视频给互动者。

8、在第一方面进一步的实施例中,根据用户上传的照片,提取用户人物形象的关键点位特征向量,并根据所述关键点位特征向量生成用户人物形象动态视频,具体包括如下步骤:

9、步骤s11、获取包含用户正面全脸图像的照片;

10、步骤s12、基于s3fd算法进行人物形象检测,检测照片中人物形象区域,裁剪获取用户人物形象矩形选框数据;

11、步骤s13、通过预设动作引导视频,对所述用户人物形象矩形选框数据执行人物形象姿态迁移操作,生成若干人物形象动态变化序列,由多个所述人物形象动态变化序列构成用户人物形象动态视频。

12、在第一方面进一步的实施例中,通过预设动作引导视频,对所述用户人物形象矩形选框数据执行人物形象姿态迁移操作,生成若干人物形象动态变化序列,由多个所述人物形象动态变化序列构成用户人物形象动态视频,具体包括如下步骤:

13、预设动作引导视频,所述动作引导视频为真人模特录制的人物形象动态视频,或包含人物形象动作的访谈视频;

14、将所述动作引导视频及所述用户人物形象矩形选框数据同步输入至图像动作变换模型中,最终获得用户人物形象动态视频。

15、通过关键特征提取与匹配、特征数据权重计算、模型推理关键点位 等最终获得用户人物形象动态视频,并采用时间逆向拼接方法 ,使视频衔接处更加平滑,过渡更加自然。

16、时间逆向拼接方法具体包括:将用户人物形象动态视频解码为一系列图像帧,并按顺序保存在列表a中;将上述图像帧按照相反的顺序存入列表b,如假设视频有25帧,那么将第1帧放入最后位,第2帧放入倒数第二位,以此类推,最后将原本的最后一帧放在第一位;将图像帧顺序存储列表a和倒序存储列表b进行拼接形成列表c,对列表c中的图像帧重新编码输出新的视频文件。

17、利用人物形象检测器提取人物形象区域关键点位,计算关键点描述符,实现动作引导视频与人物形象图像关键特征匹配;

18、通过所述图像动作变换模型,对非人像区域进行行为预测,以达到有效的特征融合结果,最终获得匹配所述用户照片人物形象裁剪图像的人物形象动态视频。所述多分辨率闭合遮罩方法是为了在图像修复和合成的过程中更好地控制哪部分被保留或遮挡,以生成高质量的结果图像。

19、在所述图像动作变换模型训练过程中,为了缓解不同尺度特征图使用单一的遮挡掩码(不同分辨率的特征图关注重点不同,低分辨率特征图关注抽象,高分辨率特征图关注细节)对训练结果的影响,在此参考tpsmm算法(thin-plate-spline-motion-model)采用对不同尺度特征图单独使用对应分辨率遮挡掩码的方法即多分辨率闭合遮罩方法来得到更佳的预测效果。

20、在第一方面进一步的实施例中,根据用户上传的短音频,提取用户声纹特征并针对所述声纹特征建模,形成用户特有音色转换模型,具体包括如下步骤:利用hubert编码模型提取用户上传短音频的声纹特征,绑定声纹特征信息与声码器进行对抗训练,生成具有用户声纹特征的音色转换推理模型。

21、在第一方面进一步的实施例中,获取互动者输入的语音流文件,将所述语音流文件导入智能聊天api接口,获取答复文本,具体包括如下步骤:

22、步骤s31、系统采集互动者提出的问题语音文件;

23、步骤s32、调用whisper语音转文字引擎接口,将音频版的互动者提问转换为文字版的互动者提问;

24、步骤s33、将所述文字版的互动者提问输入至智能聊天机器人工具,所述智能聊天机器人工具通过上下文语境及历史交互,给出合适的答复文本。

25、在第一方面进一步的实施例中,将步骤s3获取的所述答复文本导入步骤s2中所述用户特有音色转换模型,生成具有用户音色特征的答复音频,具体包括如下步骤:

26、步骤s41、获取步骤s33生成的所述答复文本;

27、步骤s42、调用文字转语音tts合成接口,将所述答复文本转换为与之对应的音频流文件;根据答复文本,选择好发声人性别、声音音量大小、声音语速快慢参数,调用文字转语音tts合成接口,将答复文本转换为与之对应的音频流文件;

28、步骤s43、将所述音频流文件输入音色转换推理模型,推理生成与用户音色一致的答复音频。将所述音频流文件输入音色转换推理模型,选择好与推理模型对应的配置文件、音高大小参数,推理合成与用于音色一致的答复音频。

29、在第一方面进一步的实施例中,基于步骤s4生成的所述答复音频文件以及步骤s1生成的所述人物形象动态变化序列,合成唇形与发音匹配的答复视频,并输出所述答复视频给互动者,具体包括如下步骤:

30、读取步骤s1生成的用户人物形象动态视频,遍历视频中的每一帧图像,逐一提取每一帧的人物形象特征向量,读取步骤s4生成的具备用户音色的答复音频,提取音频频谱数据,调用嘴唇形状动作迁移算法,融合生成唇形与发音一致的答复视频文件。同时,利用修复放大工具提升答复视频的显示效本文档来自技高网...

【技术保护点】

1.基于照片和短音频快速生成智能陪伴人的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S1进一步包括:

3.根据权利要求2所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S13进一步包括:

4.根据权利要求3所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S13还包括:

5.根据权利要求1所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S2进一步包括:

6.根据权利要求1所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S3进一步包括:

7.根据权利要求6所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S4进一步包括:

8.根据权利要求7所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S42中:根据答复文本,选择发声人性别、声音音量大小、声音语速快慢参数,调用文字转语音TTS合成接口,将答复文本转换为与之对应的音频流文件;

9.根据权利要求7所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤S5进一步包括:

10.根据权利要求3所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,采用时间逆向拼接方法,对所述用户人物形象动态视频多帧的衔接处执行平滑处理,具体包括:

11.一种智能陪伴人快速生成系统,其特征在于,包括:

...

【技术特征摘要】

1.基于照片和短音频快速生成智能陪伴人的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤s1进一步包括:

3.根据权利要求2所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤s13进一步包括:

4.根据权利要求3所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤s13还包括:

5.根据权利要求1所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤s2进一步包括:

6.根据权利要求1所述的基于照片和短音频快速生成智能陪伴人的方法,其特征在于,步骤s3进一步包括:

7.根据权利要求6所述...

【专利技术属性】
技术研发人员:汪琪徐长志陈萍高培培陈辉单国栋施道平杨进
申请(专利权)人:江苏号百科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1