【技术实现步骤摘要】
基于视听多模态的舞蹈生成方法、系统、装置
本专利技术属于计算机视觉、视听任务领域,具体涉及一种基于视听多模态的舞蹈生成方法、系统、装置。
技术介绍
根据音乐生成舞蹈是一项有趣且具有挑战性的任务,其目的是根据视觉和音频信息推断出一段3D舞蹈姿势。现有的方法主要直接利用骨架信息,结合音频信息进行学习,由于骨架信息是由若干个关键点组成,关键点之间的连接若没有作为提示输入,很难学习到对应特别准确的位置信息,因此,仅使用骨架信息来完成此任务,会导致抖动结果。此外,由于缺少适合此任务的评估指标,导致生成的舞蹈姿势的质量难以评估。因此,本专利技术提出的一种基于视听多模态的舞蹈生成方法。
技术实现思路
为了解决现有技术中的上述问题,即为了解决现有的舞蹈生成方法忽略了骨架信息关键点之间的连接关系,导致生成的舞蹈质量较差的问题,本专利技术第一方面,提出了一种基于视听多模态的舞蹈生成方法,该方法包括:步骤S100,获取音频信息序列、2D舞蹈骨架信息,将所述2D舞蹈骨架信息作为第一信息;步骤S200,将所述第一信 ...
【技术保护点】
1.一种基于视听多模态的舞蹈生成方法,其特征在于,该方法包括:/n步骤S100,获取音频信息序列、2D舞蹈骨架信息,将所述2D舞蹈骨架信息作为第一信息;/n步骤S200,将所述第一信息转换为图像,并结合所述第一信息、所述音频信息序列中第t帧的音频信息,通过预训练的舞蹈生成模型生成新的2D舞蹈骨架信息,作为第二信息;其中,t为正整数;/n步骤S300,判断t是否等于音频信息序列的长度,若否,令t=t+1,将第二信息作为第一信息,跳转步骤S200;否则以所述第一信息顺次转换的图像作为舞蹈片段输出;/n所述舞蹈生成模型包括编解码器、2D预测模块;所述编解码器基于多个卷积层和反卷积 ...
【技术特征摘要】
1.一种基于视听多模态的舞蹈生成方法,其特征在于,该方法包括:
步骤S100,获取音频信息序列、2D舞蹈骨架信息,将所述2D舞蹈骨架信息作为第一信息;
步骤S200,将所述第一信息转换为图像,并结合所述第一信息、所述音频信息序列中第t帧的音频信息,通过预训练的舞蹈生成模型生成新的2D舞蹈骨架信息,作为第二信息;其中,t为正整数;
步骤S300,判断t是否等于音频信息序列的长度,若否,令t=t+1,将第二信息作为第一信息,跳转步骤S200;否则以所述第一信息顺次转换的图像作为舞蹈片段输出;
所述舞蹈生成模型包括编解码器、2D预测模块;所述编解码器基于多个卷积层和反卷积层构建;所述2D预测模块基于Concat层、LSTM网络层、全连接层、混合密度神经网络层顺次构建。
2.根据权利要求1所述的基于视听多模态的舞蹈生成方法,其特征在于,所述舞蹈生成模型其训练方法为:
步骤A100,获取训练样本的数据集;所述训练样本包括真实的2D舞蹈骨架信息序列、音频信息序列;
步骤A200,将2D舞蹈骨架信息序列中各2D舞蹈骨架信息转换为图像,作为第一图像,并对音频信息序列中的各音频信息进行降维;
步骤A300,对各第一图像,通过编解码器中的编码器对其进行编码,并与其对应的舞蹈骨架信息、所述音频信息进行拼接;拼接后,通过2D预测模块生成下一帧预测的2D舞蹈骨架信息;
步骤A400,基于预测的2D舞蹈骨架信息,结合该帧对应的真实的2D舞蹈骨架信息,通过预设的第一损失函数得到损失值,对所述2D预测模块进行参数更新;并通过编解码器的解码器解码得到预测的2D舞蹈骨架信息对应的图像,结合编码器输入的第一图像,通过预设的第二损失函数得到损失值,对编解码器进行参数更新;
步骤A500,循环执行步骤A300-步骤A400,直至得到训练好的舞蹈生成模型。
3.根据权利要求2所述的基于视听多模态的舞蹈生成方法,其特征在于,所述第一损失函数为:
其中,loss1表示2D预测模块损失函数对应的损失值,k为自然数,表示下标,u表示真实的2D舞蹈骨架信息,w表示预测的2D舞蹈骨架信息,μk(w)表示预测的2D舞蹈骨架信息对应的第k个均值,σk(w)表示预测的2D舞蹈骨架信息对应的第k个标准差,fk(w)表示预测的2D舞蹈骨架信息对应的第k个加权值,K表示预测的2D舞蹈骨架信对应的均值、标准差、加权值的数量。
4.根据权利要求2所述的基于视听多模态的舞蹈生成方法,其特征在于,所述第二损失函数为:
其中,loss2表示编解码器对应的损失函数获取的损失值,xi表示编码器对应的输入图像,yi表示解码器解码后的图像,p...
【专利技术属性】
技术研发人员:张兆翔,宋纯锋,许啸,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。