嘴型生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38822388 阅读:16 留言:0更新日期:2023-09-15 20:01
本发明专利技术涉及一种嘴型生成方法、装置、设备及存储介质,其中,嘴型生成方法包括:获取数字人的原始音频;根据原始音频,确定原始音频对应的预设情绪嘴型图和预设原始嘴型图;根据预设原始嘴型图和预设情绪嘴型图,确定原始音频对应的目标嘴型图。该方法可以先根据数字人的原始音频,确定其对应的预设情绪嘴型图以及预设原始嘴型图,然后再基于上述预设情绪嘴型图和预设原始嘴型图,得到原始音频对应的目标嘴型图,以使得目标嘴型图可以带有情绪,从而更好地保证目标嘴型图与原始音频之间的匹配度,提升使用体验。提升使用体验。提升使用体验。

【技术实现步骤摘要】
嘴型生成方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,具体涉及一种嘴型生成方法、装置、设备及存储介质。

技术介绍

[0002]当前,AI(人工智能)合成虚拟人物视频是人工智能技术应用的全新领域,包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项先进技术,实现了定制化的虚拟人物解决方案。通过AI生成的虚拟人物可用于许多与人交互的场景,如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化的生成不同人物形象,使视频交互内容更加生动有趣。
[0003]虚拟数字人,即采用计算机视觉或计算机图形学的技术手段,生成真人风格或卡通形象的人物模型。用户可以通过语音、文本等形式与数字人进行交互,虚拟数字人通过算法驱动面部的表情、嘴型和肢体动作的变化,配合声音,与用户进行互动,给予应答。目前,数字人已广泛应用于政务、金融、景区、电商等场景,例如在景区提供讲解服务、在电商网站上提供客户咨询服务等。
[0004]但是,现有技术在制作虚拟数字人时,容易存在虚拟数字人的嘴型和语音不对应,以及虚拟数字人的嘴型和虚拟数字人情绪不协调的技术问题,难以满足用户的需求。

技术实现思路

[0005]本申请的目的之一在于提供一种嘴型生成方法,其可以使得数字人的嘴型与语音以及情绪更加匹配;本申请的目的之二在于提供一种嘴型生成装置;本申请的目的之三在于提供一种电子设备;本申请的目标之四在于提供一种存储介质。
[0006]为了实现上述目的,第一方面,本申请提供了一种嘴型生成方法,所述嘴型生成方法包括:
[0007]获取数字人的原始音频;
[0008]根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;
[0009]根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。
[0010]进一步地,所述根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图,包括:
[0011]根据所述原始音频,确定所述原始音频对应的音素数据;其中,所述音素数据包括带有时间序列的多个音素;
[0012]根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图。
[0013]进一步地,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:
[0014]获取嘴型数据库;其中,所述嘴型数据库包括多个音素与嘴型关键参数的对应关系;
[0015]根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设嘴型关键参数;其中,多个所述预设嘴型关键参数与所述音素数据中的多个音素一一对应;
[0016]根据多个所述预设嘴型关键参数以及所述音素数据,确定所述预设原始嘴型图。
[0017]进一步地,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:
[0018]当确定需要对所述原始音频进行情绪化处理时,根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设情绪动作参数;其中,所述嘴型数据库包括多个音素与情绪动作参数的对应关系,多个所述预设情绪动作参数与所述音素数据中的多个音素一一对应;
[0019]根据多个所述预设情绪动作参数以及所述音素数据,确定所述预设情绪嘴型图。
[0020]进一步地,所述嘴型数据库通过以下方式确定:
[0021]获取真人录像;其中,所述真人录像包括嘴型信息和语音信息,所述嘴型信息包括,相应的语音信息对应的情绪嘴型信息和原始嘴型信息;
[0022]根据所述真人录像,确定多个音素与嘴型关键参数的对应关系,以及多个音素与情绪动作参数的对应关系,以得到所述嘴型数据库。
[0023]进一步地,所述根据所述原始音频,确定所述原始音频对应的音素数据,包括:
[0024]确定所述原始音频对应的初始文本;
[0025]根据所述初始文本,确定拼音文档;
[0026]根据所述拼音文档,确定所述原始音频对应的多个音素;
[0027]将所述原始音频对应的多个音素与所述原始音频进行对其处理,以确定所述音素数据。
[0028]进一步地,所述根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图,包括:
[0029]基于人工智能引擎,对所述原始音频、所述预设原始嘴型图和所述预设情绪嘴型图进行处理,以确定所述目标嘴型图。
[0030]为了实现上述目的,第二方面,本申请还提供了一种嘴型生成装置,所述嘴型生成装置包括:
[0031]获取模块,用于获取原始音频;
[0032]确定模块,用于根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;
[0033]还用于根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。
[0034]为实现上述目的,第三方面,本申请还提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的控制程序,以实现如上所述的嘴型生成方法。
[0035]为实现上述目的,第四方面,本申请还提供一种存储介质,该存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的嘴型生成方法。
[0036]本申请的有益效果:
[0037]本专利技术中,可以先根据数字人的原始音频,确定其对应的预设情绪嘴型图以及预设原始嘴型图,然后再基于上述预设情绪嘴型图和预设原始嘴型图,得到原始音频对应的目标嘴型图,以使得目标嘴型图可以带有情绪,从而更好地保证目标嘴型图与原始音频之间的匹配度,提升使用体验。
附图说明
[0038]图1示出本申请实施例提供的一种嘴型生成方法的流程示意图;
[0039]图2示出本申请实施例提供的一种嘴型生成装置的结构示意图;
[0040]图3示出本申请实施例提供的一种电子设备的结构示意图;
[0041]其中:
[0042]10、获取模块;20、确定模块;
[0043]100、电子设备;101、处理器;102、存储器;1021、操作系统;1022、应用程序;103、用户接口;104、网络接口;105、总线系统。
具体实施方式
[0044]以下将参照附图和优选实施例来说明本专利技术的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本专利技术,而不是为了限制本专利技术的保护范围。
[0045]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嘴型生成方法,其特征在于,所述嘴型生成方法包括:获取数字人的原始音频;根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图;根据所述预设原始嘴型图和所述预设情绪嘴型图,确定原始音频对应的目标嘴型图。2.根据权利要求1所述的嘴型生成方法,其特征在于,所述根据所述原始音频,确定所述原始音频对应的预设情绪嘴型图和预设原始嘴型图,包括:根据所述原始音频,确定所述原始音频对应的音素数据;其中,所述音素数据包括带有时间序列的多个音素;根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图。3.根据权利要求2所述的嘴型生成方法,其特征在于,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:获取嘴型数据库;其中,所述嘴型数据库包括多个音素与嘴型关键参数的对应关系;根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设嘴型关键参数;其中,多个所述预设嘴型关键参数与所述音素数据中的多个音素一一对应;根据多个所述预设嘴型关键参数以及所述音素数据,确定所述预设原始嘴型图。4.根据权利要求3所述的嘴型生成方法,其特征在于,所述根据所述音素数据,确定所述预设原始嘴型图和所述预设情绪嘴型图,包括:当确定需要对所述原始音频进行情绪化处理时,根据所述嘴型数据库和所述音素数据,确定所述原始音频对应的多个预设情绪动作参数;其中,所述嘴型数据库包括多个音素与情绪动作参数的对应关系,多个所述预设情绪动作参数与所述音素数据中的多个音素一一对应;根据多个所述预设情绪动作参数以及所述音素数据,确定所述预设情绪嘴型图。5.根据权利要求3所述的嘴型生成方法,其特征在于,所述嘴型数据库...

【专利技术属性】
技术研发人员:魏来
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1