一种数智人口型生成方法及装置制造方法及图纸

技术编号:41974986 阅读:22 留言:0更新日期:2024-07-10 16:54
本申请公开了一种数智人口型生成方法及装置。该方法包括首先首先收集普通话声波数据,并对普通话声波数据进行手动标注以及预先筛选;提取声波MFCC特征得到包含时间序列值的MFCC特征矩阵;使用图像处理技术对提取的声波MFCC特征进行校准,并映射到3D数智人的脸部模型上,形成对应的口型时间序列;然后构建Transformer单元,进行训练并根据反馈进行优化得到训练完成的Transformer模型;最后获取目标普通话声波,并提取声波MFCC特征后输入到训练完成的Transformer模型中生成目标口型动画序列,并将目标口型动画序列映射到3D数智人脸模型中。本申请不仅能够实现准确的普通话声波MFCC特征提取,还能够建立MFCC特征与3D数智人口型之间的关系,从而提高生成口型的拟人程度。

【技术实现步骤摘要】

本专利技术涉及人工智能与计算机视觉,特别涉及一种数智人口型生成方法及装置


技术介绍

1、随着人工智能技术的不断发展,计算机视觉、自然语言处理等领域的研究取得了显著的进展。然而,对于人类语音的理解和应用仍然面临着许多挑战。

2、在当前的技术背景下,语音识别和合成技术已经取得了很大的进步,但仍然存在一些问题。首先,现有的语音识别系统通常依赖于大量的标注数据,而这些数据的收集和标注过程往往耗时且成本高昂。其次,现有的语音合成方法虽然可以生成具有一定逼真度的语音,但生成的口型动画往往不够自然和流畅。此外,现有的3d数智人建模技术虽然可以生成具有高度真实感的虚拟人物形象,但在口型生成方面仍然存在不足。


技术实现思路

1、基于此,本申请实施例提供了一种数智人口型生成方法及装置,提出了一种基于mfcc普通话声波信息和transformer生成口型视素驱动3d数智人的创新方法,能够解决现有技术所存在的问题。

2、第一方面,提供了一种数智人口型生成方法,该方法包括:

3、收集普通话声波数据本文档来自技高网...

【技术保护点】

1.一种数智人口型生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数智人口型生成方法,其特征在于,在对普通话声波数据进行手动标注以及预先筛选中,所述手动标注至少包括标注声波信号、口型和对应的3D数智人模型,所述预先筛选至少包括降噪和消除静音段。

3.根据权利要求1所述的数智人口型生成方法,其特征在于,提取声波MFCC特征得到包含时间序列值的MFCC特征矩阵,包括:使用Librosa库提取声波MFCC特征,然后基于时间切分为固定大小的帧。

4.根据权利要求1所述的数智人口型生成方法,其特征在于,使用图像处理技术对提取的声波MFCC特征进行校...

【技术特征摘要】

1.一种数智人口型生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数智人口型生成方法,其特征在于,在对普通话声波数据进行手动标注以及预先筛选中,所述手动标注至少包括标注声波信号、口型和对应的3d数智人模型,所述预先筛选至少包括降噪和消除静音段。

3.根据权利要求1所述的数智人口型生成方法,其特征在于,提取声波mfcc特征得到包含时间序列值的mfcc特征矩阵,包括:使用librosa库提取声波mfcc特征,然后基于时间切分为固定大小的帧。

4.根据权利要求1所述的数智人口型生成方法,其特征在于,使用图像处理技术对提取的声波mfcc特征进行校准,并映射到3d数智人的脸部模型上,包括利用uv mapping技术将校准后的口型特征并映射到3d数智人的脸部模型上。

5.根据权利要求4所述的数智人口型生成方法,其特征在于,利用uv mapping技术将校准后的口型特征并映射到3d数智人的脸部模型上...

【专利技术属性】
技术研发人员:刘晓玉
申请(专利权)人:小哆智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1