一种数智人口型生成方法及装置制造方法及图纸

技术编号：41974986 阅读：22 留言：0更新日期：2024-07-10 16:54

本申请公开了一种数智人口型生成方法及装置。该方法包括首先首先收集普通话声波数据，并对普通话声波数据进行手动标注以及预先筛选；提取声波MFCC特征得到包含时间序列值的MFCC特征矩阵；使用图像处理技术对提取的声波MFCC特征进行校准，并映射到3D数智人的脸部模型上，形成对应的口型时间序列；然后构建Transformer单元，进行训练并根据反馈进行优化得到训练完成的Transformer模型；最后获取目标普通话声波，并提取声波MFCC特征后输入到训练完成的Transformer模型中生成目标口型动画序列，并将目标口型动画序列映射到3D数智人脸模型中。本申请不仅能够实现准确的普通话声波MFCC特征提取，还能够建立MFCC特征与3D数智人口型之间的关系，从而提高生成口型的拟人程度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能与计算机视觉，特别涉及一种数智人口型生成方法及装置。

技术介绍

1、随着人工智能技术的不断发展，计算机视觉、自然语言处理等领域的研究取得了显著的进展。然而，对于人类语音的理解和应用仍然面临着许多挑战。

2、在当前的技术背景下，语音识别和合成技术已经取得了很大的进步，但仍然存在一些问题。首先，现有的语音识别系统通常依赖于大量的标注数据，而这些数据的收集和标注过程往往耗时且成本高昂。其次，现有的语音合成方法虽然可以生成具有一定逼真度的语音，但生成的口型动画往往不够自然和流畅。此外，现有的3d数智人建模技术虽然可以生成具有高度真实感的虚拟人物形象，但在口型生成方面仍然存在不足。

技术实现思路

1、基于此，本申请实施例提供了一种数智人口型生成方法及装置，提出了一种基于mfcc普通话声波信息和transformer生成口型视素驱动3d数智人的创新方法，能够解决现有技术所存在的问题。

2、第一方面，提供了一种数智人口型生成方法，该方法包括：

3...

【技术保护点】

1.一种数智人口型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数智人口型生成方法，其特征在于，在对普通话声波数据进行手动标注以及预先筛选中，所述手动标注至少包括标注声波信号、口型和对应的3D数智人模型，所述预先筛选至少包括降噪和消除静音段。

3.根据权利要求1所述的数智人口型生成方法，其特征在于，提取声波MFCC特征得到包含时间序列值的MFCC特征矩阵，包括：使用Librosa库提取声波MFCC特征，然后基于时间切分为固定大小的帧。

4.根据权利要求1所述的数智人口型生成方法，其特征在于，使用图像处理技术对提取的声波MFCC特征进行校...

【技术特征摘要】

1.一种数智人口型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数智人口型生成方法，其特征在于，在对普通话声波数据进行手动标注以及预先筛选中，所述手动标注至少包括标注声波信号、口型和对应的3d数智人模型，所述预先筛选至少包括降噪和消除静音段。

3.根据权利要求1所述的数智人口型生成方法，其特征在于，提取声波mfcc特征得到包含时间序列值的mfcc特征矩阵，包括：使用librosa库提取声波mfcc特征，然后基于时间切分为固定大小的帧。

4.根据权利要求1所述的数智人口型生成方法，其特征在于，使用图像处理技术对提取的声波mfcc特征进行校准，并映射到3d数智人的脸部模型上，包括利用uv mapping技术将校准后的口型特征并映射到3d数智人的脸部模型上。

5.根据权利要求4所述的数智人口型生成方法，其特征在于，利用uv mapping技术将校准后的口型特征并映射到3d数智人的脸部模型上...

【专利技术属性】
技术研发人员：刘晓玉，
申请(专利权)人：小哆智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人