【技术实现步骤摘要】
本专利技术涉及人工智能与计算机视觉,特别涉及一种数智人口型生成方法及装置。
技术介绍
1、随着人工智能技术的不断发展,计算机视觉、自然语言处理等领域的研究取得了显著的进展。然而,对于人类语音的理解和应用仍然面临着许多挑战。
2、在当前的技术背景下,语音识别和合成技术已经取得了很大的进步,但仍然存在一些问题。首先,现有的语音识别系统通常依赖于大量的标注数据,而这些数据的收集和标注过程往往耗时且成本高昂。其次,现有的语音合成方法虽然可以生成具有一定逼真度的语音,但生成的口型动画往往不够自然和流畅。此外,现有的3d数智人建模技术虽然可以生成具有高度真实感的虚拟人物形象,但在口型生成方面仍然存在不足。
技术实现思路
1、基于此,本申请实施例提供了一种数智人口型生成方法及装置,提出了一种基于mfcc普通话声波信息和transformer生成口型视素驱动3d数智人的创新方法,能够解决现有技术所存在的问题。
2、第一方面,提供了一种数智人口型生成方法,该方法包括:
3
...【技术保护点】
1.一种数智人口型生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数智人口型生成方法,其特征在于,在对普通话声波数据进行手动标注以及预先筛选中,所述手动标注至少包括标注声波信号、口型和对应的3D数智人模型,所述预先筛选至少包括降噪和消除静音段。
3.根据权利要求1所述的数智人口型生成方法,其特征在于,提取声波MFCC特征得到包含时间序列值的MFCC特征矩阵,包括:使用Librosa库提取声波MFCC特征,然后基于时间切分为固定大小的帧。
4.根据权利要求1所述的数智人口型生成方法,其特征在于,使用图像处理技术对提取的声
...【技术特征摘要】
1.一种数智人口型生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数智人口型生成方法,其特征在于,在对普通话声波数据进行手动标注以及预先筛选中,所述手动标注至少包括标注声波信号、口型和对应的3d数智人模型,所述预先筛选至少包括降噪和消除静音段。
3.根据权利要求1所述的数智人口型生成方法,其特征在于,提取声波mfcc特征得到包含时间序列值的mfcc特征矩阵,包括:使用librosa库提取声波mfcc特征,然后基于时间切分为固定大小的帧。
4.根据权利要求1所述的数智人口型生成方法,其特征在于,使用图像处理技术对提取的声波mfcc特征进行校准,并映射到3d数智人的脸部模型上,包括利用uv mapping技术将校准后的口型特征并映射到3d数智人的脸部模型上。
5.根据权利要求4所述的数智人口型生成方法,其特征在于,利用uv mapping技术将校准后的口型特征并映射到3d数智人的脸部模型上...
【专利技术属性】
技术研发人员:刘晓玉,
申请(专利权)人:小哆智能科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。