【技术实现步骤摘要】
基于3D渲染引擎的中文唇音同步方法
本专利技术涉及一种基于3D渲染引擎的中文唇音同步方法。
技术介绍
随着人工智能技术的快速发展,主持人播报新闻也有了更新颖的方式。通过输入一段新闻语音材料,在较短的时间内,输出一段由预设的3D真人模型在相应的场景下播报新闻的动画或者视频。其中模型播报新闻需要使用到唇音同步的技术,即在语音播放的同时,模型需要配合对应的嘴型动作,以此展现出模型在“说话”的场景。文章Web-basedlivespeech-drivenlip-sync(Llorachetal.2016)提出唇音同步算法,提取音频参数,通过三种blendshape驱动嘴型,生成动画。RogoDigital开发的LipSync也是一款能够通过语音文件驱动面部(嘴巴,眼睛,眉毛等)动画的Unity3D的编辑器插件。当前技术驱动的口型动画只匹配了发音时间点,很难精确驱动出音标的真实发音口型;唇音同步插件基本由海外开发者开发,发音的口型一般适用英文的发音习惯,不适用中文的发音规律。
技术实现思路
为解决现有技术的 ...
【技术保护点】
1.一种基于3D渲染引擎的中文唇音同步方法,其特征在于,包括以下步骤:/n第一步,调用执行器启动脚本,输入参数;/n第二步,执行器动态调整3D人物模型的场景和模型参数;/n第三步,执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件;/n第四步,通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标,输出音标与时间戳对应的文本语音对齐文件;/n第五步,执行器调用驱动口型模型,驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。/n
【技术特征摘要】
1.一种基于3D渲染引擎的中文唇音同步方法,其特征在于,包括以下步骤:
第一步,调用执行器启动脚本,输入参数;
第二步,执行器动态调整3D人物模型的场景和模型参数;
第三步,执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件;
第四步,通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标,输出音标与时间戳对应的文本语音对齐文件;
第五步,执行器调用驱动口型模型,驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。
2.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
驱动口型模型驱动口型动画的步骤包括:
加载音标适配器输出的音标与时间戳对应的文本语音对齐文件;
加载模型预设的所有blendshape动画;
音频帧循环;
根据当前帧的时间戳从加载的音标适配器输出的音标与时间戳对应的文本语音对齐文件获取当前音标;
判断当前帧的音标与上一帧的音标是否相同,若相同则跳转至音频帧循环,若不相同则播放当前帧的音标的blendshape动画。
3.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
在调用执行器之前,导入预设的3D人物模型和驱动口型模块。...
【专利技术属性】
技术研发人员:王绍楠,陈舟锋,
申请(专利权)人:新华智云科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。