一种将语音转换成唇形的方法、系统、装置和存储介质制造方法及图纸

技术编号:24462301 阅读:46 留言:0更新日期:2020-06-10 17:22
本发明专利技术公开了一种将语音转换成唇形的方法、系统、装置和存储介质。通过使用长短期记忆网络对语音进行处理,能够达到较快的处理速度,以较少的耗时完成输出唇形关键点的过程,整个过程所造成的延迟较小。对长短期记忆网络的训练过程,能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析,更加准确地输出合适的唇形图像。设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程,通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理,可以消除预处理过程对长短期记忆网络形成的影响,使最终获得的唇形关键点具有合适的分布,便于后续应用生成对抗网络等进行视觉化处理。本发明专利技术广泛应用于语音数据技术领域。

A method, system, device and storage medium for converting speech into lip shape

【技术实现步骤摘要】
一种将语音转换成唇形的方法、系统、装置和存储介质
本专利技术涉及语音数据
,尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。
技术介绍
在虚拟主播等领域,广泛地存在将语音转换成唇形的需求。结合文字转换成语音的技术,然后将语音转换成唇形,再将唇形显示在计算机生成的人物头像上,可以使得枯燥无味的新闻稿转换成为逼真的嘴唇动作,提供良好的视觉体验。但是,现有技术普遍存在着计算量庞大、消耗时间多等缺点,在将语音转换成唇形这一过程本身就存在很大的延迟,如果现有技术所要处理的语音是来自文本转换得到的,所输出的唇形还需要应用到后续的变形或贴图等步骤,那么语音转换成唇形这一过程的延迟将会与其他过程的延迟叠加,造成容易察觉且不可忍受的时延,严重影响视觉体验。
技术实现思路
针对上述至少一个技术问题,本专利技术的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。一方面,本专利技术实施例包括一种将语音转换成唇形的方法,包括:使用长短期记忆网络接收语音并进行处理;获取所述长短期记忆网络输出的唇形关键点本文档来自技高网...

【技术保护点】
1.一种将语音转换成唇形的方法,其特征在于,包括以下步骤:/n使用长短期记忆网络接收语音并进行处理;/n获取所述长短期记忆网络输出的唇形关键点;/n所述长短期记忆网络接受过的训练过程,包括:/n构建训练集;所述训练集由语音样本和唇形关键点样本组成;/n通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;/n通过主成分分析,对各所述唇形关键点样本进行降维;/n使用线性插值,对各所述唇形关键点样本进行上采样;/n对各所述唇形关键点样本进行归一化。/n

【技术特征摘要】
1.一种将语音转换成唇形的方法,其特征在于,包括以下步骤:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述长短期记忆网络接受过的训练过程,包括:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化。


2.根据权利要求1所述的方法,其特征在于,还包括以下至少一个步骤:
通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。


3.根据权利要求1或2所述的方法,其特征在于,还包括对所述唇形关键点进行可视化的步骤。


4.根据权利要求3所述的方法,其特征在于,所述对所述唇形关键点进行可视化的步骤,包括:
使用生成对抗网络接收所述唇形关键点;
获取所述生成对抗网络输出的唇形图像。


5.根据权利要求1所述的方法,其特征在于,所述构建训练集这一步骤,包括:
拍摄讲话人进行讲话的视频;
从所述视频中获取截图和音频;
对所述截图进行唇形识别,从而获得所述唇形关键点样本;
从所述音...

【专利技术属性】
技术研发人员:黄桂芳李权叶俊杰王伦基任勇韩蓝青
申请(专利权)人:清华珠三角研究院赛业广州生物科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1