【技术实现步骤摘要】
一种将语音转换成唇形的方法、系统、装置和存储介质
本专利技术涉及语音数据
,尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。
技术介绍
在虚拟主播等领域,广泛地存在将语音转换成唇形的需求。结合文字转换成语音的技术,然后将语音转换成唇形,再将唇形显示在计算机生成的人物头像上,可以使得枯燥无味的新闻稿转换成为逼真的嘴唇动作,提供良好的视觉体验。但是,现有技术普遍存在着计算量庞大、消耗时间多等缺点,在将语音转换成唇形这一过程本身就存在很大的延迟,如果现有技术所要处理的语音是来自文本转换得到的,所输出的唇形还需要应用到后续的变形或贴图等步骤,那么语音转换成唇形这一过程的延迟将会与其他过程的延迟叠加,造成容易察觉且不可忍受的时延,严重影响视觉体验。
技术实现思路
针对上述至少一个技术问题,本专利技术的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。一方面,本专利技术实施例包括一种将语音转换成唇形的方法,包括:使用长短期记忆网络接收语音并进行处理;获取所述长短期记忆 ...
【技术保护点】
1.一种将语音转换成唇形的方法,其特征在于,包括以下步骤:/n使用长短期记忆网络接收语音并进行处理;/n获取所述长短期记忆网络输出的唇形关键点;/n所述长短期记忆网络接受过的训练过程,包括:/n构建训练集;所述训练集由语音样本和唇形关键点样本组成;/n通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;/n通过主成分分析,对各所述唇形关键点样本进行降维;/n使用线性插值,对各所述唇形关键点样本进行上采样;/n对各所述唇形关键点样本进行归一化。/n
【技术特征摘要】
1.一种将语音转换成唇形的方法,其特征在于,包括以下步骤:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述长短期记忆网络接受过的训练过程,包括:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化。
2.根据权利要求1所述的方法,其特征在于,还包括以下至少一个步骤:
通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。
3.根据权利要求1或2所述的方法,其特征在于,还包括对所述唇形关键点进行可视化的步骤。
4.根据权利要求3所述的方法,其特征在于,所述对所述唇形关键点进行可视化的步骤,包括:
使用生成对抗网络接收所述唇形关键点;
获取所述生成对抗网络输出的唇形图像。
5.根据权利要求1所述的方法,其特征在于,所述构建训练集这一步骤,包括:
拍摄讲话人进行讲话的视频;
从所述视频中获取截图和音频;
对所述截图进行唇形识别,从而获得所述唇形关键点样本;
从所述音...
【专利技术属性】
技术研发人员:黄桂芳,李权,叶俊杰,王伦基,任勇,韩蓝青,
申请(专利权)人:清华珠三角研究院,赛业广州生物科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。