图像生成方法、存储介质和电子设备技术

技术编号:29227642 阅读:14 留言:0更新日期:2021-07-10 01:14
本发明专利技术实施例公开了一种图像生成方法、存储介质和电子设备。本发明专利技术实施例在确定目标音频中各音频片段对应的音素标签后,根据各音素标签确定各音频片段的对应的唇部宽度和唇部高度,并根据各音频片段对应的唇部宽度和唇部高度生成目标形象对应的唇部图像序列。本发明专利技术实施例基于音素标签确定发音时应呈现出的唇部宽度和唇部高度,根据目标音频中各音频片段对应的唇部宽度和唇部高度自动生成目标音频对应的唇部图像序列,有效降低了通过可视化方式进行词语发音学习的图像获取成本。式进行词语发音学习的图像获取成本。式进行词语发音学习的图像获取成本。

【技术实现步骤摘要】
图像生成方法、存储介质和电子设备


[0001]本专利技术涉及数据处理
,具体涉及一种图像生成方法、存储介质和电子设备。

技术介绍

[0002]随着互联网和计算机技术的不断普及,线上教学活动,特别是语言类线上教学活动因此变得越来越频繁。语言的学习对于学习者是至关重要的,而词语发音则是语言学习中的基础,因此词语发音的学习是语言类线上教学活动中必不可少的一个环节。词语发音的线上教学方式通过需要通过可视化方式向学习者展示词语发音过程中的唇形变化,但不同的语言具有不同的发音方式,且词语数量十分庞大,因此通过录制真人的唇形变化的方式显然是不现实的。

技术实现思路

[0003]有鉴于此,本专利技术实施例的目的在于提供一种图像生成方法、存储介质和电子设备,用于根据目标音频中各音频片段对应的音素标签自动生成音频对应的唇部图像序列,有效降低了通过可视化方式进行词语发音学习的图像获取成本。
[0004]根据本专利技术实施例的第一方面,提供一种图像生成方法,所述方法包括:
[0005]获取目标音频;
[0006]确定所述目标音频中各音频片段对应的音素标签;
[0007]根据各所述音素标签确定各所述音频片段对应的人脸特征参数,所述人脸特征参数包括唇部宽度和唇部高度;
[0008]根据各所述唇部宽度和对应的所述唇部高度确定目标形象的唇部图像序列。
[0009]优选地,所述方法还包括:
[0010]根据各所述唇部宽度和对应的所述唇部高度确定所述目标形象的面部图像序列。<br/>[0011]优选地,所述确定所述目标音频中各音频片段对应的音素标签包括:
[0012]基于预定的语音识别模型对所述目标音频进行语音识别,确定各所述音频片段对应的所述音素标签。
[0013]优选地,所述根据各所述音素标签确定各所述音频片段对应的人脸特征参数包括:
[0014]根据各所述音素标签确定各所述音频片段对应的特征向量;
[0015]根据各所述特征向量,基于预定的特征识别模型确定各所述音频片段对应的所述唇部宽度以及所述唇部高度。
[0016]优选地,所述特征向量为所述音频片段的独热向量;
[0017]所述根据各所述音素标签确定各所述音频片段对应的特征向量包括:
[0018]基于预先确定的音素表确定各所述音素标签在所述音素表中的排序位置;
[0019]对于各所述音频片段,根据对应的所述排序位置确定对应的所述独热向量。
[0020]优选地,所述语音识别模型基于第一样本集合训练获得,所述第一样本集合包括多个第一样本,各所述第一样本包括第一音频片段和所述第一音频片段对应的音素标识。
[0021]优选地,所述特征识别模型基于第二样本集合训练获得,所述第二样本集合包括多个第二样本,各所述第二样本包括第二音频片段以及各所述第二音频片段对应的唇部宽度和唇部高度。
[0022]优选地,所述根据各所述唇部宽度和对应的所述唇部高度确定目标形象的唇部图像序列包括:
[0023]获取所述目标形象对应的目标图像;
[0024]确定所述目标图像中所述目标形象的原始唇部关键点位置;
[0025]根据各所述唇部宽度、对应的所述唇部高度以及所述原始唇部关键点位置,基于预先训练的关键点预测模型,确定所述目标形象的实际唇部关键点位置;
[0026]根据各所述实际唇部关键点位置确定所述唇部图像序列。
[0027]优选地,所述关键点预测模型基于第三样本集合训练获得,所述第三样本集合包括多个第三样本,各所述第三样本包括预定形象的初始唇部关键点位置、第三音频片段的唇部高度、唇部宽度和所述预定形象目标唇部关键点位置。
[0028]根据本专利技术实施例的第二方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
[0029]根据本法实施例的第三方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
[0030]本专利技术实施例在确定目标音频中各音频片段对应的音素标签后,根据各音素标签确定各音频片段的对应的唇部宽度和唇部高度,并根据各音频片段对应的唇部宽度和唇部高度生成目标形象对应的唇部图像序列。本专利技术实施例基于音素标签确定发音时应呈现出的唇部宽度和唇部高度,根据目标音频中各音频片段对应的唇部宽度和唇部高度自动生成目标音频对应的唇部图像序列,有效降低了通过可视化方式进行词语发音学习的图像获取成本。本专利技术实施例使用音频片段对应的音素标签生成发音唇部图像的方法,极大的提升了从音频片段生成对应发音唇部图像的泛化能力。本专利技术实施例采用先基于对应音素标签生成唇部宽度和唇部高度序列,再根据唇部宽度和唇部高度序列生成对应发音唇部图像序列的方式,使得两部分模型可以分别使用相同或不同的数据进行训练,增加了从音素标签生成唇部图像方法的灵活性与实际应用能力。
附图说明
[0031]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:
[0032]图1是本专利技术第一实施例的图像生成方法的流程图;
[0033]图2是本专利技术第一实施例的一种可选的实现方式中确定人脸特征参数的流程图;
[0034]图3是本专利技术实施例的唇部关键点的示意图;
[0035]图4是本专利技术第一实施例的一种可选的实现方式中确定唇部图像序列的流程图;
[0036]图5是本专利技术第二实施例的电子设备的示意图。
具体实施方式
[0037]以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
[0038]此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0039]除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0040]在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0041]在传统的词语发音的学习过程中,学习者通常需要通过模仿教学者的唇形变化和模仿教学者的发音变化这两种方式完成较为标准的词语发音学习,因此词语发音的线上教学方式作为一种词语发音的学习方式同样需要通过可视化的方式进行词语的发音教学。但不同的语言具有不同的发音方式,且词语数量十分庞大,因此通过录制真人的唇形变化的方式所需要耗费本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,其特征在于,所述方法包括:获取目标音频;确定所述目标音频中各音频片段对应的音素标签;根据各所述音素标签确定各所述音频片段对应的人脸特征参数,所述人脸特征参数包括唇部宽度和唇部高度;根据各所述唇部宽度和对应的所述唇部高度确定目标形象的唇部图像序列。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据各所述唇部宽度和对应的所述唇部高度确定所述目标形象的面部图像序列。3.根据权利要求1所述的方法,其特征在于,所述确定所述目标音频中各音频片段对应的音素标签包括:基于预定的语音识别模型对所述目标音频进行语音识别,确定各所述音频片段对应的所述音素标签。4.根据权利要求1所述的方法,其特征在于,所述根据各所述音素标签确定各所述音频片段对应的人脸特征参数包括:根据各所述音素标签确定各所述音频片段对应的特征向量;根据各所述特征向量,基于预定的特征识别模型确定各所述音频片段对应的所述唇部宽度以及所述唇部高度。5.根据权利要求4所述的方法,其特征在于,所述特征向量为所述音频片段的独热向量;所述根据各所述音素标签确定各所述音频片段对应的特征向量包括:基于预先确定的音素表确定各所述音素标签在所述音素表中的排序位置;对于各所述音频片段,根据对应的所述排序位置确定对应的所述独热向量。6.根据权利要求3所述的方法,其特征在于,所述语音识别模型基于第一样本集合训练获得,所述第一样本集合包括多个第一样本,各所述第一样本包括第一音频片段和所...

【专利技术属性】
技术研发人员:冯富森闫嵩
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1