【技术实现步骤摘要】
音素检测方法及装置、训练方法及装置、设备和介质
[0001]本公开涉及人工智能领域,具体为深度学习、语音合成、计算机视觉和虚拟/增强现实、自然语言处理领域,尤其涉及音素检测方法及装置、训练方法及装置、设备和介质。
技术介绍
[0002]随着计算机动画技术的不断进步,音频驱动的虚拟形象人脸表情动画得到了发展,可应用于不同领域。其中,可通过输入音频,生成与音频流中各音素对象相符的虚拟形象人脸表情(含口型)动画,从而完成三维(3D)虚拟形象音频驱动。
[0003]目前,可以通过深度学习的音素检测模型,从音频流中识别出各音素对象,为了提升模型的预测效果,如何对音素检测模型进行训练是非常重要的。
技术实现思路
[0004]本公开提供了一种用于音素检测方法及装置、训练方法及装置、设备和介质。
[0005]根据本公开的一方面,提供了一种音素检测模型的训练方法,包括:
[0006]获取样本音频对应的音频频谱图;
[0007]将所述音频频谱图输入音素检测模型,以得到所述音素检测模型输出的至少一个 ...
【技术保护点】
【技术特征摘要】
1.一种音素检测模型的训练方法,所述方法包括:获取样本音频对应的音频频谱图;将所述音频频谱图输入音素检测模型,以得到所述音素检测模型输出的至少一个预测音素所属的第一子类别以及所述至少一个第一子类别对应的第一父类别;根据所述至少一个预测音素所属的第一子类别和所述样本音频上标注的至少一个标注音素所属的第二子类别,生成第一分类损失函数;根据所述至少一个预测音素对应的第一父类别和所述至少一个标注音素对应的第二父类别,生成第二分类损失函数;根据所述第一分类损失函数和所述第二分类损失函数,对所述音素检测模型进行训练。2.根据权利要求1所述的方法,其中,所述将所述音频频谱图输入音素检测模型,以得到所述音素检测模型输出的至少一个预测音素所属的第一子类别以及所述至少一个第一子类别对应的第一父类别,包括:采用所述音素检测模型对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置、所述至少一个音素预测框内频谱片段对应的预测音素所属的第一子类别以及所述至少一个第一子类别对应的第一父类别;所述样本音频上标注有至少一个音素标注框的位置、所述至少一个音素标注框内的标注音素所属的第二子类别以及所述至少一个第二子类别对应的第二父类别。3.根据权利要求2所述的方法,其中,所述采用所述音素检测模型对所述音频频谱图进行音素检测,包括:将所述音频频谱图输入所述音素检测模型中的第一预测层进行音素的回归预测,以得到至少一个音素预测框的位置;将所述音频频谱图输入所述音素检测模型中的第二预测层进行音素的类别预测,以得到所述至少一个音素预测框内频谱片段对应的预测音素所属的第一子类别;根据所述至少一个预测音素所属的第一子类别,查询子类别与父类别之间的映射关系,以确定至少一个第一子类别对应的第一父类别。4.根据权利要求2所述的方法,其中,所述采用所述音素检测模型对所述音频频谱图进行音素检测,包括:将所述音频频谱图输入所述音素检测模型中的第一预测层进行音素的回归预测,以得到至少一个音素预测框的位置;将所述音频频谱图输入所述音素检测模型中的第二预测层进行音素的子类别预测,以得到所述至少一个音素预测框内频谱片段对应的预测音素所属的第一子类别;将所述音频频谱图输入所述音素检测模型中的第三预测层进行音素的父类别预测,以得到所述至少一个音素预测框内频谱片段对应的预测音素所属的第一子类别所对应的第一父类别。5.根据权利要求4所述的方法,其中,所述将所述音频频谱图输入所述音素检测模型中的第二预测层进行音素的子类别预测,以得到所述至少一个音素预测框内频谱片段对应的预测音素所属的第一子类别,包括:采用所述第二预测层中的第一预测分支,对所述音频频谱图进行音素的子类别预测,
以确定所述至少一个音素预测框内的预测音素对应的多个候选子类别;采用所述第二预测层中的第二预测分支,对所述至少一个音素预测框内的预测音素对应的多个所述候选子类别进行置信度预测,得到所述至少一个音素预测框对应的多个所述候选子类别的置信度;根据所述至少一个音素预测框对应的多个所述候选子类别的置信度,从各所述候选子类别中筛选出所述至少一个音素预测框内的预测音素所属的第一子类别。6.根据权利要求5所述的方法,其中,所述根据所述至少一个预测音素所属的第一子类别和所述样本音频上标注的至少一个标注音素所属的第二子类别,生成第一分类损失函数,包括:根据所述第二预测分支输出的所述至少一个音素预测框内的预测音素对应的多个候选子类别的置信度以及至少一个第二子类别的置信度,生成第一分类损失函数。7.根据权利要求4所述的方法,其中,所述将所述音频频谱图输入所述音素检测模型中的第三预测层进行音素的父类别预测,以得到所述至少一个音素预测框内频谱片段对应的预测音素所属的第一子类别所对应的第一父类别,包括:采用所述第三预测层中的第三预测分支,对所述音频频谱图进行音素的父类别预测,以确定所述至少一个音素预测框内的预测音素对应的多个候选父类别;采用所述第三预测层中的第四预测分支,对所述至少一个音素预测框内的预测音素对应的多个所述候选父类别进行置信度预测,得到所述至少一个音素预测框对应的多个所述候选父类别的置信度;根据所述至少一个音素预测框对应的多个所述候选父类别的置信度,从各所述候选父类别中筛选出所述至少一个音素预测框内的预测音素所属的第一子类别所对应的第一父类别。8.根据权利要求7所述的方法,其中,所述根据所述至少一个预测音素对应的第一父类别和所述至少一个标注音素对应的第二父类别,生成第二分类损失函数,包括:根据所述第四预测分支输出的所述至少一个音素预测框内的预测音素对应的多个候选父类别的置信度以及至少一个第二父类别的置信度,生成第二分类损失函数。9.根据权利要求2所述的方法,其中,所述根据所述第一分类损失函数和所述第二分类损失函数,对所述音素检测模型进行训练,包括:根据所述至少一个音素预测框的位置和所述至少一个音素标注框的位置之间的差异,生成位置损失函数;将所述第一分类损失函数、所述第二分类损失函数和所述位置损失函数进行加权求和,以得到目标损失函数;根据所述目标损失函数,对所述音素检测模型进行训练,以使所述目标损失函数的取值最小化。10.根据权利要求1
‑
9中任一项所述的方法,其中,所述获取样本音频对应的音频频谱图,包括:获取所述样本音频;对所述样本音频进行频谱特征提取,以得到所述音频频谱图。11.一种音素检测方法,所述方法包括:
获取至少一个音频片段对应的目标音频频谱图;将所述目标音频频谱图输入至音素检测模型,以输出得到至少一个音素检测框的位置以及所述至少一个音素检测框内的目标音素所属的目标子类别;其中,所述音素检测模型是采用如权利要求1
‑
10中任一项所述的方法训练得到的。12.根据权利要求11所述的方法,其中,所述获取至少一个音频片段对应的目标音频频谱图,包括:获取输入文本,并将所述输入文本进行语音合成,得到音频流;根据设定时间间隔,对所述音频流进行切分,得到至少一个音频片段;对所述音频片段进行频谱特征提取,得到所述目标音频频谱图。13.根据权利要求12所述的方法,其中,所述音频片段为多个,所述方法还包括:根据多个所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内的目标音素所属的目标子类别,生成音素信息序列,其中,所述音素信息序列中的音素信息包括:各目标音素所属的目标子类别以及对应的发音时间段;获取音节序列,其中,所述音节序列与所述音频流对应相同的文本;根据所述音节序列、所述音素信息序列中的各目标音素所属的目标子类别以及对应的发音时间段,确定所述音节序列中音节对应的发音时间段;根据所述音节序列中所述音节对应的发音时间段以及所述音节对应的动画帧序列,生成所述音频流对应的动画视频。14.根据权利要求13所述的方法,其中,所述根据多个所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内的目标音素所属的目标子类别,生成音素信息序列,包括:针对每个所述音频片段,根据所述音频片段中至少一个音素检测框的位置和所述至少一个音素检测框内的目标音素所属的目标子类别,生成音素信息子序列;按照各所述音频片段在所述音频流中的位置,对各所述音素信息子序列进行合并处理,以得到所述音素信息序列。15.一种音素检测模型的训练装置,所述装置包括:第一获取模块,用于获取样本音频对应的音频频谱图;第一输入模块,用于将所述音频频谱图输入音素...
【专利技术属性】
技术研发人员:杨少雄,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。