音素级的发音纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:33122171 阅读:15 留言:0更新日期:2022-04-17 00:26
本申请公开了一种音素级的发音纠错方法、装置、设备及存储介质,属于计算机与互联网技术领域。所述方法包括:获取跟读文本对应的跟读音频数据;获取跟读音频数据中各个音频帧分别对应的音频特征,以及获取跟读文本包含的音素的音素特征;将各个音频帧分别对应的音频特征与音素特征分别进行融合,得到各个音频帧分别对应的融合特征;根据各个音频帧分别对应的融合特征,获取跟读音频数据包含的至少一个音素数据,以及各个音素数据的读错概率;基于各个音素数据的读错概率,确定跟读音频数据中的读错音素。本申请中,不需要依据跟读文本包含的音素生成标准发音数据,简化音素判错流程,提高音素判错的处理效率。提高音素判错的处理效率。提高音素判错的处理效率。

【技术实现步骤摘要】
音素级的发音纠错方法、装置、设备及存储介质


[0001]本申请涉及计算机与互联网
,特别涉及一种音素级的发音纠错方法、装置、设备及存储介质。

技术介绍

[0002]目前,在口语测评中可以从音素级别对用户跟读的声音数据进行音素判错。
[0003]在相关技术中,在口语测评中,获取声音数据之后,将声音数据中的发音段与标准发音数据中的发音段进行比对,如果对比中出现部分不同的音素,则确定声音数据中的该音素读错。
[0004]然而,在上述相关技术中,对声音数据的音素判错依赖于外部的标准发音数据,在口语测评之前需要生成标准发音数据,测评流程繁琐。

技术实现思路

[0005]本申请实施例提供了一种音素级的发音纠错方法、装置、设备及存储介质,简化音素判错流程,提高音素判错的处理效率。所述技术方案如下。
[0006]根据本申请实施例的一个方面,提供了一种音素级的发音纠错方法,所述方法包括以下步骤:
[0007]获取跟读文本对应的跟读音频数据;
[0008]获取所述跟读音频数据中各个音频帧分别对应的音频特征,以及获取所述跟读文本包含的音素的音素特征;
[0009]将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征;
[0010]根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;
[0011]基于各个所述音素数据的读错概率,确定所述跟读音频数据中的读错音素。
[0012]根据本申请实施例的一个方面,提供了一种音素检测模型的训练方法,所述方法包括以下步骤:
[0013]获取所述音素检测模型的训练样本,所述训练样本包括样本跟读文本和所述样本跟读文本对应的样本跟读音频数据;
[0014]获取所述样本跟读音频数据中各个样本音频帧分别对应的音频特征,以及获取所述样本跟读文本包含的音素的音素特征;
[0015]将各个所述样本音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个音频帧分别对应的融合特征;
[0016]根据各个所述样本音频帧分别对应的融合特征,获取所述样本跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;
[0017]基于各个所述音素数据的读错概率,确定所述样本跟读音频数据的音素检测结
果;
[0018]根据所述音素检测结果和所述训练样本的标签计算所述音素检测模型的训练损失,根据所述训练损失调整所述音素检测模型的参数。
[0019]根据本申请实施例的一个方面,提供了一种音素级的发音纠错装置,所述装置包括以下模块:
[0020]音频获取模块,用于获取跟读文本对应的跟读音频数据;
[0021]特征获取模块,用于获取所述跟读音频数据中各个音频帧分别对应的音频特征,以及获取所述跟读文本包含的音素的音素特征;
[0022]特征融合模块,用于将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征;
[0023]概率获取模块,用于根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;
[0024]音素判错模块,用于基于各个所述音素数据的读错概率,确定所述跟读音频数据中的读错音素。
[0025]根据本申请实施例的一个方面,提供了一种音素检测模型的训练装置,所述装置包括以下模块:
[0026]样本获取模块,用于获取所述音素检测模型的训练样本,所述训练样本包括样本跟读文本和所述样本跟读文本对应的样本跟读音频数据;
[0027]特征确定模块,用于获取所述样本跟读音频数据中各个样本音频帧分别对应的音频特征,以及获取所述样本跟读文本包含的音素的音素特征;
[0028]特征处理模块,用于将各个所述样本音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个音频帧分别对应的融合特征;
[0029]概率确定模块,用于根据各个所述样本音频帧分别对应的融合特征,获取所述样本跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;
[0030]结果确定模块,用于基于各个所述音素数据的读错概率,确定所述样本跟读音频数据的音素检测结果;
[0031]损失获取模块,用于根据所述音素检测结果和所述训练样本的标签计算所述音素检测模型的训练损失;
[0032]参数调整模块,用于根据所述训练损失调整所述音素检测模型的参数。
[0033]根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述音素级的发音纠错方法,或实现上述音素检测模型的训练方法。
[0034]根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述音素级的发音纠错方法,或实现上述音素检测模型的训练方法。
[0035]根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音素级的发音纠错方法,或实现上述音素检测模型的训练方法。
[0036]本申请实施例提供的技术方案可以带来如下有益效果:
[0037]通过音频帧的音频特征和跟读文本包含的音素的音素特征的融合,获取各个音频帧分别对应的融合特征,使得融合特征在表征音频帧的音频特征的同时,也能够表征音素特征,进一步地,根据融合特征获取跟读音频数据包含的音素数据和音素数据的读错概率,在针对跟读音频数据的音素判错过程中,除了对跟读音频数据的音频特征进行处理之外,还考虑到了跟读文本包含的音素的音素特征,提高音素判错的准确度;而且,将跟读文本包含的音素的音素特征融合至音频特征中,在后续通过融合特征即可进行音素判错时,不需要依据跟读文本包含的音素生成标准发音数据,简化音素判错流程,提高音素判错的处理效率。
附图说明
[0038]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本申请一个实施例提供的音素级的发音纠错系统的示意图;
[0040]图2示例性示出了一种音素级的发音纠错系统的示意图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音素级的发音纠错方法,其特征在于,所述方法包括:获取跟读文本对应的跟读音频数据;获取所述跟读音频数据中各个音频帧分别对应的音频特征,以及获取所述跟读文本包含的音素的音素特征;将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征;根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;基于各个所述音素数据的读错概率,确定所述跟读音频数据中的读错音素。2.根据权利要求1所述的方法,其特征在于,所述将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征,包括:对于各个所述音频帧中的目标音频帧,根据所述音素特征和所述目标音频帧对应的音频特征,生成所述目标音频帧对应的待拼接特征;将所述目标音频帧对应的音频特征和所述目标音频帧对应的待拼接特征进行拼接,得到所述目标音频帧对应的融合特征。3.根据权利要求1所述的方法,其特征在于,所述根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率,包括:根据各个所述音频帧分别对应的融合特征,对所述跟读音频数据进行音素分类和音素判错,得到各个所述音频帧分别对应的音素识别结果;其中,所述音素识别结果中包括所述音频帧对应的单帧音素数据,以及所述单帧音素数据对应的读错概率;对各个所述音素识别结果进行时序合并处理,得到所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率。4.根据权利要求3所述的方法,其特征在于,所述根据各个所述音频帧分别对应的融合特征,对所述跟读音频数据进行音素分类和音素判错,得到各个所述音频帧分别对应的音素识别结果,包括:对于各个所述音频帧中的目标音频帧,根据所述目标音频帧对应的融合特征,以及所述目标音频帧对应的融合特征在时序上的相邻融合特征,得到所述目标音频帧对应的局部特征;根据各个所述音频帧分别对应的局部特征,对所述跟读音频数据进行音素分类和音素判错,得到各个所述音频帧分别对应的音素识别结果。5.根据权利要求3所述的方法,其特征在于,所述对各个所述音素识别结果进行时序合并处理,得到所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概,包括:基于各个所述音频帧在所述跟读音频数据中的时间顺序,将各个所述音素识别结果包含的单帧音素数据进行排序,得到排序后的单帧音素数据;将所述排序后的单帧音素数据中的相邻且相同音素数据合并为同一音素数据,得到所述跟读音频数据包含的至少一个音素数据;对于所述至少一个音素数据中的目标音素数据,根据所述目标音素数据对应的单帧音
素数据的读错概率,确定所述目标音素数据的读错概率。6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于各个所述音素数据的读错概率,确定所述跟读音频数据中的读错音素,包括:将所述读错概率满足条件的音素数据,确定为所述跟读音频数据中的第一读错音素;其中,所述第一读错音素是指所述跟读音频数据中发音不准确的音素。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:若所述跟读音频数据包含的音素数据中存在与所述跟读文本包含的音素不匹配的音素数据,则将所述不匹配的音素数据确定为所述跟读音频数据中的第二读错音素;其中,所述第二读错音素是指所述跟读音频数据中相对于所述跟读文本的错误音素。8.一种音素检测模型的训练方法,其特征在于,所述方法包括:获取所述音素检测模型的训练样本,所述训练样本包括样本跟读文本和所述样本跟读文本对应的样本跟读音频数据;获取所述样本跟读音频数据中各个样本音频帧分别对应的音频特征,以及获取所述样本跟读文本包含的音素的音素特征;将各个所述样本音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个音频帧分别对应的融合特征;根据各个所述样本音频帧分别对应的融合特征,获取所述样本跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;基于各个所述音素数据的读错概率,确定所述样本跟读音频数据的音素检测结果;根据所述音素检测结果和所...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1