【技术实现步骤摘要】
音素级的发音纠错方法、装置、设备及存储介质
[0001]本申请涉及计算机与互联网
,特别涉及一种音素级的发音纠错方法、装置、设备及存储介质。
技术介绍
[0002]目前,在口语测评中可以从音素级别对用户跟读的声音数据进行音素判错。
[0003]在相关技术中,在口语测评中,获取声音数据之后,将声音数据中的发音段与标准发音数据中的发音段进行比对,如果对比中出现部分不同的音素,则确定声音数据中的该音素读错。
[0004]然而,在上述相关技术中,对声音数据的音素判错依赖于外部的标准发音数据,在口语测评之前需要生成标准发音数据,测评流程繁琐。
技术实现思路
[0005]本申请实施例提供了一种音素级的发音纠错方法、装置、设备及存储介质,简化音素判错流程,提高音素判错的处理效率。所述技术方案如下。
[0006]根据本申请实施例的一个方面,提供了一种音素级的发音纠错方法,所述方法包括以下步骤:
[0007]获取跟读文本对应的跟读音频数据;
[0008]获取所述跟读音频数据中各个音频帧分别对应的音频特征,以及获取所述跟读文本包含的音素的音素特征;
[0009]将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征;
[0010]根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;
[0011]基于各个所述音素数据的读错概率,确定所述跟读音频数据中 ...
【技术保护点】
【技术特征摘要】
1.一种音素级的发音纠错方法,其特征在于,所述方法包括:获取跟读文本对应的跟读音频数据;获取所述跟读音频数据中各个音频帧分别对应的音频特征,以及获取所述跟读文本包含的音素的音素特征;将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征;根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;基于各个所述音素数据的读错概率,确定所述跟读音频数据中的读错音素。2.根据权利要求1所述的方法,其特征在于,所述将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个所述音频帧分别对应的融合特征,包括:对于各个所述音频帧中的目标音频帧,根据所述音素特征和所述目标音频帧对应的音频特征,生成所述目标音频帧对应的待拼接特征;将所述目标音频帧对应的音频特征和所述目标音频帧对应的待拼接特征进行拼接,得到所述目标音频帧对应的融合特征。3.根据权利要求1所述的方法,其特征在于,所述根据各个所述音频帧分别对应的融合特征,获取所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率,包括:根据各个所述音频帧分别对应的融合特征,对所述跟读音频数据进行音素分类和音素判错,得到各个所述音频帧分别对应的音素识别结果;其中,所述音素识别结果中包括所述音频帧对应的单帧音素数据,以及所述单帧音素数据对应的读错概率;对各个所述音素识别结果进行时序合并处理,得到所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率。4.根据权利要求3所述的方法,其特征在于,所述根据各个所述音频帧分别对应的融合特征,对所述跟读音频数据进行音素分类和音素判错,得到各个所述音频帧分别对应的音素识别结果,包括:对于各个所述音频帧中的目标音频帧,根据所述目标音频帧对应的融合特征,以及所述目标音频帧对应的融合特征在时序上的相邻融合特征,得到所述目标音频帧对应的局部特征;根据各个所述音频帧分别对应的局部特征,对所述跟读音频数据进行音素分类和音素判错,得到各个所述音频帧分别对应的音素识别结果。5.根据权利要求3所述的方法,其特征在于,所述对各个所述音素识别结果进行时序合并处理,得到所述跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概,包括:基于各个所述音频帧在所述跟读音频数据中的时间顺序,将各个所述音素识别结果包含的单帧音素数据进行排序,得到排序后的单帧音素数据;将所述排序后的单帧音素数据中的相邻且相同音素数据合并为同一音素数据,得到所述跟读音频数据包含的至少一个音素数据;对于所述至少一个音素数据中的目标音素数据,根据所述目标音素数据对应的单帧音
素数据的读错概率,确定所述目标音素数据的读错概率。6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于各个所述音素数据的读错概率,确定所述跟读音频数据中的读错音素,包括:将所述读错概率满足条件的音素数据,确定为所述跟读音频数据中的第一读错音素;其中,所述第一读错音素是指所述跟读音频数据中发音不准确的音素。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:若所述跟读音频数据包含的音素数据中存在与所述跟读文本包含的音素不匹配的音素数据,则将所述不匹配的音素数据确定为所述跟读音频数据中的第二读错音素;其中,所述第二读错音素是指所述跟读音频数据中相对于所述跟读文本的错误音素。8.一种音素检测模型的训练方法,其特征在于,所述方法包括:获取所述音素检测模型的训练样本,所述训练样本包括样本跟读文本和所述样本跟读文本对应的样本跟读音频数据;获取所述样本跟读音频数据中各个样本音频帧分别对应的音频特征,以及获取所述样本跟读文本包含的音素的音素特征;将各个所述样本音频帧分别对应的音频特征与所述音素特征分别进行融合,得到各个音频帧分别对应的融合特征;根据各个所述样本音频帧分别对应的融合特征,获取所述样本跟读音频数据包含的至少一个音素数据,以及各个所述音素数据的读错概率;基于各个所述音素数据的读错概率,确定所述样本跟读音频数据的音素检测结果;根据所述音素检测结果和所...
【专利技术属性】
技术研发人员:林炳怀,王丽园,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。