模型训练数据的筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35509379 阅读:15 留言:0更新日期:2022-11-09 14:23
本发明专利技术实施例提供了一种模型训练数据的筛选方法、装置、电子设备及存储介质,所述方法包括:通过获取第一训练音频和第二训练音频,对第一训练音频和第二训练音频进行对齐处理,获取到处于同一幅值的第一目标音频和第二目标音频,分别获取第一目标音频的第一滑窗相似度,第二目标音频的第二滑窗相似度,以及第一目标音频与第二目标音频之间的过零率比值和平均能量比值,若第一滑窗相似度、第二滑窗相似度、过零率比值和平均能量比值均符合预设条件,则将第一目标音频与第二目标音频作为目标模型训练数据,从而避免了人工逐一筛选音频,通过自动筛选出相似度高的模型训练数据,提高了筛选效率和筛选质量,进而提高语音识别模型的识别能力。的识别能力。的识别能力。

【技术实现步骤摘要】
模型训练数据的筛选方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音处理
,特别是涉及一种模型训练数据的筛选方法、一种模型训练数据的筛选装置、一种电子设备以及一种计算机可读存储介质。

技术介绍

[0002]音频,指的是人耳能够在声音幅度20Hz~20kHz之间听到的声波,其可以表征用于存储声音内容的文件或者滤波的振动等,在数字领域中,音频信号为由一个个数字记号(二进制中的0和1)组成的离散信号,而非采用物理手段来保存信号,如用普通磁带进行录音。
[0003]在语音训练场景中,若直接使用与语音识别模型对应的采样率不同的音频训练该语音识别模型,语音识别模型的训练效果差,且用于制作语音识别模型的音频数量是有限的,采用越多与语音识别模型对应的采样率匹配的音频训练语音识别模型,语音识别模型的效果更好、精准度更高。
[0004]因此,为了获得更多与语音识别模型匹配的音频,现有技术中存在多种转化不同采样率音频的方法,一种是直接对不同采样率的音频进行数字转换,例如,在音频上直接增加或者减少采样点,这种直接增加或者减少采样点的方式容易使音频失真或者音频数据出现误差,另一种是使用真实的信道进行仿真,在仿真过程中先将原音频播放出来,然后对播放出来的音频进行重采样,这种对原音频仿真后重采样的方式则受环境噪音和信道扰动等环境因素的影响较大,音频容易丢帧或者信噪比降低,然而,在实际的音频筛选过程中,往往需要用户对音频进行人工筛选,将筛选后的多条相似音频用作语音识别模型的模型训练数据,但是在面对大量音频时,人工筛选的方式不仅浪费了大量的人力资源、筛选音频的效率低下,而且存在筛选的音频相似度不高等问题。

技术实现思路

[0005]本专利技术实施例是提供一种模型训练数据的筛选方法、装置、电子设备以及计算机可读存储介质,以解决在筛选模型训练数据的过程中,筛选的音频质量差、相似度低以及筛选的效率低下的问题。
[0006]本专利技术实施例公开了一种模型训练数据的筛选方法,所述方法包括:
[0007]从各条初始音频中获取第一训练音频与第二训练音频;
[0008]获取所述第一训练音频与所述第二训练音频之间的互相关系数序列,将所述数值最大的互相关系数作为所述第一训练音频与所述第二训练音频的音频对齐点;
[0009]根据所述音频对齐点对所述第一训练音频与所述第二训练音频进行对齐处理,获得所述第一训练音频对应的第一目标音频以及所述第二训练音频对应的第二目标音频;
[0010]获取所述第一目标音频的第一滑窗相似度方差,所述第二目标音频的第二滑窗相似度方差,以及所述第一目标音频与所述第二目标音频之间的过零率比值和平均能量比值;
[0011]若所述第一滑窗相似度方差与所述第二滑窗相似度方差小于或等于预设滑窗相
似度方差,且所述过零率比值与所述平均能量比值位于预设音频参数范围,则将所述第一目标音频与所述第二目标音频作为用于训练语音识别模型的目标模型训练数据。
[0012]可选地,所述从各条初始音频中获取第一训练音频与第二训练音频,包括:
[0013]从用于训练的初始模型训练数据中选取两条初始音频,并对所述两条初始音频的帧序列进行幅度归一化处理,获得音频幅值处于同一幅值范围的所述第一训练音频与所述第二训练音频。
[0014]可选地,所述两条初始音频包括第一初始音频和第二初始音频,所述获得音频幅值处于同一幅值范围的所述第一训练音频与所述第二训练音频,包括:
[0015]分别对所述第一初始音频和所述第二初始音频进行分帧处理,获得与所述第一初始音频的第一帧序列以及所述第二初始音频的第二帧序列;
[0016]获取所述第一初始音频的第一采样率和所述第二初始音频的第二采样率;
[0017]若所述第一采样率小于所述第二采样率,则在所述第一帧序列中等间隔插入至少一个零值点,生成所述音频幅值处于同一幅值范围的所述第一训练音频;
[0018]若所述第二采样率小于所述第一采样率,则在所述第二帧序列中等间隔插入至少一个零值点,生成所述音频幅值处于同一幅值范围的所述第二训练音频。
[0019]可选地,所述根据所述音频对齐点对所述第一训练音频与所述第二训练音频进行对齐处理,获得所述第一训练音频对应的第一目标音频以及所述第二训练音频对应的第二目标音频,包括:
[0020]根据所述音频对齐点对所述第一训练音频与所述第二训练音频进行对齐处理,确定与所述对齐处理对应的对齐区域和非对齐区域;
[0021]响应于针对所述非对齐区域的删除处理,获得所述第一训练音频对应的第一目标音频以及所述第二训练音频对应的第二目标音频。
[0022]可选地,所述第一目标音频与所述第二目标音频在同一所述幅值范围内对应有同一窗函数,所述获取所述第一训练音频的第一滑窗相似度方差,所述第二训练音频的第二滑窗相似度方差,包括:
[0023]通过所述窗函数对所述第一目标音频和所述第二目标音频进行加窗处理,生成与所述第一目标音频对应的各个第一滑窗以及与所述第二目标音频对应的各个第二滑窗;
[0024]获取各条所述第一滑窗对应的第一自相关系数,并采用所述互相关系数和所述第一自相关系数确定与所述各个第一滑窗对应的各个第一滑窗相似度以及第一滑窗相似度方差;
[0025]获取各条所述第二滑窗对应的第二自相关系数,并采用所述互相关系数和所述第二自相关系数确定与所述各个第二滑窗对应的各个第二滑窗相似度以及第二滑窗相似度方差。
[0026]可选地,所述获取所述第一目标音频与所述第二目标音频之间的过零率比值、平均能量比值,包括:
[0027]获取所述第一目标音频对应的第一过零率和第一平均能量,以及所述第二目标音频对应的第二过零率和第二平均能量;
[0028]采用所述第一过零率与所述第二过零率,计算所述第一目标音频与所述第二目标音频之间的过零率比值;
[0029]采用所述第一平均能量与所述第二平均能量,计算确定所述第一目标音频与所述第二目标音频之间的平均能量比值。
[0030]可选地,所述预设音频参数范围包括预设过零率比值范围和预设平均能量比值范围,所述若所述第一滑窗相似度方差与所述第二滑窗相似度方差小于或等于预设滑窗相似度方差,且所述过零率比值与所述平均能量比值位于预设音频参数范围,则将所述第一目标音频与所述第二目标音频作为用于训练语音识别模型的目标模型训练数据,包括:
[0031]若所述第一目标音频的第一滑窗相似度方差与所述第二目标音频的第二滑窗相似度方差小于或等于预设滑窗相似度方差,且连续三个所述第一滑窗相似度和所述第二滑窗相似度大于或等于预设滑窗相似度;
[0032]和,若所述过零率比值位于预设过零率比值范围,且所述平均能量比值位于预设平均能量比值范围,则将所述第一目标音频与所述第二目标音频作为用于训练语音识别模型的目标模型训练数据。
[0033]本专利技术实施例公开了一种模型训练数据的筛选装置,所述装置包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练数据的筛选方法,其特征在于,包括:从各条初始音频中获取第一训练音频与第二训练音频;获取所述第一训练音频与所述第二训练音频之间的互相关系数序列,将所述数值最大的互相关系数作为所述第一训练音频与所述第二训练音频的音频对齐点;根据所述音频对齐点对所述第一训练音频与所述第二训练音频进行对齐处理,获得所述第一训练音频对应的第一目标音频以及所述第二训练音频对应的第二目标音频;获取所述第一目标音频的第一滑窗相似度方差,所述第二目标音频的第二滑窗相似度方差,以及所述第一目标音频与所述第二目标音频之间的过零率比值和平均能量比值;若所述第一滑窗相似度方差与所述第二滑窗相似度方差小于或等于预设滑窗相似度方差,且所述过零率比值与所述平均能量比值位于预设音频参数范围,则将所述第一目标音频与所述第二目标音频作为用于训练语音识别模型的目标模型训练数据。2.根据权利要求1所述的方法,其特征在于,所述从各条初始音频中获取第一训练音频与第二训练音频,包括:从用于训练的初始模型训练数据中选取两条初始音频,并对所述两条初始音频的帧序列进行幅度归一化处理,获得音频幅值处于同一幅值范围的所述第一训练音频与所述第二训练音频。3.根据权利要求2所述的方法,其特征在于,所述两条初始音频包括第一初始音频和第二初始音频,所述获得音频幅值处于同一幅值范围的所述第一训练音频与所述第二训练音频,包括:分别对所述第一初始音频和所述第二初始音频进行分帧处理,获得与所述第一初始音频的第一帧序列以及所述第二初始音频的第二帧序列;获取所述第一初始音频的第一采样率和所述第二初始音频的第二采样率;若所述第一采样率小于所述第二采样率,则在所述第一帧序列中等间隔插入至少一个零值点,生成所述音频幅值处于同一幅值范围的所述第一训练音频;若所述第二采样率小于所述第一采样率,则在所述第二帧序列中等间隔插入至少一个零值点,生成所述音频幅值处于同一幅值范围的所述第二训练音频。4.根据权利要求3所述的方法,其特征在于,所述根据所述音频对齐点对所述第一训练音频与所述第二训练音频进行对齐处理,获得所述第一训练音频对应的第一目标音频以及所述第二训练音频对应的第二目标音频,包括:根据所述音频对齐点对所述第一训练音频与所述第二训练音频进行对齐处理,确定与所述对齐处理对应的对齐区域和非对齐区域;响应于针对所述非对齐区域的删除处理,获得所述第一训练音频对应的第一目标音频以及所述第二训练音频对应的第二目标音频。5.根据权利要求2所述的方法,其特征在于,所述第一目标音频与所述第二目标音频在同一所述幅值范围内对应有同一窗函数,所述获取所述第一训练音频的第一滑窗相似度方差,所述第二训练音频的第二滑窗相似度方差,包括:通过所述窗函数对所述第一目标音频和所述第二目标音频进行加窗处理,生成与所述第一目标音频对应的各个第一滑窗以及与所述第二目标音频对应的各个第二滑窗;获取各条所述第一滑窗对应的第一自相关系数,并采用所述互相关系数和所述第一自
相关系数确定与所述各个第一滑窗对应的各个第一滑窗相似度以及第一滑窗相似度方差;获取各条所...

【专利技术属性】
技术研发人员:刘羽辰李健陈明武卫东
申请(专利权)人:北京捷通数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1