【技术实现步骤摘要】
端到端实时语音端点检测神经网络模型、训练方法
本专利技术涉及语音识别
,特别涉及一种端到端实时语音端点检测神经网络模型、训练方法。
技术介绍
随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。具体地,语音端点检测的检测结果对后端的声学模型、解码器、语言模型的识别效果,都有很大的影响,如果端点切分存储错误,则会导致漏识别或者误识别等情况的发生,进而可导致语音识别结果不准确。目前的语音端点检测方法有能量模型方法,使用能量阈值来判断是否存在有效的语音,但是在信噪比低时,该种方法难以准确的判断出音频有效部分的开始位置和结束位置。基于特征提取方法,一将音频信号转换成音频信号的频谱图,然后利用图像目标检测的方法获取开始位置和结束位置,二将音频信号利用特征提取方法(例如fbank,MFCC,stft等)获取特征,然后训练分类器来判断有效音频的开始位置和 ...
【技术保护点】
1.一种端到端实时语音端点检测神经网络模型,其特征在于,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;/n所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;/n所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第 ...
【技术特征摘要】 【专利技术属性】
1.一种端到端实时语音端点检测神经网络模型,其特征在于,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;
所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;
所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第二特征;所述第二特征为所述目标音频信号的局部特征;
所述多特征融合层配置包括,对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合,以得到所述目标音频信号的表示。
2.根据权利要求1所述的端到端实时语音端点检测神经网络模型,其特征在于,所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。
3.一种端到端实时语音端点检测神经网络模型的训练方法,应用于权利要求1或2所述的端到端实时语音端点检测神经网络模型;其特征在于:
所述方法包括:
根据滤波器训练参数,确定带通滤波器幅值,并根据所述带通滤波器幅值建立卷积子层;
将样本数据中的样本输入值输入至所述端到端实时语音端点检测神经网络模型以得到输出值;
根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值;
调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小;
当所述端到端实时语音端点检测神经网络模型的损失值小于或等于预设阈值时,对应的滤波器训练参数确定为滤波器训练参数输出值。
4.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值,包括:
根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的所述第一损失值;其中,所述经网络滤波器损失函数为交叉熵函数。
技术研发人员:司马华鹏,姚奥,汤毅平,
申请(专利权)人:南京硅基智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。