语音分割模型的训练方法、装置和电子设备制造方法及图纸

技术编号：24582661 阅读：33 留言：0更新日期：2020-06-21 01:20

本公开实施例公开了一种语音分割模型的训练方法、装置、电子设备和计算机可读存储介质。其中该语音分割模型的训练方法包括：获取样本语音文件的语音特征图；获取目标语音在所述语音特征图中的标注信息；初始化语音分割模型的模型参数；将所述语音特征图输入所述语音分割模型中得到所述语音分割模型输出的所述目标语音的预测信息；根据目标函数计算所述预测信息和所述标注信息的误差；根据所述误差更新所述语音分割模型的参数；将所述语音特征图输入更新参数后的语音分割模型中以迭代上述参数更新的过程直至所述误差小于第一阈值。上述方法通过语音特征图像训练语音分割模型，解决了现有技术中由于语音信号复杂导致的语音分割不准的技术问题。

Training method, device and electronic equipment of speech segmentation model

全部详细技术资料下载

【技术实现步骤摘要】
语音分割模型的训练方法、装置和电子设备
本公开涉及语音分割领域，尤其涉及一种语音分割模型的训练方法、装置、电子设备及计算机可读存储介质。
技术介绍
作为一种人机交互的手段，语音识别技术在解放人类双手方面意义重大。随着各种智能音箱的出现，语音交互成为了互联网入口的新价值所在，越来越多的智能设备加入了语音识别的潮流，成为人与设备沟通的桥梁。语音分割技术是语音识别技术中的一个分支，其用于从一段语音中按照时间段分成不同的类别，如在一段语音中分割出非同时说话的人的语音，语音的端点检测以及唤醒词对齐等等，都属于语音分割的范畴。现有技术中的语音分割分为基于切分单元对齐的方法和基于切分单元边界检测的方法。基于切分单元对齐的方法需要被切分语音对应的音素或音节关联的先验知识，例如包含的音素/音节个数，是受限的方式。而基于边界检测的方法大多只利用语音信号本身抽取的特征来进行边界检测。然而语音信号的特征比较复杂，因此语音分割的准确度目标仍然比较低，成为亟待解决的问题。
技术实现思路
提供该
技术实现思路
部分...

【技术保护点】
1.一种语音分割模型的训练方法，其特征在于，所述方法包括：/n获取样本语音文件的语音特征图；/n获取目标语音在所述语音特征图中的标注信息；/n初始化语音分割模型的模型参数；/n将所述语音特征图输入所述语音分割模型中得到所述语音分割模型输出的所述目标语音的预测信息；/n根据目标函数计算所述预测信息和所述标注信息的误差；/n根据所述误差更新所述语音分割模型的参数；/n将所述语音特征图输入更新参数后的语音分割模型中以迭代上述参数更新的过程直至所述误差小于第一阈值。/n

【技术特征摘要】
1.一种语音分割模型的训练方法，其特征在于，所述方法包括：
获取样本语音文件的语音特征图；
获取目标语音在所述语音特征图中的标注信息；
初始化语音分割模型的模型参数；
将所述语音特征图输入所述语音分割模型中得到所述语音分割模型输出的所述目标语音的预测信息；
根据目标函数计算所述预测信息和所述标注信息的误差；
根据所述误差更新所述语音分割模型的参数；
将所述语音特征图输入更新参数后的语音分割模型中以迭代上述参数更新的过程直至所述误差小于第一阈值。

2.如权利要求1所述的语音分割模型的训练方法，其特征在于，所述获取样本语音文件的语音特征图，包括：
获取样本语音文件；
将所述样本语音文件划分为多个语音帧；
提取所述多个语音帧中的语音特征点生成样本语音特征图。

3.如权利要求2所述的语音分割模型的训练方法，其特征在于，所述将所述语音文件划分为多个语音帧，包括：
获取语音帧长度α以及语音帧移动间隔β；
以样本语音文件的头部为起点抽取多个语音帧，其中每个语音帧的长度为α，相邻两个语音帧的起点相隔为β。

4.如权利要求2所述的语音分割模型的训练方法，其特征在于，所述提取所述多个语音帧中的语音特征点生成语音特征图，包括：
对所述多个语音帧中的每一个进行短时傅里叶变换，得到多个频率特征点；
将所述多个特征频率特征点按照语音帧的顺序组成语音特征图。

5.如权利要求1所述的语音分割模型的训练方法，其特征在于，所述标注信息包括：标注位置信息和标注类别信息，所述预测信息包括：预测位置信息和预测类别信息。

6.如权利要求5所述的语音分割模型的训练方法，其特征在于，所述标注位置信息包括所述目标语音在所述语音特征图中的一对标注边界点，所述标注类别信息包括所述目标语音在多个类别中的标注概率；所述预测位置信息包括目标语音在所述语音特征图中的多对预测边界点，所述预测类别信息包括所述目标语音在多个类别中的预测概率。

7.如权利要求1所述的语音分割模型的训练方法，其特征在于，所述将所述语音特征图输入所述语音分割模型中得到所述语音分割模型输出的所述目标语音的预测信息，包括：
将所述语音特征图输入所述语音分割模型中，其中所述语音特征图在时间轴方向被平均划分为S个格子，其中S为大于1的整数；
所述语音分割模型输出S个一维向量，其中每个所述一维向量包括Q个元素，其中Q＝3*N+M，其中N为每个所述格子所对应的边界点的对数，M为类别的个数。
...

【专利技术属性】
技术研发人员：王超，陈孝良，冯大航，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人