【技术实现步骤摘要】
语音识别模型训练方法、语音识别方法及装置
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备和存储介质。
技术介绍
在直播平台中,常常需要对大量直播间主播的内容进行监管,监管对象包括图像和语音,直播中的语音主要来源于主播说话所形成的语音。对于语音内容的监管,通常是将语音识别为文本,然后对文本进行甄别。现有技术中通常是将语音输入训练好的语音识别模型中得到相应的文本,该语音识别模型包括编码网络和解码网络,编码网络对输入的语音进行编码得到语音特征,解码网络对编码得到语音特征进行解码得到文本。在训练语音识别模型时,需要对编码网络和解码网络进行训练,并且训练编码网络和解码网络时均需要计算损失函数,具体为先对语音数据进行标注得到标签,使用具有标签的语音数据来训练解码网络和编码网络,在编码网络训练过程中需要通过训练数据的标签来计算损失率,在对解码网络和编码网络一起训练的过程中同样需要训练数据的标签来计算损失率,即整个训练过程需要依赖大量的有标注 ...
【技术保护点】
1.一种语音识别模型训练方法,其特征在于,包括:/n获取训练数据集,所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列;/n将所述第一语音序列输入初始化后的编码网络中,得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征;/n根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征;/n根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失,以对所述编码网络进行训练;/n在训练好所述编码网络后,将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练,训练好的编码网络和解码网络作为语音识别模型。/n
【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列;
将所述第一语音序列输入初始化后的编码网络中,得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征;
根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征;
根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失,以对所述编码网络进行训练;
在训练好所述编码网络后,将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练,训练好的编码网络和解码网络作为语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述编码网络包括一次编码网络和二次编码网络,所述将所述第一语音序列输入初始化后的编码网络中,得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征,包括:
将所述第一语音序列输入初始化后的编码网络的一次编码网络中,得到所述第一语音序列中每个语音单元的第一编码特征;
针对每个语音单元,将所述语音单元的第一编码特征和所述语音单元的前一个语音单元的状态量输入所述编码网络的二次编码网络中,得到指定语音单元的内容特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征,包括:
将所述内容特征和预设线性矩阵相乘,得到所述指定语音单元之后的语音单元的第二编码特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述编码网络包括一次编码网络和二次编码网络,所述根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失,以对所述编码网络进行训练,包括:
针对所述指定语音单元之后的每个第一语音单元,利用所述第一语音单元的第一编码特征、所述第二编码特征以及所述第一语音单元以外的多个第二语音单元的第一编码特征计算所述第一语音单元的对比编码损失率;
计算多个所述第一语音单元的对比编码损失率的均值得到损失率;
判断所述损失率是否小于预设阈值;
若是,停止对所述编码网络进行训练;
若否,根据所述损失率调整所述编码网络的网络参数,返回将所述第一语音序列输入所述编码网络的一次编码网络中,得到所述第一语音序列中每个语音单元的第一编码特征的步骤。
5.根据权利要求4所述的方法,其特征在于,所述针对所述指定语音单元之后的每个第一语音单元,利用所述第一语音单元的第一编码特征、所述第二编码特征以及所述第一语音单元以外的多个第二语音单元的第一编码特征计算所述第一语音单元的对比编码损失率,包括:
针对每个第一语音单元,采用所述第一语音单元的第一编码特征和第二编码特征构成正样本对例;
采用所述第一语音单元的第二编码特征和所述第一语音单元以外的多个第二语音单元的第一编码特征构成多个负样本对例;
计算所述正样本对例中第一编码特征和第二编码特征的相似度得到第一相似度;
计算多个所述负样本对例中第一编码特征和第二编码特征的相似度得到第二相似度;
根据所述第一相似度和多个第二相似度计算所述第一语音单元的对比编码损失率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一相似度和多个第二相似度计算所述第一语音单元的对比编码损失率,包括:
通过以下公式计算所述第一语音单元的对比编码损失率:
其中,LN为对比编码损失率,第一语音序列X={x1,x2,......xN};t为指定语音单元的序号,t+k为指定语音单元之后的语音单元的序号,表示一次编码网络对第一语音单元xt+k编码后得到第一编码特征ht+k和通过指定语音单元的内容特征ct获取第一语音单元xt+k的第二编码特征的相似度,Wk为线性矩阵;
xj为第一语音序列X中除了第一语音单元xt+k以外的第二语音单元,表示...
【专利技术属性】
技术研发人员:唐浩雨,
申请(专利权)人:广州市百果园信息技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。