【技术实现步骤摘要】
语音模型训练方法、装置和电子设备
[0001]本申请属于语音处理
,具体涉及一种语音模型训练方法、装置和电子设备。
技术介绍
[0002]随着语音技术的发展和交互体验的提升,用户越来越乐于通过语音与电子设备进行交互,例如通过语音唤醒并控制电子设备完成指定工作,而在这之前需要预先通过唤醒词训练唤醒模型。
[0003]相关技术中,语音唤醒模型的训练方法通常是随机化模型参数对初始化唤醒模型进行训练。然而,这种方式中训练模型受训练数据的影响较大,导致模型性能不够稳定。
技术实现思路
[0004]本申请实施例的目的是提供一种语音模型训练方法、装置和电子设备,能够解决相关技术中语音模型训练方式训练出的模型性能不够稳定的问题。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种语音模型训练方法,该方法包括:
[0007]获取训练数据集;
[0008]将训练数据集中的训练语音数据,分别输入初始唤醒模型和预先训练好的语音识别模型中, ...
【技术保护点】
【技术特征摘要】
1.一种语音模型训练方法,其特征在于,包括:获取训练数据集;将所述训练数据集中的训练语音数据,分别输入初始唤醒模型和预先训练好的语音识别模型中,得到所述初始唤醒模型的第一输出数据和所述语音识别模型的第二输出数据,其中,所述初始唤醒模型的建模单元为三音素单状态,所述语音识别模型的建模单元为三音素三状态,同一三音素对应的三状态和单状态之间存在映射关系,所述初始唤醒模型与所述语音识别模型除建模单元外的其他部分结构相同;根据所述第一输出数据、所述第二输出数据和所述训练语音数据中的标注数据,计算模型训练损失值;基于所述模型训练损失值,对所述初始唤醒模型的模型参数进行调节,以使所述初始唤醒模型趋于收敛,得到训练好的唤醒模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一输出数据、所述第二输出数据和所述训练语音数据中的标注数据,计算模型训练损失值,包括:计算所述第一输出数据与所述第二输出数据的第一相对熵;计算所述第一输出数据与所述训练语音数据中的标注数据的第一交叉熵;将所述第一相对熵与所述第一交叉熵进行加权求和,得到所述模型训练损失值。3.根据权利要求2所述的方法,其特征在于,所述计算所述第一输出数据与所述第二输出数据的第一相对熵,包括:将所述第二输出数据中包括的三个状态的概率值进行求和,得到第一和值;计算所述第一输出数据与所述第一和值的第一相对熵。4.根据权利要求1所述的方法,其特征在于,所述初始唤醒模型的建模规则包括以下至少一项:对于唤醒词中的音素,根据音素的上下文进行建模,其中,上下文不同的音素采用不同状态建模;对于非唤醒词中的音素,使用第一预设词建模;对于语音中的静音片段,使用第二预设词建模。5.根据权利要求1所述的方法,其特征在于,所述训练数据集包括唤醒词数据集和语音识别数据集,所述语音识别数据集为所述语音识别模型的训练数据。6.一种语音模型训练装置,其特征在于,包括:获取...
【专利技术属性】
技术研发人员:陈孝良,冯大航,曹艺,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。