语音识别训练数据的生成方法、语音识别模型的训练方法技术

技术编号:24858601 阅读:90 留言:0更新日期:2020-07-10 19:10
本公开关于一种语音识别训练数据的生成方法和语音识别模型的训练方法。其中,该生成方法包括:获取客户端上传的初始语音识别数据,其中,初始语音识别数据包括语音数据以及与语音数据对应的文本数据;将语音数据对应的文本数据和预设文本数据进行比对,计算初始语音识别数据的字错误率;筛选字错误率位于预设字错误率区间的初始语音识别数据,确定为弱标签语音识别数据;获取人工标注的语音识别数据;合并弱标签语音识别数据和人工标注的语音识别数据,得到语音识别训练数据。由于弱标签语音识别数据获取方便,可以在短时间内获得大量有效的弱标签语音识别数据,节约了语音识别训练数据的生成时间及减少了语音识别训练数据的生成成本。

【技术实现步骤摘要】
语音识别训练数据的生成方法、语音识别模型的训练方法
本公开涉及语音识别
,尤其涉及语音识别训练数据的生成方法、语音识别模型的训练方法、装置、电子设备和存储介质。
技术介绍
随着人工智能技术的发展,语音识别技术取得了巨大的进步,并开始进入家电、通信、汽车、医疗等各个领域。相关技术中,在训练语音识别模型时,为得到一个性能优良的语音识别模型,训练样本仅仅通过人工标注大量的语音识别数据来获得,以此保证训练效果。然而,仅仅通过人工标注的方式来获得大量的训练样本,耗时且人力成本高。
技术实现思路
本公开提供一种语音识别训练数据的生成方法、语音识别模型的训练方法、装置、电子设备和存储介质,以至少解决相关技术中人工标注方式耗时且人力成本高的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种语音识别训练数据的生成方法,包括:获取客户端上传的初始语音识别数据,其中,所述初始语音识别数据包括语音数据以及与所述语音数据对应的文本数据;将所述语音数据对应的文本数据和预设文本数据进行比本文档来自技高网...

【技术保护点】
1.一种语音识别训练数据的生成方法,其特征在于,包括:/n获取客户端上传的初始语音识别数据,其中,所述初始语音识别数据包括语音数据以及与所述语音数据对应的文本数据;/n将所述语音数据对应的文本数据和预设文本数据进行比对,计算所述初始语音识别数据的字错误率;/n筛选所述字错误率位于预设字错误率区间的初始语音识别数据,确定为弱标签语音识别数据;/n获取人工标注的语音识别数据;/n合并所述弱标签语音识别数据和所述人工标注的语音识别数据,得到语音识别训练数据。/n

【技术特征摘要】
1.一种语音识别训练数据的生成方法,其特征在于,包括:
获取客户端上传的初始语音识别数据,其中,所述初始语音识别数据包括语音数据以及与所述语音数据对应的文本数据;
将所述语音数据对应的文本数据和预设文本数据进行比对,计算所述初始语音识别数据的字错误率;
筛选所述字错误率位于预设字错误率区间的初始语音识别数据,确定为弱标签语音识别数据;
获取人工标注的语音识别数据;
合并所述弱标签语音识别数据和所述人工标注的语音识别数据,得到语音识别训练数据。


2.根据权利要求1所述的语音识别训练数据的生成方法,其特征在于,所述合并所述弱标签语音识别数据和所述人工标注的语音识别数据,得到语音识别训练数据的步骤包括:
将所述弱标签语音识别数据中的语音数据与文本数据对齐,得到对齐后的弱标签语音识别数据;
合并所述对齐后的弱标签语音识别数据和所述人工标注的语音识别数据,得到语音识别训练数据。


3.根据权利要求2所述的语音识别训练数据的生成方法,其特征在于,所述将所述弱标签语音识别数据中的语音数据与文本数据对齐,得到对齐后的弱标签语音识别数据的步骤包括:
提取所述弱标签语音识别数据中的语音数据对应的音频特征;
将所述音频特征和所述弱标签语音识别数据中的文本数据输入至预设的声学模型中,通过所述声学模型将所述文本数据扩展为由HMM状态序列组成的搜索空间,计算得到所述搜索空间中每条路径的分数;
在所述搜索空间中的多条第一路径中,采用广度优先搜索方式搜索出分数最高的路径,其中,所述第一路径为音素序列相同、时间点不同的路径;
根据所述分数最高的路径,将所述音频特征与HMM状态序列对齐,得到对齐后的弱标签语音识别数据。


4.根据权利要求3所述的语音识别训练数据的生成方法,其特征在于,所述合并所述对齐后的弱标签语音识别数据和所述人工标注的语音识别数据,得到语音识别训练数据的步骤包括:
根据所述弱标签语音识别数据中的文本数据构建语言模型;
根据所述语言模型和所述声学模型构建解码图;
通过所述解码图对所述音频特征进行解码,得到解码文本;
将所述解码文本与所述弱标签语音识别数据中的文本数据进行比较,保留第一文本数据,其中,所述第一文本数据为所述解码文本与所述弱标签语音识别数据中的文本数据相对应的文字相同,且所述文字字数超过预设字数的文本片段;
筛选所述对齐后的弱标签语音识别数据中与所述第一文本数据相同的第二文本数据,并从所述对齐后的弱标签语音识别数据中提...

【专利技术属性】
技术研发人员:单亚慧李杰王晓瑞李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1