【技术实现步骤摘要】
适用于语音识别模型的训练数据生成方法及设备
[0001]本专利技术涉及语音分析与合成领域,具体涉及一种适用于语音识别模型的训练数据生成方法及设备。
技术介绍
[0002]语音识别技术从原先的GMM
‑
HMM到基于HMM拓扑结构+神经网络的Hybrid的建模,到目前基于transformer/conformer的CTC/RNNT/LAS端到端的建模方式,建模能力不断增强,但随之而来的是对于训练数据量的需求也在指数增长。端到端对数据的需求已经从原先的data sparse变成了date hungry。目前语音识别厂商标注的数据量多数已经达到10万小时数量级。这里的数据是指<audio, transcription>即语音和文本标签,所以数据标注的人力财力成本都非常高。
[0003]目前一些语音识别的厂商的通用语音识别效果已经达到较为优秀的水准,词错率(WER)已经小于3%,已经超越人工转写的水平,达到商用水平。但是因为种种原因,很多企业不希望直接调用语音识别服务商的接口,更希 ...
【技术保护点】
【技术特征摘要】
1.一种适用于语音识别模型的训练数据生成方法,其特征在于,包括:获取语音数据;由多个语音识别模型分别对所述语音数据进行识别,输出多个文本数据;根据所述多个文本数据得到目标文本数据;获取语音测评模型对所述目标文本数据和所述语音数据的测评结果;对所述测评结果进行判断,如果所述测评结果符合预期,则将所述目标文本和所述语音数据组合为训练数据。2.根据权利要求1所述的方法,其特征在于,根据所述多个文本数据得到目标文本数据包括:根据所述多个文本数据得到文本的图数据,其中各个所述文本数据中相同部分被保持,不同的部分被配置为并联关系;由语音测评模型对所述文本的图数据和所述语音数据进行测评,根据所述图数据中对应最优测评结果的路径得到目标文本。3.根据权利要求2所述的方法,其特征在于,在根据所述多个文本数据得到文本的图数据时,还包括:判断并联部分的发音是否相同;如果发音相同,则根据预设词汇表对所述并联部分进行筛选,以排除与应用场景不相关的词汇。4.一种适用于语音识别模型的训练数据生成方法,其特征在于,包括:获取原始语音数据;对所述原始语音的频率进行变换得到至少一个变换语音数据;由多个语音识别模型分别对所述原始语音数据进行识别,输出多个原始文本数据;根据所述多个原始文本数据得到第一目标文本数据,并获取语音测评模型对所述第一目标文本数据和所述原始语音数据的第一测评结果;由多个所述语音识别模型分别对所述变换语音数据进行识别,输出多个变换文本数据;根据所述多个变换文本数据得到第二目标文本数据,并获取语音测评模型对所述第二目标文本数据和所述变换语音数据的第二测评结果;比对所述第一测评结果与所述第二测评结果,如果所述第二测评结果优于所述第一测评结果,则将所述原始语音数据和所述第二目标文本组合为训练数据。5.根据权利要求4所...
【专利技术属性】
技术研发人员:蒋成林,
申请(专利权)人:北京优幕科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。