适用于语音识别模型的训练数据生成方法及设备技术

技术编号:31381990 阅读:17 留言:0更新日期:2021-12-15 11:31
本申请提供一种适用于语音识别模型的训练数据生成方法及设备,所述方法包括:获取语音数据;由多个语音识别模型分别对所述语音数据进行识别,输出多个文本数据;根据所述多个文本数据得到目标文本数据;获取语音测评模型对所述目标文本数据和所述语音数据的测评结果;对所述测评结果进行判断,如果所述测评结果符合预期,则将所述目标文本和所述语音数据组合为训练数据。组合为训练数据。组合为训练数据。

【技术实现步骤摘要】
适用于语音识别模型的训练数据生成方法及设备


[0001]本专利技术涉及语音分析与合成领域,具体涉及一种适用于语音识别模型的训练数据生成方法及设备。

技术介绍

[0002]语音识别技术从原先的GMM

HMM到基于HMM拓扑结构+神经网络的Hybrid的建模,到目前基于transformer/conformer的CTC/RNNT/LAS端到端的建模方式,建模能力不断增强,但随之而来的是对于训练数据量的需求也在指数增长。端到端对数据的需求已经从原先的data sparse变成了date hungry。目前语音识别厂商标注的数据量多数已经达到10万小时数量级。这里的数据是指<audio, transcription>即语音和文本标签,所以数据标注的人力财力成本都非常高。
[0003]目前一些语音识别的厂商的通用语音识别效果已经达到较为优秀的水准,词错率(WER)已经小于3%,已经超越人工转写的水平,达到商用水平。但是因为种种原因,很多企业不希望直接调用语音识别服务商的接口,更希望有自己的语音识别模型,可能的考虑包括数据安全、成本、在实际业务中的效果不理想等等。在这种情况下,企业搭建一个可商用的语音识别系统,按照常规方式是采集语音样本并进行数据标注,然后训练模型,这种处理方式的性价比非常低。

技术实现思路

[0004]有鉴于此,本申请提供一种适用于语音识别模型的训练数据生成方法,包括:获取语音数据;由多个语音识别模型分别对所述语音数据进行识别,输出多个文本数据;根据所述多个文本数据得到目标文本数据;获取语音测评模型对所述目标文本数据和所述语音数据的测评结果;对所述测评结果进行判断,如果所述测评结果符合预期,则将所述目标文本和所述语音数据组合为训练数据。
[0005]可选地,根据所述多个文本数据得到目标文本数据包括:根据所述多个文本数据得到文本的图数据,其中各个所述文本数据中相同部分被保持,不同的部分被配置为并联关系;由语音测评模型对所述文本的图数据和所述语音数据进行测评,根据所述图数据中对应最优测评结果的路径得到目标文本。
[0006]可选地,在根据所述多个文本数据得到文本的图数据时,还包括:判断并联部分的发音是否相同;如果发音相同,则根据预设词汇表对所述并联部分进行筛选,以排除与应用场景不相关的词汇。
[0007]本专利技术提供另一种适用于语音识别模型的训练数据生成方法,包括:
获取原始语音数据;对所述原始语音的频率进行变换得到至少一个变换语音数据;由多个语音识别模型分别对所述原始语音数据进行识别,输出多个原始文本数据;根据所述多个原始文本数据得到第一目标文本数据,并获取语音测评模型对所述第一目标文本数据和所述原始语音数据的第一测评结果;由多个所述语音识别模型分别对所述变换语音数据进行识别,输出多个变换文本数据;根据所述多个变换文本数据得到第二目标文本数据,并获取语音测评模型对所述第二目标文本数据和所述变换语音数据的第二测评结果;比对所述第一测评结果与所述第二测评结果,如果所述第二测评结果优于所述第一测评结果,则将所述原始语音数据和所述第二目标文本组合为训练数据。
[0008]可选地,根据所述原始文本数据得到第一目标文本数据具体包括:根据所述多个原始文本数据得到原始文本的图数据,其中各个所述原始文本数据中相同部分被保持,不同的部分被配置为并联关系;由语音测评模型对所述原始文本的图数据和所述原始语音数据进行测评,根据所述原始文本的图数据中对应最优测评结果的路径得到第一目标文本。
[0009]可选地,根据所述多个变换文本数据得到第二目标文本数据具体包括:根据所述多个变换文本数据得到变换文本的图数据,其中各个所述变换文本数据中相同部分被保持,不同的部分被配置为并联关系;由语音测评模型对所述变换文本的图数据和所述变换语音数据进行测评,根据所述变换文本的图数据中测评结果最优的路径得到第二目标文本。
[0010]可选地,所述变换语音数据有多个,并分别对应有所述第二目标文本数据和所述第二测评结果,在比对所述第一测评结果与所述第二测评结果的步骤中,选取多个所述第二测评结果中最优的一个与所述第一测评结果进行比对。
[0011]可选地,对所述原始语音的频率进行变换具体包括提高和/或降低声音信号的基频。
[0012]可选地,所述变换语音数据相比于所述原始语音数据至少被降低一个半音。
[0013]相应地,本专利技术提供一种适用于语音识别模型的训练数据生成设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述训练数据生成方法。
[0014]根据本专利技术提供的训练数据生成方法及设备,利用其它服务商提供的语音识别模型对未标注的语音进行识别,得到初步的识别文本,然后利用语音测评模型对文本及语音进行评测,得到发音与文本的匹配度,最后根据测评结果判断样本质量,将质量较好的语音样本及其文本标签作为训练数据,由此实现对语音的自动标注,获得高质量的训练数据,提高了模型训练效率,并且能够获得较好的训练效果。
[0015]根据本专利技术提供的训练数据生成方法及设备,通过对语音数据进行处理得到变换频率的语音数据,然后利用其它服务商提供的语音识别模型对原始语音和变换语音分别进
行识别,得到相应的识别文本;进一步利用语音测评模型对文本及语音进行评测,得到原始发音与相应文本的匹配度及变换语音与相应文本的匹配度;最后对二者进行比较,如果变换语音的测评结果更好,则表示变换评率的语音与相应文本更加匹配,由此可以将原始语音与变换语音对应的文本作为训练数据,实现对语音的自动标注,获得高质量的训练数据,提高了模型训练效率,并且能够获得较好的训练效果。
[0016]附图说明
[0017]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例中一种训练数据生成方法的示意图;图2为本专利技术实施例中的文本的图数据的示意图;图3为本专利技术实施例中的一种训练数据生成方法的数据流示意图。
[0019]具体实施方式
[0020]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0022]本专利技术的第一种应用场景是需要获得特定领域的语音样本作为训练数据,本申请所述特定领域是指化工、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于语音识别模型的训练数据生成方法,其特征在于,包括:获取语音数据;由多个语音识别模型分别对所述语音数据进行识别,输出多个文本数据;根据所述多个文本数据得到目标文本数据;获取语音测评模型对所述目标文本数据和所述语音数据的测评结果;对所述测评结果进行判断,如果所述测评结果符合预期,则将所述目标文本和所述语音数据组合为训练数据。2.根据权利要求1所述的方法,其特征在于,根据所述多个文本数据得到目标文本数据包括:根据所述多个文本数据得到文本的图数据,其中各个所述文本数据中相同部分被保持,不同的部分被配置为并联关系;由语音测评模型对所述文本的图数据和所述语音数据进行测评,根据所述图数据中对应最优测评结果的路径得到目标文本。3.根据权利要求2所述的方法,其特征在于,在根据所述多个文本数据得到文本的图数据时,还包括:判断并联部分的发音是否相同;如果发音相同,则根据预设词汇表对所述并联部分进行筛选,以排除与应用场景不相关的词汇。4.一种适用于语音识别模型的训练数据生成方法,其特征在于,包括:获取原始语音数据;对所述原始语音的频率进行变换得到至少一个变换语音数据;由多个语音识别模型分别对所述原始语音数据进行识别,输出多个原始文本数据;根据所述多个原始文本数据得到第一目标文本数据,并获取语音测评模型对所述第一目标文本数据和所述原始语音数据的第一测评结果;由多个所述语音识别模型分别对所述变换语音数据进行识别,输出多个变换文本数据;根据所述多个变换文本数据得到第二目标文本数据,并获取语音测评模型对所述第二目标文本数据和所述变换语音数据的第二测评结果;比对所述第一测评结果与所述第二测评结果,如果所述第二测评结果优于所述第一测评结果,则将所述原始语音数据和所述第二目标文本组合为训练数据。5.根据权利要求4所...

【专利技术属性】
技术研发人员:蒋成林
申请(专利权)人:北京优幕科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1