语音数据的筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23894652 阅读:29 留言:0更新日期:2020-04-22 07:56
本申请公开了一种语音数据的筛选方法、装置、电子设备及存储介质,其中,所述方法包括:获取N个语音数据;其中,N为大于等于2的整数;采用多个语音识别引擎对所述N个语音数据中每一个语音数据进行识别,得到所述每一个语音数据对应的多个识别结果;其中,所述多个语音识别引擎中,不同的语音识别引擎中包含的声学模型不同,和/或不同的语音识别引擎中包含的语言模型不同;基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据;将所述N个语音数据中的第一类无效数据删除后得到的剩余语音数据作为有效数据,基于所述有效数据对目标模型进行建模处理。

Voice data screening methods, devices, electronic equipment and storage media

【技术实现步骤摘要】
语音数据的筛选方法、装置、电子设备及存储介质
本申请涉及信息处理领域,尤其涉及一种语音数据的筛选方法、装置、电子设备及存储介质。
技术介绍
在相关技术中,针对语音数据的处理,一般先对全量语音数据进行人工标注,标注完成后再通过人工复查或者机器学习的方法将无效数据筛选出来。具体的,可以包括将原始的人工标注和复查过程中产生的人工标注或者基于机器学习方法产生的自动标注进行对比,通过标注上的差异程度来将无效数据筛选出来。然而,上述方法中,对全量数据进行人工标注会导致成本的上升,因为在真实的环境中收集到的语音数据,其中无效数据的比例占比很高,在后期进行无效数据的筛选的处理中,又主要依赖于人工标注的结果,因此,上述方案存在成本过高的问题。
技术实现思路
本申请提供一种语音数据的筛选方法、装置、电子设备及存储介质,以解决现有技术中存在的上述问题。本专利技术一方面提供一种语音数据的筛选方法,所述方法包括:获取N个语音数据;其中,N为大于等于2的整数;采用多个语音识别引擎对所述N个语音数据中每一个语音数据进行识别,得到所述每一个语音数据对应的多个识别结果;其中,所述语音识别引擎中,包括:声学模型和/或语言模型;所述多个语音识别引擎中,不同的语音识别引擎中包含的声学模型不同,和/或不同的语音识别引擎中包含的语言模型不同;基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据;将所述N个语音数据中的第一类无效数据删除后得到的剩余语音数据作为有效数据,基于所述有效数据对目标模型进行建模处理。本专利技术一方面提供一种语音数据的筛选装置,所述装置包括:数据获取单元,用于获取N个语音数据;其中,N为大于等于2的整数;识别单元,用于采用多个语音识别引擎对所述N个语音数据中每一个语音数据进行识别,得到所述每一个语音数据对应的多个识别结果;其中,所述语音识别引擎中,包括:声学模型和/或语言模型;所述多个语音识别引擎中,不同的语音识别引擎中包含的声学模型不同,和/或不同的语音识别引擎中包含的语言模型不同;筛选单元,用于基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据;处理单元,用于将所述N个语音数据中的第一类无效数据删除后得到的剩余语音数据作为有效数据,基于所述有效数据对目标模型进行建模处理。本专利技术另一方面提供一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够前述方法。本专利技术另一方面还提供一种存储介质,所述存储介质用于存储计算机指令,所述计算机指令用于使所述计算机执行前述方法。通过采用上述方案,就能够在使用语音数据进行建模处理的时候,首先通过多个语音识别引擎对语音数据进行识别,根据识别结果来确定语音数据是否无效,最终采用删除无效数据后剩余的有效数据进行建模。如此,就能够避免相关技术中由于人工进行标注后再筛选无效数据的处理方式中存在的人工成本过高的问题,并且能够提升数据筛选的效率。附图说明图1为本专利技术实施例提供的一种语音数据的筛选方法流程示意图一;图2为本专利技术实施例提供的一种语音数据的筛选方法流程示意图二;图3为本专利技术实施例提供的一种语音数据的筛选装置的组成结构示意图;图4为本专利技术实施例提供的一种电子设备组成结构示意图。具体实施方式为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本专利技术实施例提供了一种语音数据的筛选方法,如图1所示,包括:S11:获取N个语音数据;其中,N为大于等于2的整数;S12:采用多个语音识别引擎对所述N个语音数据中每一个语音数据进行识别,得到所述每一个语音数据对应的多个识别结果;其中,所述语音识别引擎中,包括:声学模型和/或语言模型;所述多个语音识别引擎中,不同的语音识别引擎中包含的声学模型不同,和/或不同的语音识别引擎中包含的语言模型不同;S13:基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据;S14:将所述N个语音数据中的第一类无效数据删除后得到的剩余语音数据作为有效数据,基于所述有效数据对目标模型进行建模处理。本专利技术实施例提供的方法,可以应用于具备语音数据处理功能的设备中,比如,可以为电子设备,再具体的可以为服务器、电脑等设备,这里不进行穷举。关于无效数据进行详细说明,无效数据通常包括以下几种类型:背景噪声、干扰、静音、语音数据里没有包含人声;语音内容听不懂,包括重口音的普通话和方言;语音内容模棱两可,同一个语音数据,可以有不同的文本标注结果。在本实施例中,前述第二类无效数据,可以包括以下数据中至少之一:背景噪声、干扰、静音、语音数据里没有包含人声。前述第一类无效数据,可以包括以下数据中至少之一:语音内容听不懂,包括重口音的普通话和方言;语音内容模棱两可,同一个语音数据,可以有不同的文本标注结果。本实施例提供的方案,在进行第一类无效数据的筛选之前,首先筛选出来第二类无效数据,具体的处理方法可以包括:对M个语音数据进行语音激活检测,得到第二类无效数据;其中,所述第二类无效数据与所述第一类无效数据不同;M为大于N的整数;从所述M个语音数据中删除所述第二类无效数据,得到删除第二类无效数据之后的所述N个语音数据。具体的,前述M个语音数据,可以理解为一种全量语音数据,也就是当前能够获取到的全部的语音数据;M可以为大于等于1的整数,并且,M大于等于N。在M=N的时候,可以理解为没有第二类无效数据,M大于N的情况,可以理解为存在一部分第二类无效数据。再进一步地,进行第二类无效数据的筛选的方式,为前述语音激活检测。其中,所述语音激活检测,在原理上可以为:通过能量、过零率等声学特征来判断语音数据里是否有人声;可以将经过语音激活检测确定语音数据中有人声的作为N个语音数据中之一,将将经过语音激活检测确定语音数据中没有人声的作为第二类无效数据。由于前述语音激活检测计数,在第一类无效数据的筛选中基本无效,因此,为了解决上面列出的第一类无效数据的筛选问题,本实施例提供前述S12-S13的处理方案进行第一类无效数据的筛选。本实施例提供的方案,可以理解为使用两个或多个语音识别引擎对语音数据进行语音识别,得到两个或多个识别结果,如果多个识别结果之间的差异较大,则这类数据被定义为第一类无效数据。...

【技术保护点】
1.一种语音数据的筛选方法,其特征在于,所述方法包括:/n获取N个语音数据;其中,N为大于等于2的整数;/n采用多个语音识别引擎对所述N个语音数据中每一个语音数据进行识别,得到所述每一个语音数据对应的多个识别结果;其中,所述语音识别引擎中,包括:声学模型和/或语言模型;所述多个语音识别引擎中,不同的语音识别引擎中包含的声学模型不同,和/或不同的语音识别引擎中包含的语言模型不同;/n基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据;/n将所述N个语音数据中的第一类无效数据删除后得到的剩余语音数据作为有效数据,基于所述有效数据对目标模型进行建模处理。/n

【技术特征摘要】
1.一种语音数据的筛选方法,其特征在于,所述方法包括:
获取N个语音数据;其中,N为大于等于2的整数;
采用多个语音识别引擎对所述N个语音数据中每一个语音数据进行识别,得到所述每一个语音数据对应的多个识别结果;其中,所述语音识别引擎中,包括:声学模型和/或语言模型;所述多个语音识别引擎中,不同的语音识别引擎中包含的声学模型不同,和/或不同的语音识别引擎中包含的语言模型不同;
基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据;
将所述N个语音数据中的第一类无效数据删除后得到的剩余语音数据作为有效数据,基于所述有效数据对目标模型进行建模处理。


2.根据权利要求1所述的方法,其特征在于,所述获取N个语音数据,包括:
对M个语音数据进行语音激活检测,得到第二类无效数据;其中,所述第二类无效数据与所述第一类无效数据不同;M为大于N的整数;
从所述M个语音数据中删除所述第二类无效数据,得到删除第二类无效数据之后的所述N个语音数据。


3.根据权利要求1或2所述的方法,其特征在于,基于所述每一个语音数据对应的多个识别结果进行语音数据筛选,得到所述N个语音数据中的第一类无效数据,包括:
计算所述每一个语音数据对应的多个识别结果之间的相似度;
当所述多个识别结果之间的相似度小于预设阈值时,确定对应的语音数据为第一类无效数据。


4.根据权利要求1所述的方法,其特征在于,基于所述有效数据对目标模型进行建模处理,包括:
对所述有效数据进行对应的文本标注;
采用所述有效数据及其对应的文本标注,对目标模型进行建模处理。


5.一种语音数据的筛选装置,其特征在于,所述装置包括:
数据获取单元,用于获取N个语音数据;其中,N为大于等于2的整数;
识别单元,用于采用多个语音...

【专利技术属性】
技术研发人员:薛峰
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1