本发明专利技术实施例提供一种小语种语料的生成方法。该方法包括:从小语种视频中获取多条小语种音频段;将多条小语种音频段和对应的识别状态,存入分布式文件存储数据库;激活音频生产者和音频消费者,调用音频生产者,从分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;调用音频消费者分别从生产者队列获取小语种音频段,进行语音识别;将识别结果存入数据库中与对应的小语种音频段相关联;基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。本发明专利技术实施例还提供一种小语种语料的生成系统。本发明专利技术实施例快速便捷的收集小语种语料,给识别模型提供小语种训练语料,保证对小语种的识别准确度。
The method and system of generating small language corpus
【技术实现步骤摘要】
小语种语料的生成方法及系统
本专利技术涉及智能语音领域,尤其涉及一种小语种语料的生成方法及系统。
技术介绍
训练语音识别模型,需要一定量的语料数据。越多的语料数据,训练的语音识别模型的效果就会越好。常用的一些语言的语料数据相对的较为容易获得。例如,英语、汉语,这些常见语种的语言,有非常多的获取方式。然而,对于一些小语种的语言,获取起来相对较为困难,市面上并没有可以直接获取小语种语料的途径。为了获得小语种的语料,通常会利用开源机构开源的小语种语料,或者从专业的数据公司直接购买,又或者企业提供有关包含小语种的音频,寻找外包公司或者熟悉小语种人员,让其对音频进行标注。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:通过搜集开源数据的方法,主要缺陷就是受限于开源数据量少,无法满足需求或者无法找到某一小语种公开的开源语料,同时有的时候还会受限于国内网络而无法下载,更重要的是有的开源数据明确规定开源数据不得用于商用,只限于研究。从专业数据公司购买数据最大的缺陷就是小语种成本太高,高昂的成本给企业造成了很大的经济负担。寻找相关熟悉小语种人员进行标注,不仅时间成本高即进度慢,周期长,而且因为标注人员素质参差不齐,使得正确率也无法得到有效的保证,并且后期的质检的成本也很高
技术实现思路
为了至少解决现有技术中无法快速、高效、便捷的收集小语种语料的问题。第一方面,本专利技术实施例提供一种小语种语料的生成方法,包括:从小语种视频中获取多条小语种音频段;<br>将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;建立识别脚本,激活一个音频生产者以及多个音频消费者,在预设时间段内调用所述音频生产者,从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;调用所述多个音频消费者分别从所述生产者队列获取小语种音频段,进行小语种语音识别;若所述音频消费者可以确定小语种音频段的识别结果,将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联,更新识别状态;基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。第二方面,本专利技术实施例提供一种小语种语料的生成系统,包括:音频段获取程序模块,用于从小语种视频中获取多条小语种音频段;数据存储程序模块,用于将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;脚本建立程序模块,用于建立识别脚本,激活一个音频生产者以及多个音频消费者,在预设时间段内调用所述音频生产者,从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;语音识别程序模块,用于调用所述多个音频消费者分别从所述生产者队列获取小语种音频段,进行小语种语音识别;状态更新程序模块,用于若所述音频消费者可以确定小语种音频段的识别结果,将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联,更新识别状态;语料生成程序模块,用于基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的小语种语料的生成方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的小语种语料的生成方法的步骤。本专利技术实施例的有益效果在于:可以快速便捷的收集小语种语料,给企业内部的识别模型提供基本的小语种训练语料,从而使得企业可以在极短时间内拥有某一小语种的识别的能力,并且保证对这一小语种的识别准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种小语种语料的生成方法的流程图;图2是本专利技术一实施例提供的一种小语种语料的生成系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示为本专利技术一实施例提供的一种小语种语料的生成方法的流程图,包括如下步骤:S11:从小语种视频中获取多条小语种音频段;S12:将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;S13:建立识别脚本,激活一个音频生产者以及多个音频消费者,在预设时间段内调用所述音频生产者,从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;S14:调用所述多个音频消费者分别从所述生产者队列获取小语种音频段,进行小语种语音识别;S15:若所述音频消费者可以确定小语种音频段的识别结果,将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联,更新识别状态;S16:基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。在本实施方式中,小语种语料难以获得,但是由于互联网的发展,拉进了全世界网络用户的距离,部分网络用户会制作视频vlog上传到网络中,供他人观看。这样,小语种视频的获取难度,相对于小语种语料的获取难度要简单很多。对于步骤S11,先要获取这些小语种视频,可以人工收集,作为一种实施方式,所述小语种视频通过爬虫算法获取。通过爬虫算法,可以快速的获取大量的目标语言的小语种视频。节约人工成本。在获得小语种视频后,从所述小语种视频中获取多条小语种音频片段。首先,从小语种视频中提取音频文件,在提取音频文件中,可以使用ffmpeg工具进行,也可以使用其他工具,在此不再赘述。提取出音频文件后,对所述音频文件进行语音活动检测,从而,提取出音频文件中的多条小语种音频段。提取出音频段后,为了保障提取的小语种音频段更加精确。在检测出小语种音频段后,可以获取所述小语种音频段的多个子音频特征,根据多个子音频特征对所述音频文件进行进一步的语音活动检测,再次判断音频文件中是否还包含漏处理的小语种语音。可以在小语种视频提取出的音频文件,背景噪声较大,信噪比较低时,仍能够检测出是否存在小语种音频片段。对于步骤S12本文档来自技高网...
【技术保护点】
1.一种小语种语料的生成方法,包括:/n从小语种视频中获取多条小语种音频段;/n将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;/n建立识别脚本,激活一个音频生产者以及多个音频消费者,在预设时间段内调用所述音频生产者,从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;/n调用所述多个音频消费者分别从所述生产者队列获取小语种音频段,进行小语种语音识别;/n若所述音频消费者可以确定小语种音频段的识别结果,将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联,更新识别状态;/n基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。/n
【技术特征摘要】
1.一种小语种语料的生成方法,包括:
从小语种视频中获取多条小语种音频段;
将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;
建立识别脚本,激活一个音频生产者以及多个音频消费者,在预设时间段内调用所述音频生产者,从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;
调用所述多个音频消费者分别从所述生产者队列获取小语种音频段,进行小语种语音识别;
若所述音频消费者可以确定小语种音频段的识别结果,将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联,更新识别状态;
基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。
2.根据权利要求1所述的方法,其中,所述小语种视频通过爬虫算法获取。
3.根据权利要求1所述的方法,其中,所述识别状态还包括:识别失败;
所述方法还包括:若所述音频消费者无法确定小语种音频段的识别结果,记录无法识别的小语种的音频的识别失败次数,将所述无法识别的小语种音频段返回至所述生产者队列中,以供其他音频消费者进行识别;
若所述识别失败次数达到预设阈值时,将所述无法识别的小语种的音频进行反馈,更新识别状态。
4.根据权利要求1所述的方法,其中,在所述基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料之前,所述方法还包括:
检测在所述预设时间段内,所述音频生产者是否将未识别的小语种音频段放入生产者队列;
当超过所述预设时间段,所述音频生产者没有将未识别的小语种音频段放入生产者队列时,基于分布式文件存储的数据库中小语种音频段的识别结果,生成带有标注的小语种语料。
5.一种小语种语料的生成系统,包括:
音频段获取程序模块,用于从小语种视频中获取多条小语种音频段;
数据存储程序模块,用于将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;<...
【专利技术属性】
技术研发人员:时猛,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。