小语种语料的生成方法及系统技术方案

技术编号：24012893 阅读：61 留言：0更新日期：2020-05-02 02:21

本发明专利技术实施例提供一种小语种语料的生成方法。该方法包括：从小语种视频中获取多条小语种音频段；将多条小语种音频段和对应的识别状态，存入分布式文件存储数据库；激活音频生产者和音频消费者，调用音频生产者，从分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；调用音频消费者分别从生产者队列获取小语种音频段，进行语音识别；将识别结果存入数据库中与对应的小语种音频段相关联；基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。本发明专利技术实施例还提供一种小语种语料的生成系统。本发明专利技术实施例快速便捷的收集小语种语料，给识别模型提供小语种训练语料，保证对小语种的识别准确度。

The method and system of generating small language corpus

全部详细技术资料下载

【技术实现步骤摘要】
小语种语料的生成方法及系统
本专利技术涉及智能语音领域，尤其涉及一种小语种语料的生成方法及系统。
技术介绍
训练语音识别模型，需要一定量的语料数据。越多的语料数据，训练的语音识别模型的效果就会越好。常用的一些语言的语料数据相对的较为容易获得。例如，英语、汉语，这些常见语种的语言，有非常多的获取方式。然而，对于一些小语种的语言，获取起来相对较为困难，市面上并没有可以直接获取小语种语料的途径。为了获得小语种的语料，通常会利用开源机构开源的小语种语料，或者从专业的数据公司直接购买，又或者企业提供有关包含小语种的音频，寻找外包公司或者熟悉小语种人员，让其对音频进行标注。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：通过搜集开源数据的方法，主要缺陷就是受限于开源数据量少，无法满足需求或者无法找到某一小语种公开的开源语料，同时有的时候还会受限于国内网络而无法下载，更重要的是有的开源数据明确规定开源数据不得用于商用，只限于研究。从专业数据公司购买数据最大的缺陷就是小语种成本太高，高昂的成本给企业...

【技术保护点】
1.一种小语种语料的生成方法，包括：/n从小语种视频中获取多条小语种音频段；/n将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；/n建立识别脚本，激活一个音频生产者以及多个音频消费者，在预设时间段内调用所述音频生产者，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；/n调用所述多个音频消费者分别从所述生产者队列获取小语种音频段，进行小语种语音识别；/n若所述音频消费者可以确定小语种音频段的识别结果，将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联，更新识别状态；/n基于分布式文件存储的...

【技术特征摘要】
1.一种小语种语料的生成方法，包括：
从小语种视频中获取多条小语种音频段；
将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；
建立识别脚本，激活一个音频生产者以及多个音频消费者，在预设时间段内调用所述音频生产者，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；
调用所述多个音频消费者分别从所述生产者队列获取小语种音频段，进行小语种语音识别；
若所述音频消费者可以确定小语种音频段的识别结果，将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联，更新识别状态；
基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。

2.根据权利要求1所述的方法，其中，所述小语种视频通过爬虫算法获取。

3.根据权利要求1所述的方法，其中，所述识别状态还包括：识别失败；
所述方法还包括：若所述音频消费者无法确定小语种音频段的识别结果，记录无法识别的小语种的音频的识别失败次数，将所述无法识别的小语种音频段返回至所述生产者队列中，以供其他音频消费者进行识别；
若所述识别失败次数达到预设阈值时，将所述无法识别的小语种的音频进行反馈，更新识别状态。

4.根据权利要求1所述的方法，其中，在所述基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料之前，所述方法还包括：
检测在所述预设时间段内，所述音频生产者是否将未识别的小语种音频段放入生产者队列；
当超过所述预设时间段，所述音频生产者没有将未识别的小语种音频段放入生产者队列时，基于分布式文件存储的数据库中小语种音频段的识别结果，生成带有标注的小语种语料。

5.一种小语种语料的生成系统，包括：
音频段获取程序模块，用于从小语种视频中获取多条小语种音频段；
数据存储程序模块，用于将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；<...

【专利技术属性】
技术研发人员：时猛，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人