一种多通道远近场语料采集方法及装置制造方法及图纸

技术编号:21161616 阅读:20 留言:0更新日期:2019-05-22 08:27
本发明专利技术涉及语音识别技术领域,公开了一种多通道远近场语料采集方法及装置,该方法包括:获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;根据所述外接采集设备的数量设置录音线程参数;通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;保存多通道采音数据;能同时采集多通道近场和远场的语音数据,每个通道的数据同时且独立采集互不干扰,实现一次采集多类语料并完成实时自动审核标注,有效降低了人工和时间成本,提高了语料采集的准确性。

A Multichannel Far-Near Field Data Acquisition Method and Device

The invention relates to the field of speech recognition technology, and discloses a multi-channel far-field and near-field corpus acquisition method and device. The method includes acquiring the name and number of external acquisition equipment, including near-field acquisition equipment and far-field acquisition equipment, setting recording thread parameters according to the number of external acquisition equipment, and multi-channel sound acquisition through all threads. Each thread shares a marker bit for identifying the state of sound picking; preserving multi-channel data; acquiring multi-channel near-field and far-field voice data simultaneously, and collecting data from each channel independently without interference. It realizes collecting multi-class corpus at one time and completing real-time automatic auditing and tagging, effectively reduces the labor and time costs, and improves the accuracy of corpus collection. Sex.

【技术实现步骤摘要】
一种多通道远近场语料采集方法及装置
本专利技术涉及语音识别
,尤其涉及一种多通道远近场语料采集方法及装置。
技术介绍
语音数据采集是语音识别中至关重要的阶段,语音数据的质量和数量直接影响到语音识别模型的性能。目前的语料采集装置和方法都是基于单通道采集,要么只采集近场语料,要么只采集远场语料,一般只采集近场语料,然后后期需要人工对语料进行审核标注。这种方法有三点弊端:第一,单通道的采集装置和方法采集效率低下,在大规模的语料采集任务中,这种方法使人力和时间成本急剧上升;第二,只采集近场或者只采集远场语料,使得用于语音识别训练的样本数量少、样本种类单一,这种数据训练出的语音识别模型鲁棒性和泛化能力比较差;第三,使用目前的采集装置和方法采集语料后,后期需要花费大量的人工和时间去对语料进行审核标注,而且审核标注工作容易使人疲劳,审核标注出错几率高,样本的标注错误又不容易被发现。
技术实现思路
本专利技术的主要目的在于提出一种多通道远近场语料采集方法及装置,能同时采集多通道近场和远场的语音数据,每个通道的数据同时且独立采集互不干扰,实现一次采集多类语料并完成实时自动审核标注,有效降低了人工和时间成本,提高了语料采集的准确性。为实现上述目的,本专利技术提供的一种多通道远近场语料采集方法,包括:获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;根据所述外接采集设备的数量设置录音线程参数;通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;保存多通道采音数据。可选地,所述获取外接采集设备的名称和编号之前还包括:加载预设的采集内容文件,调用第三方语音识别模型。可选地,所述保存多通道采音数据之后还包括:通过所述第三方语音识别模型对所述多通道采音数据进行解码,通过所述预设的采集内容审核所述解码结果。可选地,所述保存多通道采音数据之后还包括:对所述多通道采音数据进行声道分离。可选地,所述获取外接采集设备的名称和编号之前还包括:获取被采集者的身份信息,并将所述身份信息保存至所述多通道采音数据中。作为本专利技术的另一方面,提供的一种多通道语料采集装置,包括:获取模块,用于获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;设置模块,用于根据所述外接采集设备的数量设置录音线程参数;采音模块,用于通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;保存模块,用于保存多通道采音数据。可选地,还包括:加载调用模块,用于加载预设的采集内容文件,调用第三方语音识别模型。可选地,还包括:声道分离模块,用于对所述多通道采音数据进行声道分离。可选地,还包括:解码审核模块,用于通过所述第三方语音识别模型对所述多通道采音数据进行解码,通过所述预设的采集内容审核所述解码结果。可选地,还包括:身份信息采集模块,用于获取被采集者的身份信息,并将所述身份信息保存至所述多通道采音数据中。本专利技术提出的一种多通道远近场语料采集方法及装置,该方法包括:获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;根据所述外接采集设备的数量设置录音线程参数;通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;保存多通道采音数据;能同时采集多通道近场和远场的语音数据,每个通道的数据同时且独立采集互不干扰,实现一次采集多类语料并完成实时自动审核标注,有效降低了人工和时间成本,提高了语料采集的准确性。附图说明图1为本专利技术实施例一提供的一种多通道远近场语料采集方法的流程图;图2为本专利技术实施例一提供的一种多通道远近场语料采集场景模拟图;图3为本专利技术实施例一提供的另一种多通道远近场语料采集方法的流程图;图4为本专利技术实施例一提供的再一种多通道远近场语料采集方法的流程图;图5为本专利技术实施例一提供的再一种多通道远近场语料采集方法的流程图;图6为本专利技术实施例一提供的再一种多通道远近场语料采集方法的流程图;图7为本专利技术实施例二提供的一种多通道远近场语料采集装置的示范性结构框图;图8为本专利技术实施例二提供的另一种多通道远近场语料采集装置的示范性结构框图;图9为本专利技术实施例二提供的再一种多通道远近场语料采集装置的示范性结构框图;图10为本专利技术实施例二提供的再一种多通道远近场语料采集装置的示范性结构框图;图11为本专利技术实施例二提供的再一种多通道远近场语料采集装置的示范性结构框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。实施例一如图1所示,在本实施例中,一种多通道远近场语料采集方法,包括:S10、获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;S20、根据所述外接采集设备的数量设置录音线程参数;S30、通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;S40、保存多通道采音数据。在本实施例中,能同时采集多通道近场和远场的语音数据,每个通道的数据同时且独立采集互不干扰,实现一次采集多类语料并完成实时自动审核标注,有效降低了人工和时间成本,提高了语料采集的准确性。在本实施例中,首先搜索现场的外接采集设备,并将外接采集设备的名称和编号记录到设备列表中,以确定外接采集设备的数量,在设备位置摆放上,近场采集设备放置于被采集者旁边,远场采集设备放置于3-5米处。如图2所示,为一多通道远近场语料采集场景模拟图。如图3所示,在本实施例中,所述步骤S10之前还包括:S01、加载预设的采集内容文件,调用第三方语音识别模型。在本实施例中,定义每行是一句话,采集的时候每次读取一行,每行代表一个样本,代表一套采音流程。调用第三方语音识别模型接口,以做到上传音频后能迅速获取识别结果。在本实施例中,根据外接采集设备的数量,决定开辟的录音线程数,每个线程对应一个设备,每个设备同时且独立采音,数据互不干扰,设置好采样率、采样比特以及缓冲区大小等参数。如果设备只能录一种场景的数据,那么声道数设置为1,如果能同时录两种场景的数据,那么声道数设置为2;假如接入三个设备(A、B、C),A设备采集的是近场数据,B设备采集的是远场数据,C设备采集的是近场和远场的混合数据,这时我们需要开辟三个线程采集四个通道的数据。开启多通道采音模式后,每个线程共享一个标志位,用于标识采音状态,被采集者根据步骤S01里按行加载的文本,读出这行的内容。在本实施例中,当读完这行的内容,被采集者发送采集结束的指令后,线程共享的标志位改变状态,音频流的读入操作结束。在每个设备采集的PCM裸流数据上加入WAV头部信息保存成相应的WAV文件。如图4所示,在本实施例中,所述步骤S40之后还包括:S50、对所述多通道采音数据进行声道分离。在本实施例中,设备若采集的是近场和远场的混合数据,则需要做声道分离处理,确定哪一声道为近场哪一声道为远场,将混合数据剥离成两个通道存储数据。例如上述的C设备采集的数据就要做声道分离处理;若设本文档来自技高网...

【技术保护点】
1.一种多通道远近场语料采集方法,其特征在于,包括:获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;根据所述外接采集设备的数量设置录音线程参数;通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;保存多通道采音数据。

【技术特征摘要】
1.一种多通道远近场语料采集方法,其特征在于,包括:获取外接采集设备的名称和编号,所述外接采集设备包括近场采集设备和远场采集设备;根据所述外接采集设备的数量设置录音线程参数;通过所有线程进行多通道采音,每个所述线程共享一个标志位,用于标识采音状态;保存多通道采音数据。2.根据权利要求1所述的一种多通道远近场语料采集方法,其特征在于,所述获取外接采集设备的名称和编号之前还包括:加载预设的采集内容文件,调用第三方语音识别模型。3.根据权利要求2所述的一种多通道远近场语料采集方法,其特征在于,所述保存多通道采音数据之后还包括:通过所述第三方语音识别模型对所述多通道采音数据进行解码,通过所述预设的采集内容审核所述解码结果。4.根据权利要求1所述的一种多通道远近场语料采集方法,其特征在于,所述保存多通道采音数据之后还包括:对所述多通道采音数据进行声道分离。5.根据权利要求1所述的一种多通道远近场语料采集方法,其特征在于,所述获取外接采集设备的名称和编号之前还包括:获取被采集者的身份信息,并将所述身份信息保存至所述多通道采...

【专利技术属性】
技术研发人员:高亚龙丁伟
申请(专利权)人:深圳市伟文无线通讯技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1